লাসো মডেল থেকে বাদ দেওয়া বা অন্তর্ভুক্ত এমন ভেরিয়েবলগুলি কীভাবে ব্যাখ্যা করবেন?


9

আমি অন্যান্য পোস্টগুলি থেকে পেয়েছি যে লাসো মডেলটিতে প্রবেশকারী ভবিষ্যদ্বাণী ভেরিয়েবলগুলিতে কেউ 'গুরুত্ব' বা 'তাত্পর্য' বলতে পারে না কারণ এই ভেরিয়েবলগুলির 'পি-মান বা মানক বিচ্যুতি গণনা করা এখনও একটি কাজ।

এই যুক্তির অধীনে, এটি কি সঠিকভাবে প্রমাণ করা উচিত যে লাসো মডেল থেকে বাদ দেওয়া ভেরিয়েবলগুলি 'অপ্রাসঙ্গিক' বা 'তুচ্ছ'?

যদি তা হয় তবে লাসো মডেলটিতে বাদ দেওয়া বা অন্তর্ভুক্ত এমন চলকগুলি সম্পর্কে আমি আসলে কী দাবি করতে পারি? আমার নির্দিষ্ট ক্ষেত্রে, আমি র্যান্ডনমেস হ্রাস করতে এবং ত্রুটিযুক্ত বক্ররেখার গড়পড়তা করতে 10 বার ভাঁজ ক্রস-বৈধতাটি 100 বার পুনরাবৃত্তি করে টিউনিং প্যারামিটার ল্যাম্বদা নির্বাচন করেছি।

আপডেট 1: আমি নীচে একটি পরামর্শ অনুসরণ করেছি এবং বুটস্ট্র্যাপ নমুনা ব্যবহার করে লাসো পুনরায় চালিত। আমার কাছে এটি 100 টি নমুনা নিয়ে যেতে হয়েছিল (এই পরিমাণটি আমার কম্পিউটার শক্তি রাতারাতি পরিচালনা করতে পারে) এবং কিছু নিদর্শন উদ্ভূত হয়েছিল। আমার 41 টি ভেরিয়েবলের মধ্যে 2 টি 95% এর বেশি সময়ে মডেলটিতে প্রবেশ করেছে, 3 ভেরিয়েবল 90% এর বেশি এবং 5 ভেরিয়েবল 85% এর বেশি। এই 5 টি ভেরিয়েবল 9 টির মধ্যে রয়েছে যা আমি যখন মডেলটিতে প্রবেশ করিয়েছিলাম যখন আমি এটি আসল নমুনা দিয়ে চালিত করেছিলাম এবং তখনকার সর্বোচ্চ মানের সহগ মানগুলি ছিল। যদি আমি 1000 বুটস্ট্র্যাপের নমুনা দিয়ে লাসো চালাই এবং সেই নিদর্শনগুলি বজায় রাখা হয় তবে আমার ফলাফল উপস্থাপনের সবচেয়ে ভাল উপায় কী হবে?

  • 1000 বুটস্ট্র্যাপ নমুনাগুলি কি যথেষ্ট শোনায়? (আমার নমুনার আকার 116)

  • আমি কি সমস্ত ভেরিয়েবলগুলি তালিকাভুক্ত করব এবং তারা কত ঘন ঘন মডেলটি প্রবেশ করে এবং তারপরে যুক্তিযুক্ত যে আরও ঘন ঘন প্রবেশ করে তা উল্লেখযোগ্য হওয়ার সম্ভাবনা বেশি?

  • আমি কি আমার দাবি নিয়ে যেতে পারি? কারণ এটি একটি কাজ চলছে (উপরে দেখুন) আমি কোনও কাট-অফ মান ব্যবহার করতে পারি না, তাই না?

আপডেট 2: নীচের পরামর্শের পরে আমি নিম্নলিখিতগুলি গণনা করেছি: মূল মডেলটিতে গড়ে 78% ভেরিয়েবল 100 টি বুটস্ট্র্যাপ নমুনার জন্য উত্পন্ন মডেলগুলিতে প্রবেশ করেছিল। অন্যদিকে, অন্যান্য উপায়ে কেবলমাত্র 41%। বুটস্ট্র্যাপের নমুনাগুলির জন্য উত্পন্ন মডেলগুলি মূল মডেল (9) এর চেয়ে অনেক বেশি ভেরিয়েবল (গড়ে 17) অন্তর্ভুক্ত করে ed

আপডেট 3: আপনি যদি বুটস্ট্র্যাপিং এবং মন্টে কার্লো সিমুলেশন থেকে প্রাপ্ত ফলাফলগুলি ব্যাখ্যা করতে আমাকে সহায়তা করতে পারেন তবে দয়া করে এই অন্য পোস্টটি দেখুন।

উত্তর:


10

আপনার উপসংহারটি সঠিক। দুটি দিক বিবেচনা করুন:

  1. কোনও প্রভাব সনাক্ত করার জন্য পরিসংখ্যানগত শক্তি। শক্তিটি খুব বেশি না হলে, কেউ এমনকি বৃহত্তর বাস্তব প্রভাবগুলি মিস করতে পারে।
  2. নির্ভরযোগ্যতা: সঠিক (সত্য) বৈশিষ্ট্যগুলি সন্ধানের উচ্চ সম্ভাবনা রয়েছে।

কমপক্ষে 4 টি প্রধান বিবেচনা রয়েছে:

  1. একই ডেটাসেট ব্যবহার করে কি পদ্ধতিটি আপনার দ্বারা পুনরুত্পাদনযোগ্য?
  2. একই ডেটাসেট ব্যবহার করে অন্যরা কী পদ্ধতিটি পুনরুত্পাদনযোগ্য?
  3. অন্যান্য ডেটাসেট ব্যবহার করে ফলাফলগুলি কি পুনরুত্পাদনযোগ্য?
  4. ফলাফল নির্ভরযোগ্য?

যখন কেউ পূর্বাভাসের চেয়ে আরও বেশি কিছু করতে চায় তবে ফলাফলটি সম্পর্কে ভবিষ্যদ্বাণী করার ক্ষেত্রে কোন বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ তা নিয়ে আসলে সিদ্ধান্তে পৌঁছাতে 3., এবং 4 অত্যন্ত গুরুত্বপূর্ণ।

আপনি ৩ টি সম্বোধন করেছেন (এবং এই উদ্দেশ্যে, 100 টি বুটস্ট্র্যাপ যথেষ্ট) তবে পৃথক বৈশিষ্ট্য অন্তর্ভুক্তি ভগ্নাংশ ছাড়াও আমাদের বুটস্ট্র্যাপ বৈশিষ্ট্য সেট এবং মূল নির্বাচিত বৈশিষ্ট্য সেটের মধ্যে গড় পরম 'দূরত্ব' জানতে হবে। উদাহরণস্বরূপ, বুটস্ট্র্যাপ নমুনায় পাওয়া পুরো নমুনা থেকে পাওয়া বৈশিষ্ট্যের গড় সংখ্যা কত? মূল বিশ্লেষণে পাওয়া যায় এমন বুটস্ট্র্যাপ নমুনা থেকে নির্বাচিত বৈশিষ্ট্যগুলির গড় সংখ্যা কত? মূল বৈশিষ্ট্যের সেটের সাথে বুটস্ট্র্যাপের সঠিক মিল খুঁজে পাওয়া যায় এমন অনুপাত কত? মূলের সাথে একমত হওয়ার এক বৈশিষ্ট্যের মধ্যে একটি বুটস্ট্র্যাপ কী অনুপাত ছিল? দুটি বৈশিষ্ট্য?

সামগ্রিক উপসংহারে যে কোনও কাটঅফ ব্যবহার করা উচিত তা বলা ঠিক হবে না।

অংশ ৪. সম্পর্কিত, এর কোনওটিই প্রক্রিয়াটির নির্ভরযোগ্যতার দিকে নজর দেয় না, অর্থাত্ 'সত্য' বৈশিষ্ট্য সংস্থার সাথে বৈশিষ্ট্যটি সেটটি কতটা কাছাকাছি। এর সমাধানের জন্য, আপনি মন্টে-কার্লো পুনরায় সিমুলেশন অধ্যয়ন করতে পারেন যেখানে আপনি 'সত্য' হিসাবে মূল নমুনা লাসো ফলাফলটি গ্রহণ করেন এবং কিছু অনুমানযুক্ত ত্রুটি কাঠামো ব্যবহার করে নতুন প্রতিক্রিয়া ভেক্টরকে কয়েকশবার অনুকরণ করেন। প্রতিটি পুনঃ-সিমুলেশনের জন্য আপনি মূল পুরো ভবিষ্যদ্বাণীকারী ম্যাট্রিক্স এবং নতুন প্রতিক্রিয়া ভেক্টরটিতে লাসো চালান এবং আপনি নির্ধারণ করেছেন যে নির্বাচিত লাসো বৈশিষ্ট্য সেটটি কতটা নিকটবর্তী determine পরীক্ষার্থী পূর্বাভাসকারীদের পুরো সেটটিতে পুনরায় সিমুলেশন শর্তাবলী এবং অনুকরণের জন্য একটি সুবিধাজনক 'সত্য' হিসাবে প্রাথমিকভাবে লাগানো মডেল (এবং লাসো ক্ষেত্রে, নির্বাচিত পূর্বাভাসীদের সেট) থেকে সহগের প্রাক্কলন ব্যবহার করে।

এর নতুন উপলব্ধির অনুকরণ করা ওয়াই মূল দেওয়া এক্স ম্যাট্রিক্স এবং এখন সত্যিকারের রিগ্রেশন কো-কোফিয়েন্টিয়াস, একটির অবশিষ্টাংশগুলি ব্যবহার করতে পারে এবং গড় শূন্যের সাথে স্বাভাবিকতা ধরে নিতে পারে, বা আরও বেশি বুদ্ধিমান হতে, সমস্ত অবশিষ্টাংশকে মূল ফিট থেকে সংরক্ষণ করতে পারেন এবং পরিচিত লিনিয়ার ভবিষ্যদ্বাণীতে অবশিষ্টাংশ যুক্ত করতে তাদের কাছ থেকে একটি বুটস্ট্র্যাপ নমুনা নিতে পারেন এক্সβপ্রতিটি সিমুলেশন জন্য। তারপরে মূল মডেলিং প্রক্রিয়াটি স্ক্র্যাচ থেকে চালিত হয় (সর্বোত্তম পেনাল্টি নির্বাচন সহ) এবং একটি নতুন মডেল বিকাশিত হয়। 100 বা ততোধিক প্রতিটি জন্য পুনরাবৃত্তিগুলি নতুন মডেলটিকে আপনি যে মডেলটি সিমুলেট করছেন তার সাথে তুলনা করে model

আবার, এটি প্রক্রিয়াটির নির্ভরযোগ্যতার একটি ভাল পরীক্ষা - 'সত্য' বৈশিষ্ট্যগুলি সন্ধান করার এবং এর ভাল অনুমান পাওয়ার ক্ষমতা β

কখন ওয়াই বাইনারি হয়, অবশিষ্টাংশের সাথে ডিল করার পরিবর্তে, পুনরায় সিমুলেশনটিতে রৈখিক ভবিষ্যদ্বাণীকে গণনা করা জড়িত এক্সβ আসল ফিট থেকে (যেমন, লাসো ব্যবহার করে) লজিস্টিক ট্রান্সফর্মেশন গ্রহণ এবং প্রতিটি মন্টি কার্লো সিমুলেশনের জন্য নতুন তৈরি করা ওয়াইভেক্টর নতুনভাবে ফিট। আর একটি উদাহরণস্বরূপ বলতে পারেন

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

3
আপনার উচিত ছিল সামনের দিকে, এবং আমার জিজ্ঞাসা করা উচিত ছিল। উপলভ্য তথ্যগুলি যেগুলি সমর্থন করবে তা ছাড়িয়ে আপনি খামটিকে অনেক বেশি চাপ দিচ্ছেন। এই ভাবে চিন্তা করুন। বাইনারি ফলাফলের জন্য, বাইনারি লজিস্টিক মডেলটিতে কেবল বিরতি অনুমান করার জন্য আপনার কমপক্ষে 96 টি পর্যবেক্ষণ থাকতে হবে। তারপরে আপনার প্রার্থীর পূর্বাভাসক সম্পর্কে 15 টি ইভেন্ট প্রয়োজন (যদি দণ্ড না দেওয়া হয়)। ভবিষ্যতের ডেটাসেটে আপনার প্রক্রিয়াটি বৈধ হওয়ার সম্ভাবনা মোটামুটি স্লিম। এটি দেখার আরেকটি উপায় হ'ল এই আলোচনার সমস্তটি আরও বেশি গুরুত্বপূর্ণ (বৃহত্তর হওয়ার সাথে তুলনা করেএন)।
ফ্র্যাঙ্ক হ্যারেল 21

1
আমি বুটস্ট্র্যাপিংয়ের কথা উল্লেখ করছিলাম না। আমি যখন উল্লেখ করেছি যে আপনি যখন কেবলমাত্র 32 টি ইভেন্ট রেখেছেন তখন আপনি কয়েক ডজন প্রার্থী ভেরিয়েবল থেকে কিছু শিখতে পারেন কিনা to
ফ্র্যাঙ্ক হ্যারেল

3
লাসো বেশিরভাগ পদ্ধতির চেয়ে বেশি উপযুক্ত তবে নির্ভরযোগ্যতা এত ছোট একটি নমুনা আকারের সাথে কমে যায়। আপনি চতুর্ভুজ (রিজ; এল 2) পেনাল্টির পরিবর্তে লাসো ব্যবহার করে পার্সিমনি দাবি করছেন। চতুর্ভুজ দন্ড ব্যবহার করে এবং পার্সিমনি না চাওয়ার মাধ্যমে আপনি নিঃসন্দেহে আরও ভাল ভবিষ্যদ্বাণীমূলক বৈষম্য পাবেন। অথবা গুরুতর ডেটা হ্রাস (মাস্কড) করুনওয়াই) তারপরে একটি আনপেনালাইজড সাধারণ মডেলটি ফিট করে।
ফ্র্যাঙ্ক হ্যারেল

1
আপনার যথাযথ সেটিংয়ে পদ্ধতির আসল নির্ভরযোগ্যতা যাচাই করার পরামর্শ দিয়েছিলাম পুনরায় সিমুলেশন পরীক্ষাটি করুন।
ফ্র্যাঙ্ক হ্যারেল

2
আমাকে এই আলোচনাটি সাইন আপ করতে হবে - আপনার প্রশ্নের মূল উত্তরটি হল বেসিক আর প্রোগ্রামিং প্লাস বায়োস্ট্যাট.এমসি.ভ্যান্ডারবিল্ট.ইডু / আরএমএসে সিম্পল সিমুলেশনগুলি একবার দেখুন ।
ফ্রাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.