নিম্নলিখিত তিনটি ঘটনা বিবেচনা করুন।
স্টেইনের প্যারাডক্স: tiv মাল্টিভারিয়েট স্বাভাবিক বিতরণ থেকে কিছু তথ্য দেওয়া হয়েছে , নমুনা গড়টি সত্যিকার গড়ের খুব ভাল অনুমানকারী নয়। যদি কেউ নমুনার সমস্ত স্থানাঙ্কটি শূন্যের দিকে [বা তাদের গড়ের দিকে, বা আসলে কোনও মানের দিকে, যদি আমি সঠিকভাবে বুঝতে পারি] সঙ্কুচিত হয় তবে নিম্নতর স্কোয়ার ত্রুটির সাথে একটি অনুমান পাওয়া যায়।
এনবি: সাধারণত স্টেইনের প্যারাডক্সটি থেকে কেবল একটি একক ডেটা পয়েন্ট বিবেচনা করে তৈরি করা হয় ; দয়া করে আমাকে সংশোধন করুন যদি এটি অত্যন্ত গুরুত্বপূর্ণ এবং উপরের আমার সূত্রটি সঠিক না হয়।
রিজ রিগ্রেশন: কিছু নির্ভরশীল পরিবর্তনশীল দেওয়া এবং কিছু স্বাধীন ভেরিয়েবল , মানক রিগ্রেশন থাকে ডেটা ওভারফিট করতে এবং নমুনার বাইরে-বাইরে দক্ষতার দিকে পরিচালিত করতে। একসাথে শূন্যের দিকে সঙ্কুচিত করে ওভারফিটিং হ্রাস করতে পারে : ।X β = ( X ⊤ X ) - 1 এক্স ⊤ y β β = ( এক্স ⊤ এক্স + λ আই ) - 1 এক্স ⊤ y
মাল্টিলেভেল / মিক্সড মডেলগুলির এলোমেলো প্রভাব: কিছু নির্ভরশীল পরিবর্তনশীল (উদাহরণস্বরূপ শিক্ষার্থীর উচ্চতা) দেওয়া যা কিছু শ্রেণিবদ্ধ ভবিষ্যদ্বাণীগুলির উপর নির্ভর করে (যেমন স্কুল আইডি এবং শিক্ষার্থীর লিঙ্গ), একজনকে প্রায়শই কিছু ভবিষ্যদ্বাণীকারীকে 'এলোমেলো' হিসাবে বিবেচনা করার পরামর্শ দেওয়া হয়, যেমন ধরুন যে প্রতিটি বিদ্যালয়ে গড় শিক্ষার্থীর উচ্চতা কিছু অন্তর্নিহিত স্বাভাবিক বন্টন থেকে আসে। এর ফলে প্রতি স্কুল প্রতি গড় উচ্চতার অনুমানকে বিশ্ব গড়ের দিকে সঙ্কুচিত করে।
আমার অনুভূতি আছে যে এই সমস্তগুলি একই "সঙ্কুচিত" ঘটনার বিভিন্ন দিক, তবে আমি নিশ্চিত নই এবং অবশ্যই এটি সম্পর্কে একটি ভাল অন্তর্দৃষ্টিটির অভাব নেই। সুতরাং আমার মূল প্রশ্নটি হ'ল: এই তিনটি জিনিসের মধ্যে আসলেই কি গভীর মিল রয়েছে, নাকি এটি কেবলমাত্র একটি স্তরের উপরের লক্ষণ? এখানে সাধারণ থিমটি কী? এটি সম্পর্কে সঠিক স্বজ্ঞাততা কি?
তদতিরিক্ত, এই ধাঁধাটির কয়েকটি টুকরো এখানে দেওয়া হল যা আমার জন্য সত্যিই একসাথে ফিট করে না:
রিজ রিগ্রেশনে, সমানভাবে সঙ্কুচিত হয় না; রিজ সংকোচন আসলে একক মান পচনের সাথে সম্পর্কিত , নিম্ন-বৈকল্পিক দিকগুলি আরও সঙ্কুচিত হয়ে থাকে (উদাহরণস্বরূপ পরিসংখ্যানগত শিক্ষার উপাদানসমূহ 3.4.1 দেখুন)। তবে জেমস-স্টেইন অনুমানকারী সহজেই নমুনাটির গড় গ্রহণ করে এবং এটি একটি স্কেলিং ফ্যাক্টর দ্বারা গুণ করে। কিভাবে একসাথে ফিট?এক্স
আপডেট করুন: দেখুন অসম ভেরিয়ানস সঙ্গে জেমস-স্টেইন মূল্নির্ধারক এবং যেমন এখানে এর ভেরিয়ানস সংক্রান্ত কোফিসিয়েন্টস।
নমুনা গড়টি নীচের মাত্রায় সর্বোত্তম 3.. এর অর্থ কি এই যে যখন রেগ্রেশন মডেলটিতে কেবলমাত্র এক বা দুটি ভবিষ্যদ্বাণী থাকে তখন রিজ রিগ্রেশন সর্বদা সাধারণ ন্যূনতম স্কোয়ারের চেয়েও খারাপ হয়? প্রকৃতপক্ষে, এটি চিন্তা করে দেখুন, আমি 1 ডি (যেমন সহজ, একাধিক রিগ্রেশন) এমন কোনও পরিস্থিতি কল্পনা করতে পারি না যেখানে রিজ সঙ্কুচিত হওয়া উপকারী হবে ...
আপডেট: না দেখুন রিজ রিগ্রেশন সাধারণ ন্যূনতম স্কোয়াস রিগ্রেশনটির তুলনায় কোন উন্নতি দিতে সক্ষম হ'ল দেখুন ?
অন্যদিকে, নমুনা গড়টি সবসময় উপরের মাত্রায় 3 টি সাবঅপটিমাল থাকে it এর অর্থ কি এই যে এর আগে 3 টিরও বেশি ভবিষ্যদ্বাণীকারী রিজ রিগ্রেশন সবসময়ই ওএলএসের চেয়ে ভাল, এমনকি যদি সমস্ত ভবিষ্যদ্বাণীকারী অসংলগ্ন (অরথগোনাল) হয়? সাধারণত রিজ রিগ্রেশন মাল্টিকোলাইনারিটি দ্বারা অনুপ্রাণিত হয় এবং পদটি "স্থিতিশীল" করা প্রয়োজন ।
আপডেট: হ্যাঁ! উপরের মত একই থ্রেড দেখুন।
আনোভাতে বিভিন্ন কারণকে স্থির বা এলোমেলো প্রভাব হিসাবে অন্তর্ভুক্ত করা উচিত কিনা তা নিয়ে প্রায়শই কিছু উত্তপ্ত আলোচনা হয়। আমরা কি একই যুক্তি দিয়ে সবসময় এলোমেলো হিসাবে কোনও উপাদানকে চলা উচিত না যদি এর দুটি স্তরের বেশি থাকে (বা যদি আরও দুটি কারণ থাকে তবে এখন আমি বিভ্রান্ত হয়ে পড়েছি)?
আপডেট করুন: ?
আপডেট: আমি কিছু দুর্দান্ত উত্তর পেয়েছি, কিন্তু কোনও বড় চিত্রের জন্য যথেষ্ট সরবরাহ করে না, তাই আমি প্রশ্নটি "খোলার" দেব will আমি একটি নতুন উত্তরে কমপক্ষে 100 পয়েন্টের অনুদান দেওয়ার প্রতিশ্রুতি দিতে পারি যা বিদ্যমানগুলি ছাড়িয়ে যাবে। আমি বেশিরভাগই একটি একত্রিত দৃষ্টিভঙ্গির সন্ধান করছি যা সংকোচনের সাধারণ ঘটনাটি এই বিভিন্ন প্রসঙ্গে কীভাবে নিজেকে প্রকাশ করে এবং এগুলির মধ্যে প্রধান পার্থক্য চিহ্নিত করতে পারে তা ব্যাখ্যা করতে পারে।