পরিসংখ্যান অনুমান করার সময় নিয়মিতকরণ ব্যবহার করা


18

ভবিষ্যদ্বাণীমূলক মডেলগুলি তৈরি করার সময় আমি নিয়মিতকরণের সুবিধাগুলি সম্পর্কে জানি (পক্ষপাতিত্ব বনাম বৈচিত্র, অত্যধিক মানসিক চাপ প্রতিরোধ করা)। তবে, আমি ভাবছি যে নিয়মিতকরণ (লাসো, রিজ, ইলাস্টিক নেট) করাও যদি ভাল ধারণা হয় তবে যখন রিগ্রেশন মডেলের মূল উদ্দেশ্যটি সহগের উপর নির্ভর করে (যা দেখে ভবিষ্যদ্বাণীকারীরা পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ)। আমি মানুষের চিন্তাভাবনা পাশাপাশি এটির বিষয়ে যে কোনও একাডেমিক জার্নাল বা অ-একাডেমিক নিবন্ধগুলির লিঙ্কগুলি শুনতে আগ্রহী।


4
নিয়মিতকরণ বেয়েসিয়ান চোখের সাথে দেখা যায়, উদাহরণস্বরূপ, কিছু ডাবল এক্সফোনেনশিয়াল পূর্বে (ক্রস বৈধকরণের মাধ্যমে স্কেল চুসেনের সাথে) মিল। সুতরাং একটি সম্ভাবনা সম্পূর্ণ বেয়েস যেতে হয়।
কেজেটিল বি হালওয়ারসেন

1
কোন ভবিষ্যদ্বাণীকারী ননজারো হয় তা নির্ধারণ করা হচ্ছে লাসো কী! যদি আপনি নির্ধারণ করতে চান যে কোনটি পরিসংখ্যানগত দিক থেকে শূন্যের থেকে আলাদা, তবে
লাসোর

উত্তর:


8

"নিয়মিতকরণ" শব্দটি বিভিন্ন বিস্তৃত পদ্ধতিকে আচ্ছাদন করে। এই উত্তরের উদ্দেশ্যে, আমি "পেনালাইজড অপটিমাইজেশন" অর্থাত্ সংকীর্ণ হতে যাচ্ছি, অর্থাত আপনার অপ্টিমাইজেশান সমস্যার সাথে একটি বা এল 2 জরিমানা যুক্ত করুন।এল1এল2

যদি এটি হয় তবে উত্তরটি একটি নির্দিষ্ট "হ্যাঁ! ওয়েল দয়ালু"।

এই জন্য কারণ যে যোগ করা হয় বা এল 2 থেকে সম্ভাবনা ফাংশন বিশালাকার শাস্তি ঠিক একটি সম্ভাবনা করার জন্য একটি পূর্বে Laplace বা গসিয়ান পারেন যোগ হিসাবে একই গাণিতিক ফাংশন অবর বন্টন (লিফট পিচ পেতে: পূর্বে বন্টন অনিশ্চয়তা বর্ণনা ডেটা দেখার আগে প্যারামিটারগুলির মধ্যে, পোস্টেরিয়র ডিস্ট্রিবিউশন ডেটা দেখার পরে প্যারামিটারগুলির অনিশ্চয়তার বিবরণ দেয়) যা বায়েশিয়ান পরিসংখ্যান 101 এর দিকে নিয়ে যায় Bay বায়সিয়ান পরিসংখ্যান খুব জনপ্রিয় এবং আনুমানিক প্রভাবগুলির অনুক্রমের লক্ষ্য নিয়ে সর্বদা সঞ্চালিত হয়।এল1এল2

এটাই ছিল "হ্যাঁ!" অংশ। "ভাল ধরণ" অর্থাৎ নিখুঁত আপনার অবর বন্টন সম্পন্ন করা হয় এবং "সর্বোচ্চ একজন অবর" (MAP) এর প্রাক্কলন বলা হয়। তবে বেশিরভাগ বায়েশিয়ান এমএপি অনুমান ব্যবহার করে না, তারা এমসিএমসি অ্যালগরিদম ব্যবহার করে উত্তরোত্তর বিতরণ থেকে নমুনা দেয়! এর বেশ কয়েকটি সুবিধা রয়েছে, যার একটি এটি বৈকল্পিক উপাদানগুলিতে কম নিম্নমুখী পক্ষপাত রাখে।

বংশবৃদ্ধির স্বার্থে, আমি বায়েশিয়ান পরিসংখ্যান সম্পর্কে বিশদে না যাওয়ার চেষ্টা করেছি, তবে যদি এটি আপনার আগ্রহী হয় তবে এটি সেই জায়গাটি অনুসন্ধান করা শুরু করবে।


2
(+1) তবে আমি যদি এই প্রিয়ারগুলি কেবলমাত্র ভাল ভবিষ্যদ্বাণী দেওয়ার কারণে ব্যবহার করি - প্রকৃতপক্ষে আমি সে উদ্দেশ্যে তাদের পক্ষে ভালভাবে সুর করতে পারি - তবে এমএপি অনুমান বা উত্তরোত্তর বিতরণগুলি আমি কী করব? (অবশ্যই আমি যদি প্রিয়ারদের ডেটাগুলি দেখার আগে প্যারামিটারগুলি সম্পর্কে জ্ঞান উপস্থাপনের জন্য
আবেদন

1
@ স্কার্টচি: এটি একটি খুব ভাল বিষয়: জরিমানা বাছাইয়ের জন্য ক্রস-বৈধতা ব্যবহার করা আপনাকে ধ্রুপদী বায়েশিয়ান কাঠামোর বাইরে রাখে (যতদূর আমি জানি)। নিয়মিতকরণের পরামিতিগুলি বেছে নেওয়ার জন্য সিভি দিয়ে একটি মডেল তৈরি করা এই উত্তরের সাথে মিলবে না, তবে বিশেষজ্ঞের তথ্যের ভিত্তিতে বেছে নেওয়া নির্দিষ্ট জরিমানা দিয়ে নিয়মিতকরণ ব্যবহার করা হবে।
ক্লিফ এবি

2
একটি সতর্কতার শব্দ: পূর্ববর্তী + এমসিসিএম পদ্ধতির ক্ষেত্রে কেবলমাত্র সম্ভাব্য সহগের পোস্টারিয়রগুলি পরীক্ষা করা এবং রিপোর্ট করা হলে বৈধ ফলাফল দেওয়া হবে। অন্যথায়, আমরা একটি নির্বাচনী অনুমানের সেটিংয়ে আছি এবং বেশিরভাগ নিষ্পাপ অনুমান পদ্ধতি অবৈধ।
ব্যবহারকারী3903581

1
(+1) ভাল উত্তর! তবে আমি মনে করি বাক্যটি স্পষ্ট করা উপযুক্ত হতে পারে "তবে বেশিরভাগ বয়েসিয়ান এমএপি অনুমান ব্যবহার করেন না, তারা এমসিএমসি অ্যালগরিদম ব্যবহার করে উত্তরোত্তর বিতরণ থেকে নমুনা দেয়!" দেখে মনে হচ্ছে আপনি বলার চেষ্টা করছেন যে বেশিরভাগ বায়েশিয়ানরা তাদের অনুমানকারী বাছাই করার ক্ষেত্রে পুরো উত্তরোত্তর ব্যবহার করে। সমস্যাটি দেখতে, নোট করুন যে উত্তরের বিতরণের জন্য নমুনা থেকে এমএপিটির জন্য একটি প্রাক্কলন তৈরি করা যেতে পারে।
user795305

8

রিজ ধরণের পেনাল্টি এবং লসো-টাইপ পেনাল্টি ব্যবহার করে অনুমান করাতে পার্থক্য রয়েছে। রিজ ধরণের অনুমানকারীগুলি সমস্ত রিগ্রেশন সহগকে শূন্যের দিকে সঙ্কুচিত করে এবং পক্ষপাতদুষ্ট, তবে অ্যাসিপটোটিক বিতরণ পেতে সহজতর কারণ তারা কোনও পরিবর্তনশীলকে ঠিক শূন্যে সঙ্কুচিত করে না। রিজ অনুমানের পক্ষপাতটি পরবর্তী কার্য সম্পাদন অনুমানের পরীক্ষায় সমস্যাযুক্ত হতে পারে, তবে আমি এতে কোনও বিশেষজ্ঞ নই। অন্যদিকে, লাসো / ইলাস্টিক-নেট ধরণের পেনাল্টিগুলি অনেকগুলি রিগ্রেশন সহগকে শূন্যে সঙ্কুচিত করে এবং অতএব মডেল নির্বাচন কৌশল হিসাবে দেখা যেতে পারে। মডেলগুলি যা তথ্যের ভিত্তিতে নির্বাচিত হয়েছিল তাদের উপর অনুমান সম্পাদনের সমস্যাটি সাধারণত নির্বাচনী অনুমানের সমস্যা বা নির্বাচনের পরে অনুক্রম হিসাবে বিবেচিত হয়। সাম্প্রতিক বছরগুলিতে এই ক্ষেত্রটি অনেক উন্নয়ন করেছে।

Y~এন(μ,1)μμ|Y|>>0YY

একইভাবে, লাসো (বা ইলাস্টিক নেট) নমুনা স্থানটিকে এমনভাবে সীমাবদ্ধ করে যাতে নিশ্চিত হওয়া যায় যে নির্বাচিত মডেলটি নির্বাচিত হয়েছে। এই কাটাটি আরও জটিল, তবে বিশ্লেষণাত্মকভাবে বর্ণনা করা যেতে পারে।

এই অন্তর্দৃষ্টিটির উপর ভিত্তি করে, বৈধ পরীক্ষার পরিসংখ্যানগুলি পাওয়ার জন্য ডেটা ছাঁটাই করা বিতরণের উপর ভিত্তি করে কেউ অনুমান সম্পাদন করতে পারে। আত্মবিশ্বাসের ব্যবধান এবং পরীক্ষার পরিসংখ্যানগুলির জন্য লি এট এর কাজটি দেখুন: http://projecteuclid.org/euclid.aos/1460381681

তাদের পন্থাগুলি আর প্যাকেজ নির্বাচনের ক্ষেত্রে প্রয়োগ করা হয় ।

মডেল নির্বাচনের পরে সর্বোত্তম অনুমান (এবং টেস্টিং) এ (লাসোর জন্য) আলোচনা করা হয়েছে: https://arxiv.org/abs/1705.09417

এবং তাদের (অনেক কম বিস্তৃত) সফ্টওয়্যার প্যাকেজ এতে উপলব্ধ: https://github.com/ammeir2/selectiveMLE


4

আমি বিশেষত লাসোকে সুপারিশ করব যদি আপনি "যা ভবিষ্যদ্বাণীকারীরা স্থিতিশীলভাবে গুরুত্বপূর্ণ" এর উপর ভিত্তি করে অনুমানের জন্য রিগ্রেশন ব্যবহার করার চেষ্টা করছেন - তবে আপনি যে কারণে আশা করতে পারেন তার জন্য নয়।

অনুশীলনে, একটি মডেল মধ্যে পূর্বাভাসীদের সাথে সম্পর্কিত হতে থাকে। এমনকি যদি উল্লেখযোগ্য বহুজাতিকবিস্তৃতি না হয়, তবে রিলেশনারের সাথে "তাত্পর্যপূর্ণ" পূর্বাভাসকারীদের সংশ্লেষের মধ্যে উল্লেখযোগ্যভাবে নমুনা থেকে নমুনায় পরিবর্তিত হতে পারে।

সুতরাং হ্যাঁ, এগিয়ে যান এবং আপনার প্রতিরোধের জন্য লাসো করুন। তারপরে আসল তথ্য থেকে একাধিক বুটস্ট্র্যাপ নমুনায় (কয়েকশত বা তার বেশি) সম্পূর্ণ মডেল বিল্ডিং প্রক্রিয়া (লাসো জরিমানা তুলতে ক্রস-বৈধকরণ সহ) পুনরাবৃত্তি করুন। এইভাবে নির্বাচিত "উল্লেখযোগ্য" ভবিষ্যদ্বাণীকারীদের সেটটি কত পরিবর্তনশীল তা দেখুন।

আপনার ভবিষ্যদ্বাণীকারীরা একে অপরের পক্ষে অত্যন্ত অরগানীয় না হলে এই প্রক্রিয়াটি আপনাকে কোনও রিগ্রেশনটিতে পি-মানগুলি ব্যাখ্যা করার বিষয়ে দু'বার চিন্তাভাবনা করা উচিত যার স্বতন্ত্র ভবিষ্যদ্বাণীকারীরা "উল্লেখযোগ্যভাবে" গুরুত্বপূর্ণ।


1
+1 আমি লিখিত সমস্ত কিছুর সাথে একমত, খুব ব্যবহারিক উত্তর কিন্তু লাসোর পরিবর্তে স্থিতিস্থাপক নেট ব্যবহার করবেন না কেন? (ওপিতে এটির উল্লেখও দেওয়া হয়েছে) রিজ নিয়মিতকরণ ভবিষ্যদ্বাণীকারীদের মধ্যে পারস্পরিক সম্পর্কের জন্য কিছুটা আরও সুস্পষ্টভাবে নিয়ন্ত্রণ করবে।
usεr11852 বলছেন

বাস্তবে লাসো বা ইলাস্টিক-নেট দ্বারা নির্বাচিত মডেলগুলিতে বৈধ পি-মান, অনুমান এবং আত্মবিশ্বাসের অন্তরগুলি গণনা করা সম্ভব, ঠিক সঠিকভাবে করা দরকার।
ব্যবহারকারী3903581

@ ব্যবহারকারী3903581 আমি বিতর্ক করি না যে কেউ বৈধ ঘন ঘন ঘন ঘন লাসো পি-ভ্যালু পেতে পারে, এই অর্থে যে সত্য নাল অনুমানের ফলে এর চেয়ে বড় গুণফল কম হবে, বলুন, প্রতিলিপি 5%। সমস্যাটি প্রায়শই ভবিষ্যদ্বাণীকারীদের কাছে কার্যকারণ সূত্রগুলি দান করার সর্বাত্মক প্রচেষ্টার মধ্যে রয়েছে যার ফলে সম্পর্কযুক্ত ভবিষ্যদ্বাণীকারীদের উত্থাপিত বিষয়গুলি বিবেচনা না করে "গুরুত্বপূর্ণ" বলে মনে করা হয়।
এডিএম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.