সংকোচনের কাজ কেন?


55

মডেল নির্বাচনের সমস্যাগুলি সমাধান করার জন্য, প্রচুর পদ্ধতি (এলএএসএসও, রিজ রিগ্রেশন ইত্যাদি) প্রেডিক্টর ভেরিয়েবলের সহগগুলি শূন্যের দিকে সঙ্কুচিত করবে। কেন এটি ভবিষ্যদ্বাণীপূর্ণ সক্ষমতা উন্নত করে তার একটি স্বজ্ঞাত ব্যাখ্যা খুঁজছি। যদি ভেরিয়েবলের আসল প্রভাবটি আসলে খুব বড় ছিল তবে পরামিতি সঙ্কুচিত হওয়ার কারণে আরও খারাপ ভবিষ্যদ্বাণী হবে না কেন?

উত্তর:


48

মোটামুটিভাবে বলতে গেলে ভবিষ্যদ্বাণী ত্রুটির তিনটি ভিন্ন উত্স রয়েছে:

  1. আপনার মডেল এর পক্ষপাতিত্ব
  2. আপনার মডেলের বৈকল্পিকতা
  3. অব্যক্ত বৈকল্পিকতা

আমরা পয়েন্ট 3 সম্পর্কে কিছুই করতে পারি না (অব্যক্ত বর্ণের ভিন্নতাটি অনুমান করার চেষ্টা করা এবং এটি আমাদের ভবিষ্যদ্বাণীীয় ঘনত্ব এবং ভবিষ্যদ্বাণী ব্যবস্থায় অন্তর্ভুক্ত করা) except এটি আমাদের 1 এবং 2 দিয়ে ছেড়ে যায়।

যদি আপনার কাছে আসলে "ডান" মডেল থাকে, তবে বলুন, ওএলএস প্যারামিটার অনুমানগুলি পক্ষপাতহীন হবে এবং সমস্ত পক্ষপাতহীন (লিনিয়ার) অনুমানকারীগুলির মধ্যে তারা ন্যূনতম বৈচিত্র্য রাখবে (তারা নীল)। ওএলএস মডেলের ভবিষ্যদ্বাণীগুলি সেরা রৈখিক নিরপেক্ষ ভবিষ্যদ্বাণী (বিএলইউপিএস) হবে। ভাল লাগছে।

তবে এটি প্রমাণিত হয়েছে যে যদিও আমাদের পক্ষপাতহীন ভবিষ্যদ্বাণী এবং সমস্ত পক্ষপাতহীন পূর্বাভাসের মধ্যে ন্যূনতম বৈচিত্র রয়েছে, তবুও তারতম্যটি বেশ বড় হতে পারে। আরও গুরুত্বপূর্ণ, আমরা মাঝে মাঝে "সামান্য" পক্ষপাতিত্ব পরিচয় করিয়ে দিতে পারি এবং একই সাথে "প্রচুর পরিমাণে" বৈকল্পিকতা সংরক্ষণ করতে পারি - এবং ঠিক ট্রেড অফ পেয়ে আমরা একটি পক্ষপাতদুষ্ট (নিম্নতম বৈকল্পিক) মডেলটির সাথে একটি পক্ষপাতহীন ( উচ্চতর বৈকল্পিক) এক। এটিকে "পক্ষপাত-বৈকল্পিক ট্রেড অফ" বলা হয় এবং এই প্রশ্ন এবং এর উত্তরগুলি আলোকিত করে: পক্ষপাতদুষ্ট অনুমানকারী কখন নিরপেক্ষ ব্যক্তির চেয়ে বেশি পছন্দ হয়?

এবং লাসো, রিজ রিগ্রেশন, ইলাস্টিক নেট এবং এর মতো নিয়মিতকরণ ঠিক তাই করে। তারা মডেলটিকে শূন্যের দিকে টানেন। (বায়েশিয়ান পদ্ধতিগুলি একই রকম - তারা মডেলগুলিকে প্রিরিয়ার দিকে টান দেয়)) সুতরাং, নিয়মিত মডেলগুলি নিয়মিত-অ-মডেলগুলির তুলনায় পক্ষপাতদুষ্ট হবে, তবে তারতম্যও কম হবে। আপনি যদি আপনার নিয়মিতকরণটি সঠিকভাবে চয়ন করেন তবে ফলাফলটি একটি ত্রুটিযুক্ত একটি ত্রুটিযুক্ত is

আপনি যদি "পক্ষপাত-বৈকল্পিক ট্রেড অফ নিয়ন্ত্রন" বা অনুরূপ অনুসন্ধান করেন তবে আপনি কিছু চিন্তাভাবনা পান। এই উপস্থাপনা, উদাহরণস্বরূপ, দরকারী।

সম্পাদনা: অ্যামিবা বেশ সঠিকভাবে উল্লেখ করেছে যে আমি হ্যান্ডওয়েভ করছি ঠিক কেন নিয়মিতকরণ মডেল এবং ভবিষ্যদ্বাণীগুলির কম বৈকল্পিকতা দেয় । একটি বড় নিয়মিতকরণ পরামিতি সহ একটি লাসো মডেল বিবেচনা করুন । যদি , আপনার লাসো প্যারামিটারের অনুমানগুলি সমস্ত সঙ্কুচিত হয়ে শূন্য হয়ে যাবে। শূন্যের একটি নির্দিষ্ট প্যারামিটার মানটির শূন্যতা রয়েছে। (এই সম্পূর্ণরূপে সঠিক নয় যেহেতু চৌকাঠ মান যা অতিক্রম আপনার পরামিতি শুন্যতে সঙ্কুচিত করা হবে আপনার ডেটা ও আপনার মডেল উপর নির্ভর করে। কিন্তু মডেল এবং তথ্য দেওয়া, আপনি একটি জানতে পারেনλλλλযেমন মডেল শূন্য মডেল। সর্বদা আপনার কোয়ানটিফায়ারগুলিকে সোজা রাখুন)) তবে, শূন্য মডেলের অবশ্যই একটি বিশাল পক্ষপাত থাকবে। এটি সর্বোপরি প্রকৃত পর্যবেক্ষণগুলি সম্পর্কে চিন্তা করে না।

এবং এটিই আপনার নিয়মিতকরণের পরামিতিগুলির সর্বনিম্ন-চূড়ান্ত মানগুলির ক্ষেত্রেও প্রযোজ্য: ছোট মানগুলি অনিয়ন্ত্রিত প্যারামিটার অনুমানের ফল দেবে, যা কম পক্ষপাতদুষ্ট হবে (যদি আপনার "সঠিক" মডেল থাকে তবে পক্ষপাতহীন) তবে উচ্চতর হবে ভ্যারিয়েন্স। আপনার প্রকৃত পর্যবেক্ষণগুলি অনুসরণ করে তারা "চারপাশে" লাফিয়ে উঠবে। আপনার নিয়মিতকরণের উচ্চতর মান আপনার প্যারামিটারের অনুমানকে আরও বেশি করে "সীমাবদ্ধ" করবে। এই কারণেই পদ্ধতিগুলিতে "লাসো" বা "ইলাস্টিক নেট" এর মতো নাম রয়েছে : তারা আপনার পরামিতিগুলির স্বাধীনতার চারপাশে ভাসতে এবং ডেটা অনুসরণ করতে বাধা দেয়।λ

(আমি এটি নিয়ে একটি ছোট্ট কাগজ লিখছি, যা আশাকরি বরং অ্যাক্সেসযোগ্য হবে once আমি একবার একটি লিঙ্ক এলে এটি যুক্ত করব))


4
মনে হচ্ছে ধাঁধার গুরুতর অংশটি: সঙ্কুচিতকরণের পদ্ধতিগুলি কেন বৈকল্পিকতা হ্রাস করে? (যে তারা কিছু পক্ষপাতদুষ্ট পরিচয় করিয়ে দেয় তা কম-বেশি স্পষ্ট) আপনি কি এর জন্য কিছু অন্তর্দৃষ্টি দিতে পারেন?
অ্যামিবা বলেছেন মোনিকা

2
@ স্টেফান কোলাছা তাই সহগের আকারের জন্য জরিমানার মেয়াদে অ্যাকাউন্টিং যোগ করা কিছুটা পক্ষপাতিত্ব যুক্ত করে তবে পরিবর্তনশীলতা হ্রাস করে কারণ এটি বৃহত সহগকে শাস্তি দেয়, এতে সাধারণত ছোট সহগের চেয়ে বেশি পরিবর্তনশীলতা থাকে। এটা কি ঠিক? তারপরে, শেষ পর্যন্ত আমরা কোনও বিশেষ সহগের জন্য 'সঠিক' মান পাওয়ার বিষয়ে এতটা উদ্বিগ্ন নই, আমরা কেবলমাত্র মডেলের সামগ্রিক ভবিষ্যদ্বাণীমূলক দক্ষতায় আগ্রহী?
উচ্চাকাঙ্ক্ষী বিশেষজ্ঞ

2
@ স্পাইরিস্ট্যাটিস্টিস্টিয়ান: আপনার দ্বিতীয় বাক্যটি ঠিক চিহ্নের উপরে। ("ভুল তবে দরকারী" মডেলগুলির সম্পর্কে জর্জ বক্সকে স্মরণ করুন)) বড় পরামিতির অনুমানগুলি ছোটগুলির চেয়ে বেশি সঙ্কুচিত কিনা তা নিয়ে আমি এতটা চিন্তা করব না। প্রথমত, এটি মানকতার উপর নির্ভর করবে। দ্বিতীয়ত, যদি আপনার বড় প্যারামিটার মানগুলি ভালভাবে অনুমান করা হয় (অর্থাত, কম ত্রুটির সাথে), তবে অগত্যা সেগুলি খুব বেশি সঙ্কুচিত হবে না। নিয়মিতকরণ সেই পরামিতিগুলিকে সঙ্কুচিত করতে "পছন্দ করে" যা খারাপভাবে সংজ্ঞায়িত হয়, যার উচ্চতর বৈকল্পিকতা রয়েছে।
এস। কোলাসা - মনিকা

3
+1 টি। শুভকামনা কাগজ দিয়ে! @ স্পাইরিস্ট্যাটিস্টিস্টিয়ান: সংকোচনের বিষয়ে খুব ভাল পর্যবেক্ষণ সঠিক মডেল পাওয়ার বিষয়ে উদ্বিগ্ন নয়; এটি হুবহু সঠিক (এবং এটি বিবেচনার জন্য মূল্যবান): সঠিকভাবে নির্দিষ্ট করা মডেলের নিয়মিত এবং "কম সত্য" একের চেয়ে খারাপ ভবিষ্যদ্বাণীপূর্ণ ক্ষমতা থাকতে পারে ( উদাহরণের জন্য এই কাগজের 307 পৃষ্ঠায় পরিশিষ্ট দেখুন )।
অ্যামিবা বলছেন

7
+1 টি। কেবল যোগ করতে চেয়েছিলেন, যেহেতু প্রশ্নটি নিয়মিত মডেলগুলির পিছনে অন্তর্নিহিততা সম্পর্কে ছিল , তবে এই মডেলগুলির বায়েশিয়ান আবিষ্কার সম্পর্কে উল্লেখ না করা কিছুটা অসম্পূর্ণ বোধ করে। উদাহরণস্বরূপ, রিজ রিগ্রেশনকে সাধারণ এমএলইয়ের সাথে তুলনা করার সময়, বেশিরভাগ অ্যাপ্লিকেশনগুলিতে ইউনিফর্ম (অনুচিত) বিতরণের বিপরীতে, সাধারণ বিতরণ থেকে প্রভাবটি টানা হচ্ছে বলে মনে করা আমার পক্ষে স্বাভাবিক মনে হয়। সুতরাং এই কৌশলগুলি উভয়ই এমএপি অনুমানের বিশেষ ক্ষেত্র হিসাবে দেখলে এটি স্পষ্ট হয় যে কেন কেউ রিজ রিগ্রেশন বেছে নেবে।
jlimahaverford

10

শুধু কিছু যোগ করতে @ Kolassa এর জরিমানা উত্তর, সংকোচন অনুমান পুরো প্রশ্নের সঙ্গে লুকোবার চেষ্টা স্টেইন এর প্যারাডক্স । সহ বহুবিধ প্রক্রিয়াগুলির জন্য , নমুনা গড়ের ভেক্টর গ্রহণযোগ্য নয়। অন্য কথায়, কিছু প্যারামিটার মানের জন্য, স্বল্প প্রত্যাশিত ঝুঁকির সাথে একটি পৃথক অনুমানক রয়েছে। স্টেইন একটি সংকোচনের প্রাক্কলনকারীকে উদাহরণ হিসাবে প্রস্তাব করেছিলেন। সুতরাং আমরা মাত্রিকতার অভিশাপটি নিয়ে কাজ করছি, যেহেতু আপনার কাছে কেবল 1 বা 2 টি স্বতন্ত্র ভেরিয়েবল থাকিলে সঙ্কুচিত হওয়া আপনাকে সহায়তা করে না।p3

আরও জন্য এই উত্তর পড়ুন । স্পষ্টতই, স্টেইনের প্যারাডক্সটি সুপরিচিত উপপাদ্যের সাথে সম্পর্কিত যে 3 বা ততোধিক মাত্রায় একটি ব্রাউশিয়ান গতি প্রক্রিয়াটি পুনরাবৃত্ত হয় না (উত্থানে ফিরে না এসে সমস্ত জায়গায় ঘুরে বেড়ায়), যেখানে 1 এবং 2 ত্রিমাত্রিক ব্রাউনিয়ানগুলি পুনরাবৃত্তি হয়।

স্টেইনের প্যারাডক্স আপনার দিকে যেভাবে সঙ্কুচিত হবে তা বিবেচনা ছাড়াই ধরে রাখে, যদিও বাস্তবে আপনি সত্য প্যারামিটার মানগুলির দিকে সঙ্কুচিত হলে এটি আরও ভাল হয়। বায়েশিয়ানরা এটাই করে। তারা মনে করে যে তারা সত্যিকারের প্যারামিটারটি কোথায় তা তারা জানে এবং তারা এর দিকে সঙ্কুচিত হয়। তারপরে তাদের দাবি যে স্টেইন তাদের অস্তিত্বকে বৈধতা দেয়।

এটিকে একেবারে প্যারাডক্স বলা হয় কারণ এটি আমাদের স্বজ্ঞাতাকে চ্যালেঞ্জ জানায়। যাইহোক, আপনি যদি ব্রাউনিয়ান গতির কথা ভাবেন, তবে 3 ডি ব্রাউনিয়ান গতির উত্সতে ফিরে আসার একমাত্র উপায় হ'ল পদক্ষেপগুলিতে একটি স্যাঁতসেঁতে পেনাল্টি চাপানো। সংকোচনের প্রাক্কলনকারী অনুমানগুলির উপর এক ধরণের ড্যাম্পার চাপিয়ে দেয় (তারতম্য হ্রাস করে), যার কারণে এটি কার্যকর হয়।


স্টেইনের প্যারাডক্স এবং ব্রাউনিয়ান প্রক্রিয়াগুলির মধ্যে সংযোগের জন্য আপনার কাছে কি কোনও রেফারেন্স রয়েছে?
কেজেটিল বি হালওয়ারসন

1
"আরও এই উত্তরটি পড়ুন" এর অধীনে আমার লিঙ্কটি অনুসরণ করুন। সেই কাগজের প্রতিক্রিয়াতে একটি লিঙ্ক রয়েছে যা সংযোগ তৈরি করে।
প্লাসিডিয়া

বেইস অনুমানকারীগুলি সম্পূর্ণ শ্রেণির উপপাদ্য দ্বারা গ্রহণযোগ্য: এটি সরাসরি জেএস অনুমানের সাথে কিছুই করার নেই। যাইহোক, জেএসের নমুনা মানে জেএসের ফলাফলের প্রভাব বেইস অনুমানকারীদের অধ্যয়ন করতে লোককে আরও আগ্রহী করেছে। (আমি বেইসিয়ানরা "দাবির প্রতি আপত্তি জানাচ্ছি যে" স্টেইন তাদের অস্তিত্বকে বৈধতা দিয়েছিল বলে দাবি করে। ")
ব্যবহারকারী 795305
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.