সঙ্কুচিত পদ্ধতিগুলি কী সমস্যার সমাধান করে?


61

ছুটির মরসুমটি আমাকে এলিমেটিকাল লার্নিংয়ের সাথে আগুনের পাশে কুঁকানোর সুযোগ দিয়েছে । একটি (ঘন ঘনবাদী) একনোমেট্রিক্সের দৃষ্টিকোণ থেকে আসা, রিজ রিগ্রেশন, লাসো এবং কমপক্ষে অ্যাঙ্গেল রিগ্রেশন (এলএআর) এর মতো সঙ্কুচিত পদ্ধতির ব্যবহার উপলব্ধিতে আমার সমস্যা হচ্ছে। সাধারণত, আমি নিজেরাই প্যারামিটারের অনুমানগুলিতে এবং নিরপেক্ষতা বা কমপক্ষে ধারাবাহিকতা অর্জনে আগ্রহী। সঙ্কুচিত পদ্ধতিগুলি এটি করে না।

আমার কাছে মনে হয় যে এই পদ্ধতিগুলি ব্যবহার করা হয় যখন পরিসংখ্যানবিদরা উদ্বিগ্ন হন যে রিগ্রেশন ফাংশনটি ভবিষ্যদ্বাণীদের কাছে খুব বেশি প্রতিক্রিয়াশীল হয়ে পড়েছে, এটি ভবিষ্যদ্বাণীকারীদেরকে আসলে তার চেয়ে আরও বেশি গুরুত্বপূর্ণ (সহগের পরিধি দ্বারা পরিমাপ করা) বলে মনে করে। অন্য কথায়, overfitting।

তবে, ওএলএস সাধারণত নিরপেক্ষ ও ধারাবাহিক অনুমান সরবরাহ করে ((পাদটীকা) আমি সর্বদা খুব বেশি যে অনুমান করা যায় না তার চেয়ে বেশি ফিট করার সমস্যাটি দেখেছি, তবে আত্মবিশ্বাসের বিরতি খুব ছোট কারণ নির্বাচন প্রক্রিয়াটি বিবেচনায় নেওয়া হয়নি ( ইএসএল এই পরবর্তী পয়েন্টটির উল্লেখ করে)।

নিরপেক্ষ / ধারাবাহিক সহগ অনুমানগুলি ফলাফলের পক্ষপাতহীন / ধারাবাহিক পূর্বাভাসের দিকে পরিচালিত করে। সঙ্কুচিত পদ্ধতিগুলি ওএলএসের তুলনায় ভবিষ্যদ্বাণীগুলিকে গড়ের পরিণতির নিকটে ঠেলে দেয়, সম্ভবত টেবিলে তথ্য রেখে যায়।

পুনরাবৃত্তি করার জন্য, সঙ্কোচন পদ্ধতিগুলি কী সমস্যার সমাধান করার চেষ্টা করছে তা আমি দেখতে পাচ্ছি না। আমি কিছু অনুপস্থিত করছি?

পাদটীকা: সহগের সনাক্তকরণের জন্য আমাদের পূর্ণ কলাম র‌্যাঙ্ক শর্ত প্রয়োজন। ত্রুটিগুলির জন্য exogeneity / শূন্য শর্তাধীন গড় অনুমান এবং লিনিয়ার শর্তাধীন প্রত্যাশা অনুমানটি সহগকে আমরা যে ব্যাখ্যা দিতে পারি তা নির্ধারণ করে তবে আমরা এই অনুমানগুলি সত্য না হলেও আমরা কোনও কিছুর পক্ষপাতহীন বা ধারাবাহিক অনুমান পাই।


1
এখানে বেশ কয়েকটি সম্পর্কিত প্রশ্ন রয়েছে। এটি একটি: stats.stackexchange.com/questions/10478/…
কার্ডিনাল

2
নোট করুন যে প্যারামিটারের ধারাবাহিকতা অর্জনের জন্য সঙ্কুচিত পরামিতি পছন্দ করার ক্ষেত্রে সহজ এবং মোটামুটি দুর্বল শর্ত রয়েছে। এটি বিখ্যাত নাইট অ্যান্ড ফু (2000) পেপারে এবং রিজ রিগ্রেশন এবং লাসোর থেকে অনেক দূরে কভার কেসগুলিতে বিশদ রয়েছে। মডেল নির্বাচনের ধারাবাহিকতাও গত কয়েক বছর ধরে একটি জনপ্রিয় বিষয় হয়ে উঠেছে।
কার্ডিনাল

@ কার্ডিনাল, লাসোর জন্য ধারাবাহিকতার ফলাফলগুলির মডেলগুলির নির্দেশকগুলির জন্য ধন্যবাদ; আমি একটি চেহারা আছে। অবশ্যই, এই ফলাফলগুলি ওএলএসের জন্যও পাওয়া যাবে। ফলাফলগুলি বোঝায় যে উভয় পদ্ধতি একই জায়গায় পাওয়া যায়। সুতরাং আমি এখনও বুঝতে পারি না কেন আমরা ওএলএসের চেয়ে লাসো ব্যবহার করব।
চার্লি 0

1
মডেলের ধারাবাহিকতাটি প্যারামিটারের অনুমানের অ্যাসিম্পটোটিক ধারাবাহিকতার চেয়ে আলাদা ধারণা। আপনি কি এই পার্থক্য সম্পর্কে সচেতন?
কার্ডিনাল

@ কার্ডিনাল, মডেল ধারাবাহিকতা অনুসারে, আমি অনুমান করি যে আপনার অর্থ সঠিক ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত। আমরা ওএলএস ব্যবহার করে বাছাই প্রক্রিয়াতে এআইসির মানদণ্ড ব্যবহার করে এটি পেতে পারি। আমার অনুমান যে আপনি বোঝাচ্ছেন যে সীমাতে লাসো "ভুল" সহগের সাথে সঠিক মডেলটি নির্বাচন করেন?
চার্লি 0

উত্তর:


47

আমি সন্দেহ করি যে আপনি আরও গভীর উত্তর চান, এবং আমাকে অন্য কাউকে এটি সরবরাহ করতে হবে, তবে আমি আপনাকে শিথিল, ধারণাগত দৃষ্টিকোণ থেকে রিজ রিগ্রেশন সম্পর্কে কিছু ধারণা দিতে পারি।

ওএলএস রিগ্রেশন প্যারামিটারের অনুমান দেয় যা নিরপেক্ষ রয়েছে (যেমন, যদি এই ধরণের নমুনাগুলি সংগ্রহ করা হয় এবং প্যারামিটারগুলি অনির্দিষ্টকালের জন্য অনুমান করা হয় তবে পরামিতি অনুমানের নমুনা বিতরণটি সত্য মানের উপর ভিত্তি করে করা হবে)। তদুপরি, নমুনা বিতরণে সমস্ত সম্ভাব্য পক্ষপাতহীন অনুমানের সর্বনিম্নতম পার্থক্য থাকবে (এর অর্থ হল, গড় হিসাবে, কোনও ওএলএস প্যারামিটার অনুমানের সাথে অন্য কোনও পক্ষপাতদুষ্ট প্রাক্কলন পদ্ধতির অনুমানের চেয়ে প্রকৃত মানের কাছাকাছি হবে)। এটি পুরানো সংবাদ (এবং আমি ক্ষমাপ্রার্থনা করি, আমি জানি আপনি এটি ভাল জানেন) তবে তবে ভিন্নতা কম হওয়ার অর্থ এই নয় যে এটি মারাত্মকভাবে কম। কিছু পরিস্থিতিতে, স্যাম্পলিং বিতরণের বৈকল্পিকতা এত বড় হতে পারে যেগুলি ওএলএসের অনুমানকারীটিকে মূলত অকেজো করে তোলে। (উচ্চতর ডিগ্রি বহুবিধ লাইন থাকলে এই পরিস্থিতি দেখা দিতে পারে One

এমন পরিস্থিতিতে একজনকে কী করতে হবে? ঠিক আছে, একটি পৃথক অনুমানকারীের সন্ধান পাওয়া যেতে পারে যার কম বৈকল্পিকতা রয়েছে (যদিও এটি স্পষ্টতই অবশ্যই পক্ষপাতদুষ্ট হতে হবে, উপরে বর্ণিত যা দেওয়া হয়েছিল)। এটি হ'ল আমরা নিম্ন বৈচিত্র্যের জন্য নিরপেক্ষতা বাণিজ্য করছি। উদাহরণস্বরূপ, আমরা প্যারামিটারের প্রাক্কলনগুলি পাই যা সম্ভবত সত্য মানের তুলনায় যথেষ্ট পরিমাণে কাছাকাছি থাকবে সম্ভবত সত্য মানের থেকে কিছুটা নিচে থাকলেও। এই ট্রেড অফটি সার্থক কিনা তা এই পরিস্থিতির মুখোমুখি হওয়ার সময় বিশ্লেষককে অবশ্যই রায় দেওয়া উচিত। যে কোনও হারে, রিজ রিগ্রেশন কেবল এই জাতীয় কৌশল। নিম্নলিখিত (সম্পূর্ণ বানোয়াট) চিত্রটি এই ধারণাগুলি চিত্রিত করার উদ্দেশ্যে।

এখানে চিত্র বর্ণনা লিখুন

এটি রিজ রিগ্রেশনটির একটি সংক্ষিপ্ত, সাধারণ, ধারণাগত ভূমিকা সরবরাহ করে। আমি লাসো এবং এলএআর সম্পর্কে কম জানি, তবে আমি বিশ্বাস করি একই ধারণা প্রয়োগ করা যেতে পারে। লাসো এবং ন্যূনতম কোণ রিগ্রেশন সম্পর্কে আরও তথ্য এখানে পাওয়া যাবে , "সাধারণ ব্যাখ্যা ..." লিঙ্কটি বিশেষভাবে সহায়ক। এটি সঙ্কুচিত পদ্ধতি সম্পর্কে আরও অনেক তথ্য সরবরাহ করে।

আমি আশা করি এটি কিছু মূল্যবান হবে।


12
এটি কিছু সুন্দর ধারণাগত ইঙ্গিত দেয়। দ্বিতীয় অনুচ্ছেদে নিরপেক্ষতা সম্পর্কে প্রচুর ফোকাস রয়েছে, তবে একটি গুরুত্বপূর্ণ সতর্কতা অনুপস্থিত। (ক) লিনিয়ার মডেলটি "সঠিক" না হলে (এবং এটি কখন হয়?) এবং (খ) সমস্ত প্রাসঙ্গিক ভবিষ্যদ্বাণীকে মডেলটিতে অন্তর্ভুক্ত করা না হলে, সহগের হিসাবগুলি এখনও সাধারণভাবে পক্ষপাতদুষ্ট থাকবে।
কার্ডিনাল

5
পক্ষপাতিত্ব / বৈকল্পিক ট্রেড অফ সম্পর্কে আমার সীমিত ধারণাটি হ'ল যে ব্যাখ্যাটির সন্ধানকারী কেউ (সম্ভবত মূল পোস্টার) পক্ষপাতহীনতা পছন্দ করবে, যদিও তারতম্যটি আরও বড় ছিল, তবে কেউ পূর্বাভাস দেওয়ার ক্ষেত্রে ছোট পক্ষপাত সহ কিছু ভাল পছন্দ করতে পারে, এমনকি পক্ষপাত চালু করা হয়.
ওয়েইন

2
@ ওয়াইন: প্রকৃতপক্ষে, এটি বিষয়টি (ক্রুদের) মধ্যে একটি। ESL এর বেশিরভাগ দৃষ্টিভঙ্গি একটি পূর্বাভাসের দৃষ্টিকোণ থেকে আসছে এবং তাই এটি তাদের বিশ্লেষণের একটি বড় অংশকে রঙ করে। একক সহগের উপর বিশেষত পর্যবেক্ষণমূলক সেটিংয়ে অনুমান সম্পাদন করা খুব পিচ্ছিল বিষয়। গুণমানের অনুমানগুলি সত্যই "নিরপেক্ষ" ছিল বলে দাবি করতে কিছুটা গুরুতর দৃinc় বিশ্বাস লাগবে।
কার্ডিনাল

1
কিছু সময় দেওয়া হয়েছে, আমি আমার ইতোমধ্যে অতিরিক্ত মাত্রাতিরিক্ত মন্তব্যগুলি আরও পরে প্রসারিত করার চেষ্টা করতে পারি।
কার্ডিনাল

@ গুং, এখানে একটি সম্পর্কিত মেটা থ্রেড যা আপনার আগ্রহী হতে পারে
রিচার্ড হার্ডি

16

একটি অনুমানকারীর ত্রুটিটি (স্কোয়ার্ড) পক্ষপাত এবং বৈকল্পিক উপাদানগুলির সংমিশ্রণ । তবে অনুশীলনে আমরা একটি নির্দিষ্ট সীমাবদ্ধ তথ্যের নমুনার সাথে একটি মডেল ফিট করতে চাই এবং আমরা নমুনার কিছু জনসংখ্যার তুলনায় গড়ে শূন্য ত্রুটির পরিবর্তে আমাদের যে ডেটা প্রকৃত নমুনায় থাকি তার উপরে মূল্যায়নকারী বিশ্লেষণের মোট ত্রুটি হ্রাস করতে চাই want (যে আমাদের নেই) সুতরাং ত্রুটিটি হ্রাস করতে আমরা পক্ষপাত এবং বৈকল্পিকতা উভয়ই হ্রাস করতে চাই, যার অর্থ প্রায়শই অর্থ হয় বৈষম্যের উপাদানটিকে আরও বেশি হ্রাস করার জন্য পক্ষপাতহীনতার ত্যাগ। ছোট ডেটাসেটগুলির সাথে ডিল করার সময় এটি বিশেষত সত্য, যেখানে ভেরিয়েন্স বেশি হওয়ার সম্ভাবনা রয়েছে।

আমি মনে করি ফোকাসের পার্থক্য নির্ভর করে যে কোনও একটি পদ্ধতির বৈশিষ্ট্যে আগ্রহী কিনা, বা কোনও নির্দিষ্ট নমুনায় সেরা ফলাফল পাওয়া যায় তার উপর। ঘনঘন বিশেষজ্ঞরা সাধারণত সেই কাঠামোর মধ্যে প্রাক্তনটিকে সহজভাবে মোকাবেলা করতে পারেন; বেয়েশিয়ানরা প্রায়শই পরবর্তীকালে বেশি মনোনিবেশ করে।


9

আমি অনুমান করি যে এখানে কয়েকটি উত্তর প্রযোজ্য হতে পারে:

  • যখন পূর্বাভাসীদের ম্যাট্রিক্স পূর্ণ কলামের র‌্যাঙ্ক না থাকে তখন রিজ রিগ্রেশন সনাক্তকরণ সরবরাহ করতে পারে।
  • লাসো এবং এলএআর ব্যবহার করা যেতে পারে যখন ভবিষ্যদ্বাণীকারীদের সংখ্যা পর্যবেক্ষণের সংখ্যার চেয়ে বেশি হয় (অ-একবচনীয় ইস্যুর আর একটি রূপ)।
  • লাসো এবং এলএআর হ'ল স্বয়ংক্রিয় পরিবর্তনশীল নির্বাচন অ্যালগরিদম।

আমি নিশ্চিত নই যে রিজ রিগ্রেশন সম্পর্কিত প্রথম পয়েন্টটি আসলেই একটি বৈশিষ্ট্য; আমি মনে করি যে আমি শনাক্ত না করার কারণে আমার মডেলটি পরিবর্তিত করব। এমনকি কোনও মডেলিং পরিবর্তন ছাড়াই ওএলএস এক্ষেত্রে ফলাফলের অনন্য (এবং নিরপেক্ষ / ধারাবাহিক) ভবিষ্যদ্বাণী সরবরাহ করে।

আমি দেখতে পেলাম কীভাবে দ্বিতীয় পয়েন্টটি সহায়ক হতে পারে, তবে ফরোয়ার্ড নির্বাচন নিরপেক্ষ / ধারাবাহিক অনুমানের সময় পর্যবেক্ষণের সংখ্যার চেয়ে বেশি পরামিতিগুলির ক্ষেত্রেও কাজ করতে পারে।

শেষ পয়েন্টে, ফরোয়ার্ড / পশ্চাদপদ নির্বাচন উদাহরণ হিসাবে সহজেই স্বয়ংক্রিয়ভাবে তৈরি হয়।

সুতরাং আমি এখনও বাস্তব সুবিধা দেখতে পাচ্ছি না।


6
কিছু মন্তব্য: ( 1 ) OLS ঔজ্জ্বল্যের প্রেক্ষাপটে অনুমান না যখন ভবিষ্যতবক্তা ম্যাট্রিক্স পূর্ণ র্যাঙ্ক নয় অনন্য। ( ) ধারাবাহিকতা একটি অ্যাসিম্পটোটিক ধারণা এবং সুতরাং অনুমানকারীগুলির একটি ক্রম প্রয়োজন । এই আপনি ক্রম আপনি বিবেচনা করা হয় ধরণ নির্ধারণ করতে প্রয়োজন মানে এবং বৃদ্ধি ধরণ আপনি আগ্রহী করে ব্যাপার। ( 3 ) একাধিক ধরণের ধারাবাহিকতা রয়েছে এবং তাদের মধ্যে পার্থক্য বোঝা উদাহরণস্বরূপ হতে পারে। ঝাও & ইউ (2006) কাগজ একটা চমৎকার আলোচনা হয়েছে। ( 4 ) নিরপেক্ষতা ওভাররেটেড হয়।
কার্ডিনাল

1
( ) হোরেল এন্ড কেনার্ডে (১৯ 1970০ ) রিজ রিগ্রেশন-এর আসল প্রেরণাটি ছিল অসুস্থ কন্ডিশনার ডিজাইন ম্যাট্রিক্সগুলি পরিচালনা করা, যা র‌্যাঙ্কের ঘাটতির একটি "নরম" রূপ।
কার্ডিনাল

1
@ কার্ডিনাল, পুনরায় (1): দুঃখিত, আমি সহগের হিসাবের তুলনায় ফলাফলের ভবিষ্যদ্বাণীগুলি বোঝাতে চাইছি।
চার্লি 0

1
আহ, ঠিক আছে. প্রশ্নটিতে আপনার পাদটীকা দিয়ে স্কোয়ারগুলি আরও ভাল।
কার্ডিনাল

এখানে উপরে মন্তব্যে যেমন ঝাও & ইউ (2006) সর্বজনীনভাবে উপলব্ধ সংস্করণে একটি লিঙ্ক।
রিচার্ড হার্ডি

4

এখানে বায়োস্টাটিক্স থেকে একটি প্রাথমিক প্রয়োগ উদাহরণ

আসুন ধরে নেওয়া যাক যে আমি ডিম্বাশয়ের ক্যান্সারের উপস্থিতি এবং জিনের সেটগুলির মধ্যে সম্ভাব্য সম্পর্কগুলি অধ্যয়ন করছি।

আমার নির্ভরশীল ভেরিয়েবল একটি বাইনারি (শূন্য বা 1 হিসাবে কোডেড) একটি প্রোটমিক ডাটাবেস থেকে আমার স্বাধীন ভেরিয়েবল কোড ডেটা।

অনেক জেনেটিক্স স্টাডিতে যেমন সাধারণ, আমার ডেটা লম্বা হওয়ার চেয়ে অনেক বেশি বিস্তৃত। আমার 216 টি ভিন্ন পর্যবেক্ষণ রয়েছে তবে 4000 বা তত সম্ভাব্য ভবিষ্যদ্বাণী রয়েছে।

লিনিয়ার রিগ্রেশন ঠিক শেষ (সিস্টেম নির্ধারিত চেয়ে ভয়ঙ্কর)।

বৈশিষ্ট্য নির্বাচনের কৌশলগুলি সত্যিই সম্ভব নয়। 4,000+ বিভিন্ন স্বতন্ত্র ভেরিয়েবলের সাথে সমস্ত সম্ভাব্য সাবসেট কৌশলগুলি পুরোপুরি প্রশ্নের বাইরে এবং এমনকি ক্রমযুক্ত বৈশিষ্ট্য নির্বাচন সন্দেহজনক।

সম্ভবত ইলাস্টিক নেট দিয়ে লজিস্টিক রিগ্রেশন ব্যবহার করা সবচেয়ে ভাল বিকল্প।

আমি বৈশিষ্ট্য নির্বাচন করতে চাই (কোন স্বতন্ত্র ভেরিয়েবলগুলি গুরুত্বপূর্ণ তা সনাক্ত করুন) তাই রিজ রিগ্রেশনটি সত্যিই উপযুক্ত নয়।

এটি সম্পূর্ণরূপে সম্ভব যে এখানে 216 টিরও বেশি স্বতন্ত্র ভেরিয়েবল রয়েছে যার উল্লেখযোগ্য প্রভাব রয়েছে, সুতরাং আমার সম্ভবত লাসো ব্যবহার করা উচিত নয় (লাসো আপনার পর্যবেক্ষণের চেয়ে বেশি ভবিষ্যদ্বাণীকারী সনাক্ত করতে পারে না) ...

ইলাস্টিক নেট লিখুন ...


1
আপনি যেমন পাঠ্যপুস্তক সরবরাহ করতে পারেন যা আপনার দ্বারা উল্লিখিত পরিস্থিতিগুলির সাথে সম্পর্কযুক্ত?
কিউবিক

0

লিনিয়ার রিগ্রেশন সঙ্কুচিত পদ্ধতিগুলি সমাধান করতে পারে এমন আরেকটি সমস্যা হ'ল পর্যবেক্ষণের তথ্যগুলিতে উচ্চ-মাত্রিক কেস-নিয়ন্ত্রণ গবেষণায় গড় চিকিত্সার প্রভাবের (এটিই) একটি কম ভেরিয়েন্স (সম্ভবত পক্ষপাতহীন) অনুমান।

বিশেষত, যেখানে 1) প্রচুর পরিমাণে ভেরিয়েবল রয়েছে (সঠিক মিলের জন্য ভেরিয়েবলগুলি নির্বাচন করা কঠিন করে তোলে), 2) প্রসেসিটি স্কোরের মিলটি চিকিত্সা এবং নিয়ন্ত্রণের নমুনাগুলিতে ভারসাম্যহীনতা দূর করতে ব্যর্থ হয় এবং 3) বহুবর্ণের উপস্থিতি রয়েছে, সেখানে অ্যাডাপটিভ লাসো (চিউ, 2006) এর মতো বেশ কয়েকটি কৌশল হ'ল যেটি অ্যাসেম্পোটোটিক্যালি পক্ষপাতদুষ্ট অনুমান করে। বেশ কয়েকটি কাগজপত্র রয়েছে যেগুলি কার্যকারণ অনুমানের জন্য লাসো রিগ্রেশন ব্যবহার এবং সহগের অনুমানের উপর আস্থা অন্তর উত্পন্ন করার বিষয়ে আলোচনা করে (নিম্নলিখিত পোস্টটি দেখুন: ভেরিয়েবল নির্বাচনের জন্য লাসো ব্যবহারের পরে অনুমান )।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.