ছুটির ওয়ান-আউট ক্রস-বৈধকরণের শাওয়ের ফলাফলগুলি কখন কার্যকর হয়?


23

ক্রস-ভ্যালিডেশন দ্বারা তাঁর কাগজ লিনিয়ার মডেল নির্বাচন , জুন শাও দেখায় যে মাল্টিভারিয়েট লিনিয়ার রিগ্রেশন পরিবর্তনশীল নির্বাচনের সমস্যার জন্য, লেভ-ওয়ান-আউট ক্রস বৈধকরণের (এলইউসিভি) পদ্ধতিটি 'অ্যাসেম্পোটোটিক্যালি বেমানান'। সরল ইংরেজী ভাষায়, এটি অনেকগুলি ভেরিয়েবল সহ মডেলগুলি নির্বাচন করতে ঝোঁক। একটি সিমুলেশন সমীক্ষায়, শাও দেখায় যে 40 টিরও কম পর্যবেক্ষণের জন্যও, এলওইউসিভি অন্যান্য ক্রস-বৈধতা কৌশলগুলি দক্ষতা অর্জন করতে পারে।

এই কাগজটি কিছুটা বিতর্কিত, এবং কিছুটা উপেক্ষা করা হয়েছে (এর প্রকাশের 10 বছর পরে, আমার কেমোমেট্রিক্স সহকর্মীরা এটির কথা কখনও শুনেনি এবং ভেরিয়েবল নির্বাচনের জন্য আনন্দের সাথে LOOCV ব্যবহার করছে ...)। একটি বিশ্বাসও রয়েছে (আমি এর জন্য দোষী), এর ফলাফলগুলি মূল সীমাবদ্ধতার বাইরে কিছুটা প্রসারিত।

তাহলে প্রশ্ন: এই ফলাফলগুলি কতদূর প্রসারিত হবে? তারা কি নিম্নলিখিত সমস্যার জন্য প্রযোজ্য?

  1. লজিস্টিক রিগ্রেশন / জিএলএম জন্য পরিবর্তনশীল নির্বাচন?
  2. ফিশার এলডিএ শ্রেণিবিন্যাসের জন্য পরিবর্তনীয় নির্বাচন?
  3. সীমাবদ্ধ (বা অসীম) কার্নেল স্পেসের সাথে এসভিএম ব্যবহার করে পরিবর্তনশীল নির্বাচন?
  4. শ্রেণিবিন্যাসে মডেলগুলির তুলনা, এসভিএম বিভিন্ন কার্নেল ব্যবহার করে বলুন?
  5. লিনিয়ার রিগ্রেশন-এর মডেলগুলির তুলনা, বলুন কি এমএলআরকে রিজ রিগ্রেশন এর সাথে তুলনা করছেন?
  6. প্রভৃতি

কেমোমেট্রিক্স বইতে অবশ্যই কিছু আছে; আমি জানি কেবলমাত্র লোকটি এলও ব্যবহার করে এটিও করছে।

উত্তর:


14

শাওয়ের ফলাফল প্রযোজ্য কিনা তা বলতে পারার আগে আপনাকে মডেলের উদ্দেশ্য নির্দিষ্ট করতে হবে। উদাহরণস্বরূপ, যদি উদ্দেশ্যটি পূর্বাভাস হয় তবে LOOCV ভাল ধারণা দেয় এবং পরিবর্তনশীল নির্বাচনের অসঙ্গতি কোনও সমস্যা নয়। অন্যদিকে, যদি উদ্দেশ্যটি গুরুত্বপূর্ণ পরিবর্তনশীলগুলি চিহ্নিত করা এবং তারা কীভাবে প্রতিক্রিয়া ভেরিয়েবলকে প্রভাবিত করে তা বোঝানো হয়, তবে শাওর ফলাফল অবশ্যই স্পষ্টত গুরুত্বপূর্ণ এবং এলওইউসিভি উপযুক্ত নয়।

এআইসি হ'ল এলিওসিভি এবং বিআইসি হ'ল আউট সিভির সমান, যেখানে ভি = এন [ 1 - 1 / ( লগ ( এন ) - 1 ) ] --- কেবল লিনিয়ার মডেলগুলির জন্য বিআইসি ফলাফল। সুতরাং বিআইসি ধারাবাহিকভাবে মডেল নির্বাচন দেয়। সুতরাং শাওর ফলাফলের একটি সংক্ষিপ্ত হাতের সংক্ষিপ্তসারটি হ'ল এআইসি পূর্বাভাসের জন্য দরকারী তবে ব্যাখ্যাটির জন্য বিআইসি দরকারী usefulvv=n[11/(log(n)-1)]


1
আমি বিশ্বাস করি শাও দেখিয়েছেন যে K-ধা সিভি সঙ্গতিহীন যদি যখন সংশোধন করা হয়েছে এন বৃদ্ধি। এন
shabbychef

1
বিআইসিতে এন দিয়ে কে বাড়ছে।
রব হেন্ডম্যান

1
আমি কেবল নিঃশব্দে মনে করিয়ে দেব যে * আইসি <--> * শাও পেপারের সিভি চিঠিপত্র কেবল লিনিয়ার মডেলগুলির জন্যই কাজ করে, এবং বিআইসি নির্দিষ্ট কে দিয়ে কে-ফোল্ড সিভি সমতুল্য।

বাস্তবিক, আমি শাও শো বিশ্বাস করি যে সিভি সঙ্গতিহীন যদি না যেমন এন INF , যেখানে n হল বনাম পরীক্ষা সেটে নমুনার সংখ্যা। এইভাবে কে- ফোল্ড সিভি সর্বদা পরিবর্তনশীল নির্বাচনের জন্য অসঙ্গতিপূর্ণ। আমি কি ভুল বুঝেছি? দ্বারা ধা সিভি আমি মধ্যে নমুনা বিভাজক মানে গোষ্ঠীগুলিকে ও প্রশিক্ষণ - 1 তাদের, এবং তাদের 1 পরীক্ষা, তারপর পুনরায় বার। তারপরে কে এর জন্য এন ভি / এন = 1 / কেnv/n1ninfnvkkkk1knv/n=1/kk-ফোল্ড সিভি, যা কখনই 1 এর কাছে যায় না
শাব্বিচেফ

3
@ এমবিকিউ: না - স্টোন 1977-র এআইসি / এলওইউ প্রুফ রৈখিক মডেলগুলি ধরে নেয় না । এই কারণে, শাওর ফলাফলের বিপরীতে, এটি ব্যাপকভাবে উদ্ধৃত হয়েছে; উদাহরণস্বরূপ EOSL বা গণনা সংক্রান্ত পরিসংখ্যানের হ্যান্ডবুক বা মডেল নির্বাচনের জন্য কোনও ভাল অধ্যায় / কাগজতে মডেল নির্বাচনের অধ্যায়গুলি দেখুন। এটি একটি পৃষ্ঠার দীর্ঘ এবং পঠনযোগ্য মূল্যবোধের চেয়ে কিছুটা বেশি কারণ ফলাফলটি পেতে তিনি যেভাবে ফিশার তথ্য / স্কোর গণনা করতে এড়িয়ে যান সে জন্য এটি কিছুটা ঝরঝরে।
Ars

7

এই কাগজটি কিছুটা বিতর্কিত, এবং কিছুটা উপেক্ষা করা হয়েছে

প্রকৃতপক্ষে নয়, মডেল নির্বাচনের তত্ত্বটি যেখানে উদ্বিগ্ন তা এটি যথাযথভাবে বিবেচিত, যদিও এটি অবশ্যই ভুল ব্যাখ্যা করা হয়নি। আসল সমস্যাটি বন্যের মডেলিংয়ের অনুশীলনের সাথে কতটা প্রাসঙ্গিক। ধরুন আপনি যে কেসগুলি তদন্তের প্রস্তাব করেছেন সেগুলির জন্য সিমুলেশনগুলি সম্পাদন করেন এবং নির্ধারণ করুন যে LOOCV আসলেই বেমানান। আপনি যে কারণটি পেয়েছিলেন তার একমাত্র কারণ আপনি ইতিমধ্যে "সত্য" মডেলটি জানতেন এবং তাই নির্ধারণ করতে পারতেন যে "সত্য" মডেলটি পুনরুদ্ধারের সম্ভাবনাটি 1 তে রূপান্তরিত হয় না বন্যের মডেলিংয়ের জন্য, এটি কতবার সত্য ( যে ঘটনাটি লিনিয়ার মডেলগুলি দ্বারা বর্ণনা করা হয় এবং "সত্য" মডেল বিবেচনা করা লোকদের একটি উপসেট)?

শাওয়ের কাগজটি তাত্ত্বিক কাঠামোর অগ্রযাত্রার জন্য অবশ্যই আকর্ষণীয়। এটি এমনকি কিছু স্পষ্টতাও সরবরাহ করে: যদি "সত্য" মডেলটি সত্যই বিবেচ্য হয় তবে আমাদের টুপিগুলিকে ঝুলিয়ে দেওয়ার জন্য আমাদের ধারাবাহিকতার ফলাফল রয়েছে। তবে আমি নিশ্চিত নই যে আপনি বর্ণিত কেসগুলির জন্য প্রকৃত সিমুলেশনগুলি কতটা আকর্ষণীয় হবে। এটি বেশিরভাগ ক্ষেত্রেই কেন ইওএসএল এর মতো বেশিরভাগ বই শাওয়ের ফলাফলের দিকে বেশি মনোযোগ দেয় না, পরিবর্তে মডেল নির্বাচনের মানদণ্ড হিসাবে ভবিষ্যদ্বাণী / জেনারেলাইজেশন ত্রুটির উপরে থাকে।

সম্পাদনা: আপনার প্রশ্নের খুব সংক্ষিপ্ত উত্তর হ'ল: আপনি যখন ন্যূনতম স্কোয়ারের প্রাক্কলন, চতুর্ভুজ ক্ষতির ক্রিয়াকলাপ সম্পাদন করছেন তখন শাওর ফলাফল কার্যকর হয়। কোনও প্রশস্ত নয়। (আমি মনে করি ইয়াংয়ের একটি আকর্ষণীয় কাগজ ছিল (2005?) যা তদন্ত করেছিল যে আপনার কাছে একটি নেতিবাচক উত্তর সহ ধারাবাহিকতা এবং দক্ষতা থাকতে পারে কিনা।)


আমি বন্যের সত্যিকারের মডেলটি জানি কিনা এটি প্রাসঙ্গিক বলে মনে করি না। যদি কোনও 'সত্য' মডেল থাকে তবে আমি এমন কোনও পদ্ধতি পছন্দ করব যা এটির সন্ধানের সম্ভাবনা বেশি।
shabbychef

2
@ শ্যাববিচেফ: আমি একমত নই তবে দ্রষ্টব্য: "যদি কোনও 'সত্য' মডেল থাকে এবং এটি বিবেচনাধীন থাকে .. আপনি কীভাবে এইটিকে অগ্রাধিকার জানবেন?
আর্স

1
আমার দ্বিতীয় অনুচ্ছেদটি আসলে আপনার মন্তব্যে বিষয়টি তুলে ধরেছে তাও নোট করুন। এটি একটি দুর্দান্ত সম্পত্তি, তবে এটি বুনো ক্ষেত্রে এটি কতটা প্রযোজ্য তা পরিষ্কার নয়; যদিও এটি কিছুটা হলেও স্বাচ্ছন্দ্য বোধ করে, এটি বিপথগামী হতে পারে।
Ars

2
@ পিয়ার্স - লক্ষ করুন যে 'ট্রু' মডেলের "লিনিয়ারিটি" কোনও রৈখিক মডেল থেকে 'সত্য' মডেলটি পুনরুদ্ধার করার একমাত্র উপায় নয়। যদি 'সত্য' মডেলের অ-লিনিয়ার উপাদানটি শব্দ শব্দটির মাধ্যমে ভালভাবে মডেল করা যায় (উদাহরণস্বরূপ, নন-লিনিয়ার প্রভাবগুলি একে অপরকে বাতিল করে দেয়) তবে আমরা যুক্তিযুক্তভাবে লিনিয়ার মডেলটিকে 'সত্য' বলতে পারি I এটি লিনিয়ার টেলর সিরিজের অবশিষ্ট অংশটি নগদ হিসাবে ধরে নেওয়া সমান।
সম্ভাব্যতাব্লোগিক

1
v

6



10/101


প্রমাণের বাইরে, আমি ভাবছি যে আমি তালিকাভুক্ত পাঁচটি মামলার কোনওটির সিমুলেশন অধ্যয়ন হয়েছে কিনা।
shabbychef

কিছু বানাতে চান?

2
আমি করি; যদিও ফলাফলগুলি এখানে ভাগ করে নেওয়ার জন্য আমাকে আরও অনেক কিছু শিখতে হবে।
shabbychef

1
@ শ্যাববিচেফ: কখনও কি এই কাজটি করতে পেলেন? এবং যাইহোক, আপনি যদি এখনও কেমোমেট্রিশিয়ানগণ গণনা করছেন যারা পরিবর্তনশীল নির্বাচনের জন্য সিভি ব্যবহার করেন না বা ব্যবহার করেন না তবে আপনি আমাকে এটি করতে অস্বীকারকারীদের পক্ষে গণনা করতে পারেন, কারণ ক) আমার এখনও কোনও বাস্তব তথ্য নেই এমনকি একটি একক মডেল তুলনার অনুমতি দেওয়ার জন্য পর্যাপ্ত পরিমাণে (নমুনাগুলি) সেট করুন, এবং খ) আমার বর্ণালী সম্পর্কিত তথ্যের জন্য, সম্পর্কিত তথ্যটি সাধারণত বর্ণালীটির বৃহত অংশগুলির উপরে "স্মিটেড" হয়, তাই আমি নিয়মিতকরণ পছন্দ করি যা কঠোর পরিবর্তনশীল নির্বাচন না করে।
সিবেলাইটস মনিকে

1

1) @ars এর উত্তরে ইয়াং (2005) উল্লেখ রয়েছে , "এআইসি এবং বিআইসির শক্তিগুলি ভাগ করা যায় কি?" । স্বাচ্ছন্দ্যে বললে, মনে হয় যে আপনার কাছে একটি মডেল-নির্বাচনের মানদণ্ড উভয়ই ধারাবাহিকতা অর্জন করতে পারবেন না (সঠিক মডেলটি বেছে নেওয়ার প্রবণতা রয়েছে, যদি সত্যই একটি সঠিক মডেল থাকে এবং এটি মডেলগুলির মধ্যে বিবেচনা করা হয়) এবং দক্ষতা (সর্বনিম্ন গড় অর্জন করুন) আপনার চয়ন করা মডেলগুলির মধ্যে গড়ে স্কোয়ার ত্রুটি)। আপনি যদি গড়পড়তাভাবে সঠিক মডেলটি বেছে নেওয়ার প্রবণতা দেখেন তবে কখনও কখনও আপনি সামান্য-খুব-ছোট মডেলগুলি পেয়ে যাবেন ... তবে প্রায়শই একজন প্রকৃত ভবিষ্যদ্বাণীকে হারিয়ে আপনি এমএসইর পক্ষে আরও খারাপ কাজ করেন যার মধ্যে সর্বদা কয়েকজন স্পিউরিয়াস ভবিষ্যদ্বাণী থাকে।

সুতরাং, যেমনটি আগেই বলা হয়েছে, আপনি যদি সঠিক-ডান-ভেরিয়েবলগুলি পাওয়ার চেয়ে ভাল-ভবিষ্যদ্বাণী করা সম্পর্কে বেশি মনোযোগ দেন তবে LOOCV বা AIC ব্যবহার করা ভাল।

২) তবে আমি তাঁর দুটি অন্যান্য কাগজপত্রও উল্লেখ করতে চেয়েছিলাম: ইয়াং (২০০ 2006) "শ্রেণিবিন্যাসের জন্য তুলনা শেখার পদ্ধতি" এবং ইয়াং (২০০ 2007) "রিগ্রেশন পদ্ধতিগুলির তুলনা করার জন্য ক্রস বৈধকরণের ধারাবাহিকতা" । এই কাগজপত্রগুলি দেখায় যে আপনার যদি রৈখিক মডেলের তুলনায় ধীর হারে রূপান্তরকারী মডেলগুলির সাথে তুলনা করা হয় তবে 0-এর দিকে সঙ্কুচিত হওয়ার জন্য প্রশিক্ষণ-থেকে-পরীক্ষার ডেটার অনুপাতের দরকার নেই।

সুতরাং, আপনার আসল প্রশ্নগুলির আরও 1-6 আরও সরাসরি উত্তর দেওয়ার জন্য: একে অপরের সাথে রৈখিক মডেলগুলির তুলনা করার সময় শাওর ফলাফলগুলি প্রয়োগ হয়। রিগ্রেশন বা শ্রেণিবিন্যাসের জন্য, আপনি যদি ননপ্যারামেট্রিক মডেলগুলির তুলনা করছেন যা ধীরে ধীরে (বা এমনকি একটি লিনিয়ার মডেলটিকে একটি ননপ্যারমেট্রিক মডেলের সাথে তুলনা করে) তুলনা করছেন, আপনি প্রশিক্ষণের জন্য বেশিরভাগ ডেটা ব্যবহার করতে পারেন এবং এখনও মডেল-নির্বাচন-ধারাবাহিক সিভি রাখতে পারেন। .. তবে তবুও, ইয়াং পরামর্শ দেয় যে এলইউসিভি খুব চরম।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.