ক্রস বৈধকরণ বাস্তবায়ন এর ফলাফলগুলিকে প্রভাবিত করে?


9

আপনি জানেন যে, দুটি জনপ্রিয় ধরণের ক্রস-বৈধতা রয়েছে, কে-ফোল্ড এবং এলোমেলো সাবম্যাপলিং ( উইকিপিডিয়ায় বর্ণিত )। তবুও, আমি জানি যে কিছু গবেষক কাগজপত্র তৈরি এবং প্রকাশ করছেন যেখানে কে-ফোল্ড সিভি হিসাবে বর্ণিত কিছু আসলেই একটি এলোমেলো সাবমেল্পিং যা তাই বাস্তবে আপনি কখনই জানেন না যে আপনি যে নিবন্ধটি পড়ছেন তা আসলে কী।
সাধারণত অবশ্যই পার্থক্যটি লক্ষণীয় নয়, এবং তাই আমার প্রশ্নটিও চলে যায় - যখন কোনও ধরণের ফলাফল অন্যর চেয়ে উল্লেখযোগ্যভাবে পৃথক হয় তখন আপনি কি উদাহরণের কথা ভাবতে পারেন?

উত্তর:


4

আপনি বিভিন্ন উদাহরণে প্রশিক্ষণ দেওয়ার কারণে আপনি অবশ্যই বিভিন্ন ফলাফল পেতে পারেন। আমার খুব সন্দেহ আছে যে একটি অ্যালগরিদম বা সমস্যা ডোমেন রয়েছে যেখানে দুজনের ফলাফল কিছুটা আন্দাজযোগ্য উপায়ে পৃথক হতে পারে।


আমি উল্লেখযোগ্যভাবে ভিন্ন ফলাফল বোঝাতে চেয়েছিলেন। আমিও মনে করি এর কোনও নেই, অন্তত বাস্তব-জগতের উদাহরণ। তবুও, আমি মনে করি আমি আরও কিছুটা সময় অপেক্ষা করব।

3

সাধারণত অবশ্যই পার্থক্যটি লক্ষণীয় নয়, এবং তাই আমার প্রশ্নটিও চলে যায় - যখন কোনও ধরণের ফলাফল অন্যর চেয়ে উল্লেখযোগ্যভাবে পৃথক হয় তখন আপনি কি উদাহরণের কথা ভাবতে পারেন?

আমি নিশ্চিত হচ্ছি না যে পার্থক্যটি বিনা লক্ষণীয় এবং এটি কেবলমাত্র অ্যাডহক উদাহরণে এটি লক্ষণীয় হবে। ক্রস-বৈধকরণ এবং বুটস্ট্র্যাপিং (সাব-স্যাম্পলিং) উভয় পদ্ধতিই তাদের নকশার প্যারামিটারগুলির উপর সমালোচনামূলকভাবে নির্ভর করে এবং এই বোঝাপড়াটি এখনও সম্পূর্ণ হয়নি। সাধারণভাবে, কে-ফোল্ড ক্রস-বৈধকরণের মধ্যে ফলাফলগুলি ভাঁজের সংখ্যার উপর সমালোচনামূলকভাবে নির্ভর করে, তাই আপনি সাব-স্যাম্পলিংয়ে যা পর্যবেক্ষণ করবেন তার থেকে সর্বদা আলাদা ফলাফল আশা করতে পারেন।

পয়েন্ট ইন কেস: বলুন যে আপনার কাছে একটি নির্দিষ্ট সংখ্যক পরামিতি রয়েছে line যদি আপনি কে-ফোল্ড ক্রস-বৈধকরণ (প্রদত্ত, স্থির কে সহ) ব্যবহার করেন এবং পর্যবেক্ষণের সংখ্যাটি অসীমের দিকে যেতে দিন, কে-ফোল্ড ক্রস বৈধকরণ মডেল নির্বাচনের ক্ষেত্রে অসম্পূর্ণভাবে বেমানান হবে, অর্থাত্ এটি একটি ভুল মডেল সনাক্ত করবে সম্ভাবনা ০ এর চেয়ে বেশি greater এই চমকপ্রদ ফলাফলটি জুন শাওর কারণে, "ক্রস-ভ্যালিডেশন দ্বারা লিনিয়ার মডেল নির্বাচন", আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জার্নাল , ৮৮ , ৪৮6-৪৯৪ (১৯৯৩), তবে আরও শিথিল খুঁজে পাওয়া যাবে।

সাধারণভাবে, সম্মানজনক পরিসংখ্যান সংক্রান্ত কাগজপত্রগুলি ক্রস-বৈধতা প্রোটোকলকে নির্দিষ্ট করে, ঠিক কারণ ফলাফলগুলি অদম্য নয়। যে ক্ষেত্রে তারা বড় ডেটাসেটের জন্য বিশাল সংখ্যক ভাঁজ বেছে নেয়, তারা মন্তব্য করে এবং মডেল নির্বাচনের পক্ষপাতদুদের সংশোধন করার চেষ্টা করে।


না, না, না, এটি মডেল নির্বাচন নয় মেশিন লার্নিং সম্পর্কে ।

1
আকর্ষণীয় পার্থক্য। আমি ভেবেছিলাম শব্দের প্রায় সমস্ত অর্থেই মডেল নির্বাচন মেশিন লার্নিংয়ের কেন্দ্রবিন্দু।
গ্যাপি

যখন আপনার কয়েকটি প্যারামিটার থাকে তখন এই সমস্ত জিনিস তুচ্ছ (বেশিরভাগ রৈখিক) মডেলগুলির জন্য কাজ করে এবং আপনার কাছে y এবং x রয়েছে এবং আপনি y = x ^ 2 বা y কিনা তা পরীক্ষা করতে চান = এক্স। এখানে আমি এসভিএম বা আরএফ-এর মতো মডেলগুলির ত্রুটি অনুমান করার বিষয়ে কথা বলি যার হাজার হাজার প্যারামিটার থাকতে পারে এবং জটিল হিউরিস্টিক কারণে এখনও বেশি মানায় না।

এই ফলাফলগুলি স্বতন্ত্র ভেরিয়েবলের সংখ্যামূলক সাধারণ লিনিয়ার মডেলগুলির রিগ্রেশন জন্য বৈধ। ভেরিয়েবলগুলি নির্বিচারে শিক্ষার্থী হতে পারে। গুরুত্বপূর্ণ অনুমানটি হ'ল পর্যবেক্ষণের সংখ্যাটি যেমন অসীমের দিকে যায় তেমনি সত্য মডেল বর্ণনা করে এমন শিক্ষার্থীদের সংখ্যা সীমাবদ্ধ থাকে। এগুলি সমস্তই রিগ্রেশনের জন্য কাজ করে, সুতরাং আপনার মতো শ্রেণিবিন্যাসের কাজের জন্য আমি নিশ্চিত নই যে এটি সাহায্য করে।
gappy

এটা না; জিএলএম মেশিন লার্নিং নয়। সত্যিকারের মেশিন লার্নিং পদ্ধতিগুলি ক্রমবর্ধমান সংখ্যক বস্তুর (যদি এটি পর্যাপ্ত পরিমাণে থাকে) থেকে আলাদা করে তাদের জটিলতার মাত্রা ধরে রাখতে যথেষ্ট বুদ্ধিমান; এমনকি রৈখিক মডেলগুলির জন্যও এই পুরো তত্ত্বটি বেশ খারাপ কাজ করে যেহেতু এই রূপান্তরটি খুব কম।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.