টি এল, ডিআর: এটা যে প্রদর্শিত হবে, পঠিতব্য বিপরীত পরামর্শ, ক্রস বৈধতা (পায়খানা-সিভি) ছুটি এক-আউট - যে,সঙ্গে ধা সিভি(ভাঁজ সংখ্যা) থেকে সমান(নম্বর প্রশিক্ষণ পর্যবেক্ষণের) -মডেল / অ্যালগরিদম, ডেটাসেট, বা উভয়কেইনির্দিষ্ট স্থিতিশীলতার শর্তধরে ধরেযেকোনওজন্যসবচেয়ে কম পরিবর্তনশীল, সাধারণের ত্রুটির প্রাক্কলন উত্পাদনকরে (আমি নিশ্চিত না যে কোনটি সত্য কারণ আমি এই স্থায়িত্বের অবস্থাটি সত্যিই বুঝতে পারি না)।কে
- এই স্থায়িত্বের অবস্থাটি কি কেউ পরিষ্কারভাবে ব্যাখ্যা করতে পারে?
- লিনিয়ার রিগ্রেশন এমনই একটি "স্থিতিশীল" অ্যালগরিদম যা সত্য তা বোঝায় যে এলওইউ-সিভি হ'ল সাধারণীকরণের ত্রুটির অনুমানের পক্ষপাত এবং বৈকল্পিকতা যতটা সম্ভব সিভি-র সেরা পছন্দ?
প্রচলিত জ্ঞান যে পছন্দ মধ্যে ধা সিভি একটি পক্ষপাত-ভ্যারিয়েন্স ট্রেড বন্ধ অনুসরণ করে, এমন নিম্ন মান (সমীপবর্তী 2) সাধারণীকরণ ত্রুটির অনুমান আছে আরো হতাশাপূর্ণ পক্ষপাত সীসা কিন্তু কম ভ্যারিয়েন্স, উচ্চ মান যখন এর (সমীপবর্তী অনুমান কম পক্ষপাতমূলক হয়, কিন্তু বৃহত্তর ভ্যারিয়েন্স সঙ্গে) নেতৃত্ব। সাথে ক্রমবর্ধমান এই ঘটনার জন্য প্রচলিত ব্যাখ্যা সম্ভবত পরিসংখ্যান শিক্ষার উপাদানসমূহ (বিভাগ 7.10.1) এ সর্বাধিক সুস্পষ্টভাবে দেওয়া হয়েছে :
কে = এন এর সাথে, ক্রস-বৈধতা অনুমানকারীটি সত্য (প্রত্যাশিত) পূর্বাভাস ত্রুটির জন্য প্রায় পক্ষপাতহীন, তবে উচ্চতর বৈকল্পিকতা থাকতে পারে কারণ এন "প্রশিক্ষণ সেট" একে অপরের সাথে একই রকম।
এর অর্থ এই যে বৈধকরণের ত্রুটিগুলি আরও উচ্চতর সম্পর্কিত হয় যাতে তাদের যোগফল আরও পরিবর্তনশীল হয়। এই সাইটের পক্ষে যুক্তির এই লাইনটি বহু উত্তরে (যেমন, এখানে , এখানে , এখানে , এখানে , এখানে , এখানে , এখানে এবং এখানে ) পাশাপাশি বিভিন্ন ব্লগ এবং ইত্যাদিতে পুনরাবৃত্তি হয়েছে তবে এর পরিবর্তে বিশদ বিশ্লেষণ কার্যত কখনই দেওয়া হয় না বিশ্লেষণ কেমন হতে পারে তার কেবলমাত্র একটি স্বজ্ঞাত বা সংক্ষিপ্ত স্কেচ।
তবে সাধারণত একটি নির্দিষ্ট "স্থিতিশীলতা" শর্তের উল্লেখ করে যে আমি সত্যিই বুঝতে পারি না তা বিরোধী বক্তব্যগুলি খুঁজে পেতে পারে। উদাহরণস্বরূপ, এই পরস্পরবিরোধী উত্তরটি একটি 2015 এর কাগজ থেকে কয়েকটি অনুচ্ছেদের উদ্ধৃতি দিয়েছে যা বলেছে যে, অন্যান্য জিনিসগুলির মধ্যে, " কম অস্থিরতার সাথে মডেল / মডেলিংয়ের পদ্ধতির জন্য , এলইও প্রায়শই ছোটতম পরিবর্তনশীলতা থাকে" (জোর যুক্ত করা)। এই কাগজটি (বিভাগ 5.2) সম্মত বলে মনে হচ্ছে যে মডেল / অ্যালগোরিদম যতক্ষণ না "স্থিতিশীল" থাকে ততক্ষণ LO এর সর্বনিম্ন পরিবর্তনশীল পছন্দকে উপস্থাপন করে । এই ইস্যুতে আরও একটি অবস্থান নিয়ে, এই কাগজটিও রয়েছে (Corollary 2), যা বলে যে " ভাঁজ ক্রস বৈধকরণের বৈকল্পিকতা [...] তে নির্ভর করে নাট ট, "আবার একটি নির্দিষ্ট" স্থিতিশীলতা "শর্ত উদ্ধৃত করে।
এলইউ কেন সবচেয়ে পরিবর্তনশীল ফোল্ড সিভি হতে পারে সে সম্পর্কে ব্যাখ্যা যথেষ্ট স্বজ্ঞাত, তবে একটি পাল্টা স্বীকৃতি রয়েছে। গড় স্কোয়ার ত্রুটির চূড়ান্ত সিভি অনুমান (এমএসই) প্রতিটি ভাগে এমএসই অনুমানের গড় the সুতরাং হিসাবে পর্যন্ত বৃদ্ধি , সিভি অনুমান র্যান্ডম ভেরিয়েবল সংখ্যা ক্রমেই বেড়ে গড় হয়। এবং আমরা জানি যে গড়ের ভেরিয়েশন গড়ের সাথে ভেরিয়েবলের সংখ্যা হ্রাস পায়। সুতরাং , এলইও- সর্বাধিক পরিবর্তনশীল ফোল্ড সিভি হওয়ার জন্য, এটি সত্য হতে হবে যে এমএসই অনুমানের মধ্যে বর্ধিত সম্পর্কের কারণে বৈচিত্রের বৃদ্ধি বৃদ্ধি পর্বের গড় সংখ্যার চেয়ে বেশি সংখ্যার কারণে ভেরিয়েন্সের হ্রাসের পরিমাণের চেয়ে বেশি। এটি মোটেই স্পষ্ট নয় যে এটি সত্য।
এই সমস্ত সম্পর্কে পুরোপুরি বিভ্রান্ত হয়ে ওঠার পরে, আমি লিনিয়ার রিগ্রেশন কেসটির জন্য সামান্য সিমুলেশন চালানোর সিদ্ধান্ত নিয়েছি। আমি 10,000 ডেটাসেট কৃত্রিম = 50 এবং 3 সম্পর্কহীন ভবিষ্যতবক্তা, প্রতিটি সময় ব্যবহার সাধারণীকরণ ত্রুটি আনুমানিক হিসাব সঙ্গে ধা সিভি = 2, 5, 10, বা 50 = । আর কোডটি এখানে। সমস্ত 10,000 ডেটাসেটের (এমএসই ইউনিটে) জুড়ে সিভি অনুমানের ফলাফল এবং উপায়গুলি এখানে রয়েছে:কে কে এন
k = 2 k = 5 k = 10 k = n = 50
mean 1.187 1.108 1.094 1.087
variance 0.094 0.058 0.053 0.051
এই ফলাফলগুলি প্রত্যাশিত প্যাটার্নটি দেখায় যে উচ্চতর মানগুলি কম হতাশাবাদী পক্ষপাতিত্বের দিকে পরিচালিত করে, তবে এটিও নিশ্চিত করে উপস্থিত হয় যে সিও অনুমানের বৈচিত্রটি এলওইউ ক্ষেত্রে সবচেয়ে কম নয়, সর্বোচ্চ নয়।
সুতরাং দেখা যাচ্ছে যে উপরের কাগজপত্রগুলিতে উল্লিখিত "স্থিতিশীল" কেসগুলির মধ্যে লিনিয়ার রিগ্রেশন অন্যতম, যেখানে ক্রমবর্ধমান সিভি অনুমানগুলিতে বৈচিত্র্য বাড়ানোর পরিবর্তে হ্রাসের সাথে যুক্ত। তবে যা আমি এখনও বুঝতে পারি না তা হ'ল:
- এই "স্থিতিশীলতা" শর্তটি ঠিক কী? এটি কি কিছুটা পরিমাণে মডেল / অ্যালগোরিদম, ডেটাসেট বা উভয় ক্ষেত্রেই প্রযোজ্য?
- এই স্থিতিশীলতা সম্পর্কে চিন্তা করার কোন অন্তর্নিহিত উপায় আছে?
- স্থিতিশীল এবং অস্থির মডেল / অ্যালগরিদম বা ডেটাসেটের অন্যান্য উদাহরণগুলি কী কী?
- এটি বেশিরভাগ মডেল / অ্যালগোরিদম বা ডেটাসেটগুলি "স্থিতিশীল" এবং এইজন্য সাধারণত উচ্চতর হিসাবে বেছে নেওয়া উচিত হিসাবে গণ্যমান্যভাবে সম্ভব?