অপ্টিমাইজেশন: পরিসংখ্যানগুলিতে সমস্ত অশুভের মূল?


14

আমি নিম্নলিখিত প্রকাশটি আগে শুনেছি:

"পরিসংখ্যানের মধ্যে সমস্ত অপকর্মের মূলে অপটিমাইজেশন"।

উদাহরণস্বরূপ, এই থ্রেডের শীর্ষস্থানীয় উত্তরটি মডেল নির্বাচনের সময় খুব আক্রমণাত্মকভাবে অনুকূল হওয়ার ঝুঁকির প্রসঙ্গে সেই বিবৃতি দেয়।

আমার প্রথম প্রশ্নটি নিম্নরূপ: এই উক্তিটি বিশেষত কারও জন্যই দায়ী? (যেমন পরিসংখ্যান সাহিত্যে)

আমি যা বুঝতে পারি তা থেকে বিবৃতিটি ওভারফিটিংয়ের ঝুঁকিগুলিকে বোঝায়। Ditionতিহ্যগত জ্ঞান বলবেন যে সঠিক ক্রস বৈধতা ইতিমধ্যে এই সমস্যার বিরুদ্ধে লড়াই করে, তবে দেখে মনে হচ্ছে যে এই সমস্যার চেয়ে আরও কিছু আছে।

কঠোর ক্রস বৈধতা প্রোটোকল (উদাহরণস্বরূপ 100 নেস্টেড 10-ভাঁজ সিভি) মেনে চলার পরেও পরিসংখ্যানবিদ এবং এমএল অনুশীলনকারীরা তাদের মডেলগুলিকে অতিরিক্ত অনুকূলকরণ সম্পর্কে সতর্ক হওয়া উচিত? যদি তা হয় তবে "সেরা" মডেলটির সন্ধান বন্ধ করার জন্য আমরা কীভাবে জানব?


দ্বিতীয় প্রশ্নটি অবশ্যই নিজের উপর দাঁড়িয়ে আছে, তাই না?
রাসেলপিয়ার্স

@ Glen_b আমি সেই থ্রেডে একটি রেফারেন্স রেখেছি। তবে কেবল স্পষ্ট করার জন্যই, ডিকরন ইতিমধ্যে পৃথক থ্রেডে তার উত্তরের ফলোআপ প্রশ্নগুলি খুলতে পরামর্শ দিয়েছিল এবং আমি সন্দেহ করি যে এই প্রশ্নের একটি মন্তব্যে সমাধান করা উচিত।
আমেলিও ওয়াজকেজ-রেইনা

3
@ রাসেলএস.পিয়ার্স সম্পাদনাটিতে যে প্রশ্নটি এখন দাঁড়িয়ে আছে তেমনটি দাঁড়িয়েছে - যদিও এটি আমার মন্তব্যের আগে তৈরি করা হয়েছিল - আমি যখন এটি লোড করেছিলাম এবং আসল প্রশ্ন এবং সম্ভাব্য উত্তরগুলি নিয়ে গবেষণা শুরু করি তখন সেখানে ছিল না, কেবলমাত্র আমি যা বর্ণনা করেছি তা ছিল সেখানে একটি বাজে প্রশ্ন হিসাবে। প্রশ্নটি এখন যেমন দাঁড়িয়ে আছে ঠিক আছে।
গ্লেন_বি -রিনস্টেট মনিকা

2
ক্রস-বৈধকরণের সমস্যাটি এখানে অন্য একটি প্রশ্নে আচ্ছাদিত রয়েছে: stats.stackexchange.com/questions/29354/… ক্রস-বৈধকরণ অতিরিক্ত-ফিটনেস এড়াতে সহায়তা করতে পারে, তবে এটি সমস্যার সম্পূর্ণ সমাধান করে না solve কখন থামবেন তা জেনে যাওয়া সিদ্ধান্তগতভাবে জটিল সমস্যা হতে পারে এবং আমার কোনও সাধারণ সমাধান হতে পারে বলে আমি মনে করি না।
ডিকরান মার্সুপিয়াল

1
"যথাযথ ক্রস বৈধকরণ ইতিমধ্যে এই সমস্যার বিরুদ্ধে লড়াই করে, তবে মনে হচ্ছে এই সমস্যার চেয়ে আরও কিছু আছে।" হ্যাঁ: সমস্যাটি এখনও ক্রস বৈধকরণের অনুমানের বৈচিত্র (একাধিক পরীক্ষার সমস্যাযুক্ত) combined যদি আমি সময় পাই তবে আমি আপনার সম্পর্কিত প্রশ্নের উত্তর লিখব।
সিবেলাইটস মনিকে

উত্তর:


14

উদ্ধৃতিটি হ'ল একটি প্যারাফ্রেজ ডোনাল্ড নথের উদ্ধৃতিটির , যা তিনি নিজেই হোয়েরে দায়ী করেছেন। উপরের পৃষ্ঠা থেকে তিনটি নিষ্কাশন:

অকালীন অপ্টিমাইজেশান হ'ল প্রোগ্রামিংয়ে সমস্ত মন্দ (বা এর বেশিরভাগ অংশে) এর মূলে।

অকালীন অপটিমাইজেশন হ'ল সমস্ত অশুভের মূল।

নূথ এটিকে 15 বছর পরে "হোয়েরের ডিক্টাম" হিসাবে উল্লেখ করেছেন ...

আমি জানি না যে আমি পরিসংখ্যানের প্যারাফ্রেজ * এর সাথে একমত। আছে প্রচুর পরিসংখ্যানে 'মন্দ' এর যে অপ্টিমাইজেশান সঙ্গে সম্পর্কযুক্ত নয়।

কঠোর ক্রস বৈধতা প্রোটোকল (উদাহরণস্বরূপ 100 নেস্টেড 10-ভাঁজ সিভি) মেনে চলার পরেও পরিসংখ্যানবিদ এবং এমএল অনুশীলনকারীরা কি সর্বদা তাদের মডেলগুলিকে অতিরিক্ত অনুকূলকরণ সম্পর্কে সতর্ক থাকতে হবে? যদি তা হয় তবে "সেরা" মডেলটির সন্ধান বন্ধ করার জন্য আমরা কীভাবে জানব?

আমি মনে করি যে সমালোচনামূলক জিনিসটি হ'ল আপনি কী পদ্ধতি গ্রহণ করেছেন তার বৈশিষ্ট্যগুলি সম্পূর্ণরূপে (বা সম্পূর্ণ সম্ভব হিসাবে কার্যকর) বোঝা।

* আমি নুথের এটির ব্যবহার সম্পর্কে মন্তব্য করতে অনুমান করব না, যেহেতু আমার পক্ষে খুব কমই ছিল বলুন যে তিনি আমার মতো দশবার বোঝার জন্য যথাযথ দাবি করতে পারেন নি।


2
ধন্যবাদ, এটি সহায়ক। আমি মনে করি প্রোগ্রামিং এবং ওভারফিটিংয়ের প্রাক-পরিপক্ক অপ্টিমাইজেশনের মধ্যে কিছু আকর্ষণীয় সংযোগ রয়েছে। আমি অবাক হই যদি আমাদের সম্প্রদায়ের কোনও অনুরূপ উক্তি আছে এবং যদি পরিসংখ্যানগুলিতে এটির বিরুদ্ধে লড়াই করার কোনও কঠোর উপায় থাকে।
আমেলিও ভাজকেজ-রেইনা

5
আমার এই শব্দগুচ্ছটির ব্যবহার নূথের দ্বারা অনুপ্রাণিত হয়েছিল, যদিও কারণটি ভিন্ন এবং একটি বায়সিয়ান দৃষ্টিকোণ থেকে সমস্ত অপ্টিমাইজেশন একটি খারাপ জিনিস এবং প্রান্তিককরণ আরও ভাল।
ডিকরান মার্শুপিয়াল

3

অপ্টিমাইজেশন (তথ্য-চালিত) মডেল নির্বাচনকে বোঝায়: ধরে নিচ্ছেন কয়েকটি উপায়ে আপনি উদ্ধৃতিটিকে (পরিসংখ্যানগুলিতে) পার্স করতে পারবেন

  • আপনি যদি ভবিষ্যদ্বাণী সম্পর্কে চিন্তা করেন তবে আপনি একক মডেল বাছাইয়ের পরিবর্তে গড় গড়ের মডেলটি দিয়ে ভাল হতে পারেন।
  • আপনি যদি মডেলটির সাথে মানানসই একই ডেটাসেটে কোনও মডেল নির্বাচন করেন তবে এটি সাধারণ আনফারেন্স সরঞ্জামগুলি / পদ্ধতিগুলিতে বিপর্যয় ডেকে আনবে যে ধরে নেবে আপনি মডেলটিকে একটি অগ্রাধিকার বেছে নিয়েছিলেন । (বলুন আপনি ক্রস-বৈধকরণের মাধ্যমে মডেল আকারটি বেছে নেওয়ার পদক্ষেপে পদক্ষেপ গ্রহণ করেন Fre একটি ফ্রিকোয়েনসিস্ট বিশ্লেষণের জন্য, নির্বাচিত মডেলটির জন্য সাধারণ পি-মান বা সিআই ভুল হবে I'm আমি নিশ্চিত যে মডেলকে জড়িত বায়েশিয়ান বিশ্লেষণের ক্ষেত্রে একই সমস্যা রয়েছে) নির্বাচন.)
  • আপনার বিবেচিত মডেলগুলির পরিবারের তুলনায় যদি আপনার ডেটাসেটটি যথেষ্ট পরিমাণে বড় হয় তবে ওভারফিটিং কোনও সমস্যা নাও হতে পারে এবং মডেল নির্বাচন অপ্রয়োজনীয় হতে পারে। (বলুন যে আপনি কয়েকটি ভেরিয়েবল এবং খুব বেশি পর্যবেক্ষণ সহ একটি ডেটাসেট ব্যবহার করে একটি লিনিয়ার রিগ্রেশন ফিট করতে চলেছেন Any যে কোনও উত্সাহী ভেরিয়েবলগুলি যে কোনও উপায়ে 0 এর কাছাকাছি অনুমান করা উচিত, তাই আপনার এমনকি ছোট মডেলটি বেছে নেওয়ারও দরকার নেই))
  • যদি আপনার ডেটাসেটটি যথেষ্ট ছোট হয় তবে সমস্যার জন্য "সত্য" বা "সেরা" মডেলের ফিট করার জন্য আপনার কাছে পর্যাপ্ত ডেটা নাও থাকতে পারে। এমনকি মডেল-নির্বাচনটি ভাল করার অর্থ কী? (লিনিয়ার রিগ্রেশন-এ ফিরে যান: আপনার যদি সমস্তগুলি পর্যাপ্ত পরিমাণে পরিমাপ করার পর্যাপ্ত ডেটা না থাকে তবেও সঠিক ভেরিয়েবলগুলি সহ "সত্য" মডেলটি বেছে নেওয়া উচিত? আপনি কি এমন বৃহত্তম মডেল বেছে নিতে পারেন যার জন্য আপনার কাছে পর্যাপ্ত ডেটা রয়েছে? ?)
  • পরিশেষে, এমনকি এটি পরিষ্কার হয়ে গেলেও আপনি মডেল নির্বাচন করতে পারবেন এবং করা উচিত, ক্রস-বৈধকরণ কোনও চঞ্চলতা নয়। এটির অনেকগুলি বৈকল্পিক এবং এমনকি নিজস্ব টিউনিং প্যারামিটার রয়েছে (ভাঁজের সংখ্যা বা ট্রেন: পরীক্ষার অনুপাত) যা এর বৈশিষ্ট্যগুলিকে প্রভাবিত করে। সুতরাং এটি অন্ধভাবে বিশ্বাস করবেন না।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.