কখন কোন মডেলকে পরিমার্জন বন্ধ করবেন?


15

আমি গত 3 বছর ধরে অনেক বইয়ের পরিসংখ্যান অধ্যয়ন করছি এবং এই সাইটের জন্য আমি অনেক কিছু শিখেছি। তবুও একটি মৌলিক প্রশ্ন এখনও আমার কাছে উত্তরহীন। এটির একটি খুব সহজ বা খুব কঠিন উত্তর থাকতে পারে, তবে আমি নিশ্চিত জানি এটির পরিসংখ্যানের কিছু গভীর বোঝার প্রয়োজন।

কোনও মডেলটিকে উপাত্তে ফিট করার সময়, এটি ঘন ঘনবাদী বা বায়সিয়ান পদ্ধতির হয়ে থাকাকালীন, আমরা এমন একটি মডেল প্রস্তাব করি, যা সম্ভাবনার জন্য একটি কার্যকরী ফর্ম, একটি পূর্ববর্তী বা কার্নেল (নন-প্যারামেট্রিক) ইত্যাদির সমন্বয়ে থাকতে পারে, ইস্যুটি কোনও মডেলই কিছু স্তরের ধরণের সাথে একটি নমুনা ফিট করে fits বর্তমান সময়ে যা আছে তার তুলনায় যে কোনও একটি সর্বদা একটি ভাল বা খারাপ মডেল খুঁজে পেতে পারে। এক পর্যায়ে আমরা থামি এবং সিদ্ধান্তগুলি আঁকতে শুরু করি, জনসংখ্যার প্যারামিটারগুলিতে সাধারণীকরণ করি, আস্থার ব্যবধানগুলি রিপোর্ট করি, ঝুঁকি গণনা করি ইত্যাদি Hence অতএব, আমরা যে সিদ্ধান্তে পৌঁছাই তা যে মডেলটির সাথে নিষ্পত্তি করার সিদ্ধান্ত নিয়েছি তা সর্বদা শর্তাধীন। এমনকি যদি আমরা প্রত্যাশিত কেএল দূরত্ব যেমন এআইসি, এমডিএল ইত্যাদির অনুমানের জন্য সরঞ্জামগুলি ব্যবহার করি, তবে আমরা নিখুঁত ভিত্তিতে কোথায় দাঁড়িয়েছি সে সম্পর্কে কিছুই বলে না, তবে কেবল আপেক্ষিক ভিত্তিতে আমাদের অনুমানকে উন্নত করে।

এখন ধরা যাক আমরা মডেলগুলি তৈরি করার সময় যে কোনও ডেটা সেট প্রয়োগ করতে একটি ধাপে ধাপে পদ্ধতিটি সংজ্ঞায়িত করতে চাই। থামার বিধি হিসাবে আমাদের কী নির্দিষ্ট করা উচিত? আমরা কি কমপক্ষে মডেল ত্রুটি বেঁধে রাখতে পারি যা আমাদের একটি অবজেক্টিং স্টপিং পয়েন্ট দেবে (এটি বৈধতা নমুনা ব্যবহার করে প্রশিক্ষণ বন্ধের চেয়ে পৃথক, কারণ এটি সত্যিকারের ডিজিপিকে ছাঁটাই না করে মূল্যায়নকৃত মডেল শ্রেণির মধ্যে একটি স্টপিং পয়েন্টও দেয়)?


1
আমি মনে করি আপনার প্রশ্নের মধ্যে কেবল ইনফারেন্সের চেয়ে অন্য ট্যাগ যুক্ত করা উচিত, যেমন কয়েকটি মডেলিং ট্যাগ এবং মডেল-নির্বাচন। আমি মনে করি প্রাসঙ্গিক হতে পারে এমন এই হয় Occam এর ক্ষুরএখানে এমন একটি কাগজও রয়েছে যা এটি বায়েশিয়ান মডেলিংয়ের বিষয়টিকে আলোচনা করে।
গুমেও

কখনও কখনও আপনি একটি নির্দিষ্ট মডেল তৈরি করেন কারণ এটি নির্দিষ্ট প্যারামিটারগুলি অনুমানের জন্য বিশেষত ভাল, কারণ আপনি মনে করেন না সামগ্রিক বন্টনটি সঠিক (এম-অনুমান, সাধারণ অনুমানের সমীকরণগুলি দেখুন) ইত্যাদি So তাই, যদি আপনি সত্যিই কোনও অবস্থানের শালীন অনুমানের বিষয়ে যত্নশীল হন, আপনি একটি ভুল মডেল দিয়ে আরও ভাল হতে পারেন তবে এমন একটি যা শব্দে সহজে ছুঁড়ে না (আপনার আগ্রহের প্যারামিটারের জন্য)। সাধারণভাবে, দৃust় অনুমান দেখুন।

খুব মজার প্রশ্ন। কমপক্ষে বায়েশিয়ান সেটিং-এর চেয়ে কম মাত্র একটি মন্তব্য মডেলগুলির চয়নযোগ্য সাবসেটের তুলনায় গড়ের প্রশ্ন উত্থাপন করে। আমি ওপি-র প্রশ্নের কোনও তাত্ত্বিক উপায় সম্পর্কে নিশ্চিত নই এবং আমার ধারণা অনুমান করা হয় যে আমরা যে সমস্যার সমাধান করার চেষ্টা করছি তার জন্য বাছাই করা মডেলটি যথেষ্ট ভাল কিনা তা দিয়েই এটি সম্পন্ন হয়েছে। সম্ভবত আমাদের MCMC পদ্ধতি বা এরকম কিছু দ্বারা মডেল নির্বাচন প্রয়োজন! আমি এটির জন্য একটি নেস্টেড এমসিএমসি পদ্ধতির কল্পনা করতে পারি ...
লুকা

@ লুকা এটি হয়ে গেছে। তবে সমস্যাটি রয়ে গেছে বায়েশিয়ানদের দ্বারা সংজ্ঞায়িত মডেলগুলির স্থান হিসাবে আগে বা সত্যিকারের মডেলটি নাও থাকতে পারে। এমনকি এটির মডেল ত্রুটিটি এখনও থাকলেও, এটি সত্য ডিজিপিকে সম্মান করে গড় মডেলের ত্রুটি।
ক্যাগডাস ওজজেঙ্ক

1
প্রশ্নের জন্য +1। বড় অংশ ইন, উদ্বেগ দার্শনিক বা epistemiological হয় অর্থাত, না "কি কেবল" কি আমরা জানি না এবং কিভাবে আমরা তা জানি না "কিন্তু পারেন আমরা জানি এবং কিভাবে করতে ? আমরা জানি" পদার্থবিজ্ঞানী রিচার্ড ফেনম্যান যেমন বলেছিলেন, "এমন কোনও উত্তর খুঁজে পাওয়া অসম্ভব যেটি কোনও দিন ভুল বলে পাওয়া যাবে না।" অন্য কথায় এবং আপনি ধর্মীয় না হলে সেখানে অবিশ্বাস্য, চিরন্তন স্থল সত্য রয়েছে যার উপর কোনও কিছু নোঙ্গর করা উচিত কিনা তা নিয়ে যুক্তিসঙ্গত সন্দেহ রয়েছে
মাইক হান্টার

উত্তর:


12

দুর্ভাগ্যবশত, এই প্রশ্ন করে না একটি ভাল উত্তর আছে। আপনি কেবল কয়েকটি অতি সাধারণ পছন্দ উল্লেখ করার জন্য সম্ভাব্যতাকে দন্ডিত করে এমন কিছু মানদণ্ড (যেমন এআইসি, বিআইসি) ব্যবহার করে নিখুঁত ত্রুটি, স্কোয়ার ত্রুটি হ্রাস করে, সম্ভাবনা সর্বাধিক করে তোলে তার উপর ভিত্তি করে আপনি সেরা মডেলটি চয়ন করতে পারেন। সমস্যাটি হ'ল এই মানদণ্ডগুলির মধ্যে দুটিই আপনাকে উদ্দেশ্যমূলকভাবে সেরা মডেল বাছাই করতে দেবে না, বরং আপনি যেটির তুলনা করেছেন তার চেয়ে সেরা। আরেকটি সমস্যা হ'ল আপনি অনুকূলিতকরণের সময় সর্বদা কিছু স্থানীয় সর্বাধিক / সর্বনিম্নে শেষ হতে পারেন। তবুও আরেকটি সমস্যা হ'ল মডেল নির্বাচনের জন্য আপনার পছন্দের মানদণ্ড বিষয়ীয় । অনেক ক্ষেত্রে আপনি সচেতনভাবে বা আধা-সচেতনভাবে, আপনি কী আগ্রহী সে বিষয়ে সিদ্ধান্ত নিন এবং এর ভিত্তিতে মানদণ্ডটি চয়ন করুন। জন্য উদাহরণস্বরূপ, এআইসির পরিবর্তে বিআইসি ব্যবহার করা কম প্যারামিটার সহ আরও পার্সিমোনিয়াস মডেল বাড়ে। সাধারণত, মডেলিংয়ের জন্য আপনি আরও পার্সামোনিয়াস মডেলগুলিতে আগ্রহী যা মহাবিশ্ব সম্পর্কে কিছু সাধারণ সিদ্ধান্তে নিয়ে যায়, যখন এটি পূর্বাভাস দেওয়ার জন্য এমনটি হয় না এবং কখনও কখনও আরও জটিল মডেলের আরও ভাল ভবিষ্যদ্বাণীপূর্ণ শক্তি থাকতে পারে (তবে এটি করতে হবে না এবং প্রায়শই হয় না এটা না). তবুও অন্যান্য ক্ষেত্রে, কখনও কখনও ব্যবহারিক কারণে আরও জটিল মডেলগুলি পছন্দ করা হয় , উদাহরণস্বরূপ, এমসিএমসির সাথে বয়েসিয়ান মডেলটি অনুমান করার সময়, হায়ারারিকিকাল হাইপারপ্রায়ার্সযুক্ত মডেলগুলি সহজগুলির চেয়ে সিমুলেশনে আরও ভাল আচরণ করতে পারে। অন্যদিকে, সাধারণত আমরা ওভারফিটিংয়ের বিষয়ে ভয় পাইএবং সহজ মডেলটির ওভারফিটিংয়ের ঝুঁকি কম থাকে, সুতরাং এটি একটি নিরাপদ পছন্দ। এর জন্য দুর্দান্ত উদাহরণ হ'ল একটি স্বয়ংক্রিয় পদক্ষেপের মডেল নির্বাচন যা সাধারণত সুপারিশ করা হয় না কারণ এটি সহজেই অতিমাত্রায় এবং পক্ষপাতদুষ্ট অনুমানের দিকে পরিচালিত করে। ওকামের ক্ষুরার সাথে একটি দার্শনিক যুক্তিও রয়েছে যে সহজতম মডেলটি পছন্দসই preferred আরও লক্ষ করুন, আমরা এখানে বিভিন্ন মডেলের তুলনা করার বিষয়ে আলোচনা করছি, বাস্তব জীবনের পরিস্থিতিতে এটি এমনও হতে পারে যাতে বিভিন্ন পরিসংখ্যানমূলক সরঞ্জাম ব্যবহার করা বিভিন্ন ফলাফলের দিকে নিয়ে যেতে পারে - সুতরাং পদ্ধতিটি বেছে নেওয়ার অতিরিক্ত স্তর রয়েছে!

এগুলি সমস্ত দুঃখজনক, তবে মনোরঞ্জনজনক, সত্য যে আমরা কখনই নিশ্চিত হতে পারি না। আমরা অনিশ্চয়তা দিয়ে শুরু করি, এটি মোকাবেলায় পদ্ধতিগুলি ব্যবহার করি এবং আমরা অনিশ্চয়তার সাথে শেষ করি। এটি বিপরীতমুখী হতে পারে, তবে স্মরণ করুন যে আমরা পরিসংখ্যানগুলি ব্যবহার করি কারণ আমরা বিশ্বাস করি যে পৃথিবী অনিশ্চিত এবং সম্ভাব্য (অন্যথায় আমরা ভাববাদীদের একটি ক্যারিয়ার বেছে নেব), সুতরাং কীভাবে আমরা সম্ভবত বিভিন্ন উপসংহারে শেষ করতে পারি? অবজেক্টিভ স্টপিংয়ের কোনও নিয়ম নেই, একাধিক সম্ভাব্য মডেল রয়েছে, সেগুলি সবই ভুল (ক্লিচির জন্য দুঃখিত!) কারণ তারা জটিল (ক্রমাগত পরিবর্তন এবং সম্ভাব্য) বাস্তবতা সহজ করার চেষ্টা করে। আমরা তাদের আরো কিছু আমাদের উদ্দেশ্যে অন্যদের চেয়ে দরকারী খুঁজে পেতে এবং কখনও কখনও আমরা কিθμ

আপনি আরও গভীরতর দিকে গিয়ে জানতে পারেন যে বাস্তবে "সম্ভাবনা" বলে কোনও জিনিস নেই - এটি আমাদের চারপাশের অনিশ্চয়তার কিছুটা কাছাকাছি এবং এটিকে প্রায় কাছাকাছি করার বিকল্প উপায় যেমন উদ্বিগ্ন যুক্তি (দেখুন কোসকো, ১৯৯৩) আলোচনার জন্য). এমনকি আমাদের পদ্ধতির ভিত্তিযুক্ত যে সমস্ত মৌলিক সরঞ্জাম এবং উপপাদাগুলি হয় তা হল আনুমানিক এবং এটি কেবলমাত্র সম্ভব নয়। আমরা কেবল এই ধরনের সেটআপে নিশ্চিত হতে পারি না।

আপনি যে স্টপিং রুলের সন্ধান করছেন তা সর্বদা সমস্যা-ভিত্তিক এবং বিষয়গত, অর্থাত্ পেশাদার তথাকথিত রায় ভিত্তিতে। যাইহোক, প্রচুর গবেষণার উদাহরণ রয়েছে যা প্রমাণ করেছে যে পেশাদাররা তাদের বিচারের ক্ষেত্রে প্রায়শই বেশি ভাল এবং কখনও কখনও এমনকি তাদের বিচারের চেয়েও খারাপ হন (যেমন ড্যানিয়েল কাহেনিমানের কাগজপত্র এবং বইগুলিতে পুনর্জীবিত ), যখন অতিরিক্ত আত্মবিশ্বাসের ঝুঁকিপূর্ণ (এটি আসলে কেন আমাদের মডেল সম্পর্কে "নিশ্চিত" হওয়ার চেষ্টা করা উচিত নয় সে বিষয়ে একটি তর্ক )।


কোসকো, বি (1993)। অস্পষ্ট চিন্তাভাবনা: অদ্ভুত যুক্তির নতুন বিজ্ঞান। নিউ ইয়র্ক: হাইপারিয়ন।


1
μ

1
দাবিটি সত্য যখন এর অনুমানগুলি সন্তুষ্ট হয় (যেমন আমাদের একটি নির্দিষ্ট নমুনা দেওয়া হয়, যা অনুশীলনে সত্য) is প্রসঙ্গের বাইরে নেওয়া এবং অনুমানের লঙ্ঘনের সাথে অবশ্যই এটিকে মিথ্যা বলা যেতে পারে।
রিচার্ড হার্ডি

1
@ ক্যাগডাস ওজেনসিঙ্কের কারও কাছে এমন একটি মডেল তৈরি করার পদ্ধতি রয়েছে যা পুরোপুরি বাস্তবতা প্রতিফলিত করে, তার চেয়ে নিয়ম বন্ধ করার জন্য বা মডেলের ত্রুটি পরিমাপ করার প্রয়োজন নেই - সংজ্ঞা অনুসারে মডেলটি নিখুঁত। আপনি যদি এই জাতীয় মডেল তৈরির নিয়মগুলি জানেন তবে সত্য ডিজিপিকে জেনে যেমন সঠিক জ্ঞানকে কাজে লাগানো হয় তাই সত্য ডিজিপি থেকে আপনার মডেলটির বিভাজন পরিমাপ করার প্রয়োজন নেই। অন্যদিকে, যদি আপনার মডেলটি আপনার কাছে থাকা ডেটার উপর ভিত্তি করে সরলীকরণ হয়, তবে আমার পরিসংখ্যানে বর্ণিত হিসাবে সাধারণ পরিসংখ্যান বিধি প্রযোজ্য।
টিম

1
থামানো নিয়মের চেয়ে আপনি যদি "সত্য" জানেন তবে @ ক্যাগডাস ওজেগেনেকে এখনও : আপনার মডেলটি "সত্য" এর সাথে মানানসই বন্ধ করুন। "সমস্ত মডেলগুলি [সমানভাবে] ভুল ..." এর চেয়ে যদি আপনি সত্যটি না জানেন এবং আপনার অবশ্যই পরিসংখ্যান ব্যবহার করতে হবে। যদি আপনি না জানেন, আপনি এটি থেকে বিভাজন পরিমাপ করতে পারবেন না।
টিম

1
@ লুকা এর অর্থ খুব বেশি, তবে এটি বিমূর্ত।
টিম

4

ননপ্যারমেট্রিক পরিসংখ্যান নামে একটি পুরো ক্ষেত্র রয়েছে যা শক্তিশালী মডেলগুলির ব্যবহার এড়িয়ে চলে। তবে, ফিটিং মডেলগুলি সম্পর্কে আপনার উদ্বেগ বৈধ। দুর্ভাগ্যক্রমে ফিটিং মডেলগুলির জন্য কোনও যান্ত্রিক পদ্ধতি নেই যা সর্বজনীনভাবে "অনুকূল" হিসাবে গৃহীত হবে। উদাহরণস্বরূপ, আপনি যদি এমন মডেলটিকে সংজ্ঞায়িত করতে চান যা আপনার ডেটার সম্ভাবনা সর্বাধিক করে তোলে, তবে আপনাকে অভিজ্ঞতামূলক বিতরণ কার্যের দিকে পরিচালিত করা হবে।

তবে, আমাদের সাধারণত কিছু পটভূমি অনুমান এবং বাধা থাকে যেমন সীমাবদ্ধ প্রথম এবং দ্বিতীয় মুহুর্তের সাথে অবিচ্ছিন্ন। এই জাতীয় ক্ষেত্রে, একটি পদ্ধতির শ্যানন ডিফারেনশিয়াল এন্ট্রপির মতো একটি পদক্ষেপ বেছে নেওয়া এবং এটি আপনার সীমানা সীমাবদ্ধতাগুলি পূরণ করে এমন অবিচ্ছিন্ন বিতরণের জায়গার উপরে সর্বোচ্চ করে তোলে।

আমি যে বিষয়টি উল্লেখ করতে চাই তা হ'ল আপনি যদি কেবল ইসিডিএফ-এ ডিফল্ট করতে চান না, তবে আপনাকে তথ্যের বাইরেও অনুমানগুলি যুক্ত করতে হবে এবং এটির জন্য বিষয় দক্ষতার প্রয়োজন, এবং হ্যাঁ , ভয়ঙ্কর ..... পেশাদার রায়

সুতরাং, মডেলিংয়ের কোনও গ্যারান্টিযুক্ত স্টপিং পয়েন্ট আছে ... উত্তরটি নেই। থামার মতো ভাল জায়গা কি আছে? সাধারণত, হ্যাঁ, তবে সেই বিন্দুটি কেবলমাত্র ডেটা এবং কিছু পরিসংখ্যানগত ডেসিডেরার চেয়ে বেশি নির্ভর করবে, আপনি সাধারণত বিভিন্ন ত্রুটির ঝুঁকি, মডেলগুলি বাস্তবায়নের প্রযুক্তিগত সীমাবদ্ধতা এবং এর অনুমানের দৃ of়তার বিষয়টি বিবেচনা করতে যাচ্ছেন, প্রভৃতি

@ লুকা যেমন উল্লেখ করেছেন, আপনি সর্বদা একশ্রেণীর মডেলগুলির উপর নির্ভর করতে পারেন, তবে আপনি যেমনটি যথাযথভাবে উল্লেখ করেছেন, এটি কেবলমাত্র হাইপারপ্যারামিটারগুলির পরবর্তী স্তরের প্রশ্নটিকে ধাক্কা দেবে। দুর্ভাগ্যক্রমে, আমরা মনে করি একটি সীমাহীন স্তরযুক্ত পেঁয়াজের মধ্যেই বাস করছি ... দু'দিকেই!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.