যদিও এটি আমার নিজের প্রশ্ন, আমি উত্তর হিসাবে আমার নিজের দুটি সেন্টও পোস্ট করতে যাচ্ছি, যাতে আমরা এই প্রশ্নের দৃষ্টিভঙ্গির সংখ্যায় যুক্ত করি। এখানে সমস্যাটি প্রাথমিকভাবে ডেটাতে একটি-প্যারামিটার বিতরণ মাপসই বুদ্ধিমান কিনা। আপনি যখন ওয়ান-প্যারামিটার বিতরণ ব্যবহার করেন (যেমন পয়সন জিএলএম, বা স্থির পরীক্ষার প্যারামিটার সহ একটি দ্বিপদী জিএলএম), তারতম্যটি কোনও নিখরচায় প্যারামিটার নয় এবং পরিবর্তে গড়ের কিছু ফাংশন হতে বাধ্য হয়। এর অর্থ হল যে কোনও অবস্থাতেই যখন আপনি সম্পূর্ণরূপে নিশ্চিত নন যে বৈকল্পিকতা সেই বন্টনটির কাঠামো অনুসরণ করে তবে এমন কোনও অবস্থাতেই ডেটাতে ওয়ান-প্যারামিটার বিতরণ ফিট করার পক্ষে এটি খারাপ পরামর্শ দেওয়া হয়।
ডেটাতে ওয়ান-প্যারামিটার বিতরণগুলি প্রায়শই একটি খারাপ ধারণা: প্রস্তাবিত মডেলগুলির তুলনায় ডেটা প্রায়শই অগোছালো হয় এবং এমনকি যখন নির্দিষ্ট ওয়ান-প্যারামিটার মডেলটি বিশ্বাস করতে পারে তাত্ত্বিক কারণগুলি রয়েছে তখনও প্রায়শই এটি তথ্য হিসাবে ঘটে থাকে প্রকৃতপক্ষে প্যারামিটার মানগুলির একটি পরিসীমা সহ সেই এক-প্যারামিটার বিতরণের মিশ্রণ থেকে আসে। এটি প্রায়শই বিস্তৃত মডেলের সমতুল্য, যেমন একটি দ্বি-পরামিতি বিতরণ যা বৈকল্পিকের জন্য বৃহত্তর স্বাধীনতার অনুমতি দেয়। নীচে আলোচিত হিসাবে, গণনা ডেটার ক্ষেত্রে এটি পয়েসন জিএলএমের পক্ষে সত্য।
প্রশ্নে বর্ণিত হিসাবে, পরিসংখ্যানগুলির বেশিরভাগ প্রয়োগগুলিতে, বিতরণ ফর্মগুলি ব্যবহার করার জন্য এটি স্ট্যান্ডার্ড অনুশীলন যা কমপক্ষে প্রথম দুটি মুহূর্তকে অবাধে পরিবর্তিত হতে দেয়। এটি নিশ্চিত করে যে লাগানো মডেলটি এই কৃত্রিমভাবে মডেল দ্বারা সীমাবদ্ধ না হয়ে ডেটাটিকে অনুমানকৃত গড় এবং বৈচিত্র্য নির্দেশ করতে দেয়। এই দ্বিতীয় প্যারামিটারটি কেবলমাত্র মডেলটিতে এক ডিগ্রি-স্বাধীনতা হারাতে পারে যা তথ্য থেকে বৈকল্পিকটি অনুমান করার সুবিধার তুলনায় একটি ক্ষুদ্র ক্ষতি। একজন অবশ্যই এই যুক্তিটি প্রসারিত করতে পারেন এবং স্কিউনেস ফিটিংয়ের অনুমতি দেওয়ার জন্য তৃতীয় প্যারামিটার যুক্ত করতে পারেন, চতুর্থটি কুর্তোসিসের ফিটিংয়ের অনুমতি দেওয়ার জন্য।
কিছু অতি সামান্য ব্যতিক্রম সহ, একটি পইসন জিএলএম একটি খারাপ মডেল: আমার অভিজ্ঞতা অনুসারে, ডেটা গণনা করার জন্য পোইসন বিতরণ ফিটিং করা প্রায়শই একটি খারাপ ধারণা। গণনা উপাত্তের জন্য পয়সন বিতরণের তুলনায় ডেটাগুলির ভিন্নতার পক্ষে 'অতিরিক্ত-ছড়িয়ে দেওয়া' হওয়া খুব সাধারণ। এমনকি এমন পরিস্থিতিতে যেখানে তত্ত্বটি পোইসন বিতরণকে নির্দেশ করে, প্রায়শই সর্বোত্তম মডেল হ'ল পোইসন বিতরণের মিশ্রণ , যেখানে ভিন্নতা একটি নিখরচায় প্যারামিটারে পরিণত হয়। প্রকৃতপক্ষে, গণনা তথ্যগুলির ক্ষেত্রে নেতিবাচক-দ্বিপদী বিতরণ হ'ল প্যারামিটারের জন্য গামা বিতরণ সহ একটি পয়সন মিশ্রণসুতরাং, তাত্ত্বিক কারণগুলি মনে করার পরেও যে পইসন বিতরণ প্রক্রিয়া অনুসারে গণনাগুলি উপস্থিত হয়, প্রায়শই এটি ঘটে থাকে যে 'ওভার-ডিসপ্রেসন' রয়েছে এবং নেতিবাচক-দ্বিপদী বিতরণ আরও ভাল ফিট করে।
ডেটা গণনা করার জন্য পোইসন জিএলএম লাগিয়ে দেওয়া এবং তারপরে 'অতিরিক্ত-ছত্রভঙ্গ' যাচাই করার জন্য একটি পরিসংখ্যান পরীক্ষা করার অনুশীলন একটি অ্যানাক্রোনিজম এবং এটি খুব কমই খুব ভাল অভ্যাস হতে পারে। পরিসংখ্যানগত বিশ্লেষণের অন্যান্য রূপগুলিতে, আমরা দ্বি-পরামিতি বিতরণ দিয়ে শুরু করি না, নির্বিচারে একটি বৈকল্পিক সীমাবদ্ধতা নির্বাচন করি এবং তারপরে বিতরণ থেকে কোনও পরামিতি অপসারণের চেষ্টা করার জন্য এই বিধিনিষেধের জন্য পরীক্ষা করি। এইভাবে জিনিসগুলি করে, আমরা আসলে একটি বিশ্রী হাইব্রিড পদ্ধতি তৈরি করি, এটি মডেল নির্বাচনের জন্য ব্যবহৃত প্রাথমিক অনুমান পরীক্ষা এবং তারপরে প্রকৃত মডেল (হয় পোইসন বা বিস্তৃত বিতরণ) নিয়ে গঠিত। এটি অনেক প্রসঙ্গে প্রমাণিত হয়েছে যে প্রাথমিক মডেল নির্বাচন পরীক্ষা থেকে হাইব্রিড মডেল তৈরির এই ধরণের অনুশীলন খারাপ সামগ্রিক মডেলগুলির দিকে পরিচালিত করে।
একটি সাদৃশ্যপূর্ণ পরিস্থিতি, যেখানে অনুরূপ হাইব্রিড পদ্ধতি ব্যবহার করা হয়েছে, এটি গড় পার্থক্যের টি-পরীক্ষায় রয়েছে। এটি এমন পরিস্থিতিতে ব্যবহৃত হত যে পরিসংখ্যান কোর্সগুলি প্রথমে লেভেনের পরীক্ষাটি ব্যবহার করার পরামর্শ দেয় (বা এমনকি কিছু কিছু ক্রপ্পায়ার "থাম্বের নিয়ম") দুটি জনসংখ্যার মধ্যে বৈচিত্রের সাম্যতা পরীক্ষা করতে এবং তারপরে যদি ডেটা এই পরীক্ষায় "পাস" হয় তবে স্টুডেন্ট টি-টেস্ট ব্যবহার করুন যা সমান বৈচিত্র্য ধরে নেয়, এবং যদি ডেটা পরীক্ষাটি "ব্যর্থ" হয় তবে আপনি পরিবর্তে ওয়েলচের টি-টেস্ট ব্যবহার করবেন। এটি আসলেই খুব খারাপ পদ্ধতি (উদাহরণস্বরূপ, এখানে এবং এখানে দেখুন))। কেবলমাত্র পরের পরীক্ষাটি ব্যবহার করা আরও ভাল, যা প্রারম্ভিক হাইপোথিসিস টেস্টকে একসাথে জ্যাম করে এবং তারপরে মডেলটি বেছে নেওয়ার জন্য এটি ব্যবহার করে এমন একটি বিশ্রী যৌগিক পরীক্ষা তৈরির পরিবর্তে পরিবর্তনের বিষয়ে কোনও ধারণা তৈরি করে না।
গণনা সম্পর্কিত তথ্যের জন্য, আপনি সাধারণত একটি নেতিবাচক-দ্বিপদী বা অর্ধ-পোইসন মডেলের মতো একটি দুটি-পরামিতি মডেল ফিট করে ভাল প্রাথমিক ফলাফল পাবেন। (দ্রষ্টব্য যে পরবর্তীটি সত্যিকারের বিতরণ নয়, তবে এটি এখনও একটি যুক্তিসঙ্গত দ্বি-পরামিতি মডেল দেয়)) যদি আরও কোনও সাধারণীকরণের প্রয়োজন হয় তবে এটি সাধারণত শূন্য-মুদ্রাস্ফীতি যুক্ত হয়, যেখানে অতিরিক্ত সংখ্যক শূন্য রয়েছে where তথ্য। পোইসন জিএলএম-তে সীমাবদ্ধ করা একটি কৃত্রিম এবং জ্ঞানহীন মডেল পছন্দ over
ঠিক আছে, এখন এখানে ছোটখাটো ব্যতিক্রম রয়েছে: উপরের একমাত্র আসল ব্যতিক্রম দুটি পরিস্থিতি:
(১) একমাত্র প্যারামিটার বিতরণের জন্য অনুমানগুলি সন্তুষ্ট বলে বিশ্বাস করার জন্য আপনার কাছে অগ্রণী তাত্ত্বিক কারণগুলি অত্যন্ত শক্তিশালী রয়েছে এবং বিশ্লেষণের অংশটি এই তাত্ত্বিক মডেলটিকে ডেটাগুলির বিরুদ্ধে পরীক্ষা করা; অথবা
(২) অন্য কোনও (অদ্ভুত) কারণে, আপনার বিশ্লেষণের উদ্দেশ্য হ'ল ডেটাগুলির বৈচিত্র্যের উপর একটি হাইপোথিসিস পরীক্ষা করা, এবং সুতরাং আপনি প্রকৃতপক্ষে এই অনুভূতিটিকে এই অনুমানযুক্ত সীমাবদ্ধতায় সীমাবদ্ধ করতে চান, এবং তারপরে এই অনুমানটি পরীক্ষা করতে চান test
এই পরিস্থিতি খুব বিরল। তারা কেবল তখনই উত্থানের প্রবণতা ঘটে যখন ডেটা উত্পন্ন করার পদ্ধতি সম্পর্কে শক্তিশালী একটি তাত্ত্বিক জ্ঞান থাকে এবং বিশ্লেষণের উদ্দেশ্য এই অন্তর্নিহিত তত্ত্বটি পরীক্ষা করা। এটি এমন একটি অ্যাপ্লিকেশনগুলির সীমিত সীমার ক্ষেত্রে হতে পারে যেখানে শক্তভাবে নিয়ন্ত্রিত অবস্থার অধীনে ডেটা তৈরি করা হয় (যেমন, পদার্থবিজ্ঞানে)।