ইন frequentist অনুমান , আমরা তা নির্ধারণ করতে একটা কিছু কত ঘন ঘন কী হতো চান প্রদত্ত সম্ভাব্যতার সূত্রাবলি প্রক্রিয়া বারবার উপলব্ধি করা হয়। এটি হ'ল পি-ভ্যালু, আত্মবিশ্বাসের ব্যবধান এবং মতবাদের তত্ত্বের সূচনা পয়েন্ট। তবে অনেকগুলি প্রয়োগিত প্রকল্পে "প্রদত্ত" প্রক্রিয়াটি আসলেই দেওয়া হয় না এবং পরিসংখ্যানবিদকে এটি নির্দিষ্ট করে মডেলিং করার জন্য কমপক্ষে কিছু কাজ করতে হয়। এটি আশ্চর্যজনকভাবে অস্পষ্ট সমস্যা হতে পারে, যেমনটি এই ক্ষেত্রে রয়েছে।
ডেটা জেনারেশন প্রক্রিয়া মডেলিং
প্রদত্ত তথ্যের ভিত্তিতে, আমাদের সেরা প্রার্থী নিম্নলিখিত বলে মনে হচ্ছে:
- যদি 100 ভি মিটার 100 ভি পড়েন, ইঞ্জিনিয়ার 1000V মিটারটি কার্যকর হলে এটি পুনরায় পরিমাপ করে। অন্যথায়, তিনি কেবল 100V চিহ্নিত করে এগিয়ে যান।
তবে এটা কি আমাদের ইঞ্জিনিয়ারের প্রতি একটু অন্যায় নয়? ধরে নিলেন যে তিনি ইঞ্জিনিয়ার এবং কেবলমাত্র প্রযুক্তিবিদ নন, তিনি সম্ভবত বুঝতে পারেন যে যখন প্রথম মিটারটি 100 ভি পড়বে তখন তাকে কেন আবার মাপার প্রয়োজন; এটি কারণ মিটার তার পরিসরের উপরের সীমাতে পরিপূর্ণ হয়, তাই আর নির্ভরযোগ্য নয়। প্রকৃতপক্ষে সম্ভবত প্রকৌশলী যা করবেন তা হ'ল
- যদি 100 ভি মিটার 100 পড়েন তবে প্রকৌশলী 1000V মিটারটি কার্যকর হলে এটি পুনরায় পরিমাপ করে। অন্যথায়, তিনি কেবল 100 ভি চিহ্নিত করেন, স্যাচুরেটেড পরিমাপ নির্দেশ করতে একটি যোগ চিহ্ন যোগ করে এবং এগিয়ে যান।
এই উভয় প্রক্রিয়াটি আমাদের কাছে থাকা ডেটার সাথে সামঞ্জস্যপূর্ণ তবে এগুলি পৃথক প্রক্রিয়া এবং এগুলি বিভিন্ন আত্মবিশ্বাসের অন্তর দেয়। প্রক্রিয়া 2 হ'ল আমরা পরিসংখ্যানবিদ হিসাবে পছন্দ করব। যদি ভোল্টেজগুলি প্রায়শই 100 ভি এর ওপরে থাকে তবে প্রক্রিয়া 1 এর একটি সম্ভাব্য বিপর্যয়কর ব্যর্থতা মোড থাকে যা পরিমাপে মাঝে মধ্যে মারাত্মকভাবে অবমূল্যায়ন করা হয়, কারণ আমাদের অজান্তেই ডেটা সেন্সর করা হয়। আত্মবিশ্বাসের ব্যবধান সেই অনুসারে আরও প্রশস্ত হবে। প্রকৌশলীকে তার 1000 ভি মিটার কখন কাজ করছে না তা আমাদের জানতে বলার মাধ্যমে আমরা এটিকে হ্রাস করতে পারব, তবে এটি আমাদের ডেটা প্রক্রিয়া 2 তে মেনে চলেছে তা নিশ্চিত করার এটি কেবলমাত্র অন্য একটি উপায়।
যদি ঘোড়াটি ইতিমধ্যে শস্যাগার ছেড়ে চলে গেছে এবং আমরা পরিমাপগুলি কখন সেন্সর না করা হয় তা নির্ধারণ করতে পারি না, যখন 1000V মিটার কাজ না করে তখন আমরা ডেটা থেকে অনুমান করার চেষ্টা করতে পারি। প্রক্রিয়াটিতে একটি অনুমানের নিয়ম প্রবর্তন করার মাধ্যমে, আমরা কার্যকরভাবে 1 এবং 2 উভয় থেকে পৃথক করে একটি নতুন প্রক্রিয়া 1.5 তৈরি করি Our 2।
তত্ত্বগতভাবে, কোনও একক পরিসংখ্যান সম্পর্কে তিনটি পৃথক বিবাদী প্রতিনিধি স্টোকাস্টিক প্রক্রিয়াগুলির সাথে তিনটি আলাদা আত্মবিশ্বাসের অন্তর অন্তর্ভুক্ত থাকা সম্পর্কে সন্দেহ বা সন্দেহজনক কিছুই নেই। বাস্তবে, পরিসংখ্যান কয়েক ভোক্তাদের চান তিনটি ভিন্ন আস্থা অন্তর। তারা একটি চায়, যা বাস্তবে ঘটেছিল তার উপর ভিত্তি করে , যদি পরীক্ষাটি বহুবার পুনরাবৃত্তি করা হত। সুতরাং সাধারণত, প্রয়োগকৃত পরিসংখ্যানবিদ প্রকল্পের সময় তিনি যে ডোমেন জ্ঞান অর্জন করেছিলেন তা বিবেচনা করে, একটি শিক্ষিত অনুমান করে এবং তার অনুমানের প্রক্রিয়াটির সাথে সম্পর্কিত আত্মবিশ্বাসের ব্যবধান উপস্থাপন করে। বা তিনি প্রক্রিয়াটি আনুষ্ঠানিক করতে গ্রাহকের সাথে কাজ করেন, সুতরাং এগিয়ে যাওয়ার অনুমান করার দরকার নেই।
নতুন তথ্যতে কীভাবে প্রতিক্রিয়া জানানো যায়
গল্পে পরিসংখ্যানবিদদের জেদ সত্ত্বেও, ঘন ঘনবাদী অনুক্রমের প্রয়োজন হয় না যখন আমরা নতুন তথ্য অর্জন করি যখন উত্পন্ন স্টোকাস্টিক প্রক্রিয়াটি সূচিত করে যে আমরা মূলত ধারণা করেছি ঠিক তা নয়। তবে, যদি প্রক্রিয়াটি পুনরাবৃত্তি হতে চলেছে, আমাদের নিশ্চিত করতে হবে যে সমস্ত পুনরাবৃত্তিগুলি আত্মবিশ্বাসের বিরতিতে ধরে নেওয়া মডেল প্রক্রিয়ার সাথে সামঞ্জস্যপূর্ণ। প্রক্রিয়াটি পরিবর্তন করে বা এর মডেলটি পরিবর্তন করে আমরা এটি করতে পারি।
আমরা যদি প্রক্রিয়াটি পরিবর্তন করি তবে আমাদের সেই অতীতের ডেটা বাতিল করতে হবে যা সেই প্রক্রিয়াটির সাথে বেমানানভাবে সংগ্রহ করা হয়েছিল। তবে এটি এখানে কোনও সমস্যা নয়, কারণ আমরা যে সমস্ত প্রক্রিয়াটির বৈকল্পিকতা বিবেচনা করছি তা কেবলমাত্র তখনই পৃথক হয় যখন কিছু ডেটা 100V এর উপরে থাকে এবং এই ক্ষেত্রে কখনই ঘটেছিল না।
আমরা যাই করুক না কেন, মডেল এবং বাস্তবতা অবশ্যই সারিবদ্ধ করে আনতে হবে। তবেই তাত্ত্বিকভাবে গ্যারান্টিযুক্ত ঘন ঘন ঘন ত্রুটির হারটি গ্রাহক প্রক্রিয়াটির পুনরাবৃত্তি সম্পাদনের পরে আসলে কী হবে।
বায়েশিয়ান বিকল্প
অন্যদিকে, যদি আমরা সত্যই যত্ন নিয়ে থাকি তবে এই নমুনার সত্যিকারের সম্ভাব্য পরিসীমা যদি আমাদের হয় তবে আমাদের ঘন ঘনত্ব পুরোপুরি বাদ দেওয়া উচিত এবং যারা এই প্রশ্নের উত্তর বিক্রি করে তাদের খুঁজে বের করা উচিত - বায়েশিয়ানরা। আমরা যদি এই পথে যাই, কাউন্টারফ্যাক্টুয়ালগুলির উপর থাকা সমস্ত হ্যাজলিং অপ্রাসঙ্গিক হয়ে যায়; সমস্ত বিষয় পূর্ব এবং সম্ভাবনা। এই সরলকরণের বিনিময়ে আমরা "পরীক্ষার" পুনরাবৃত্ত পারফরম্যান্সের অধীনে ত্রুটি হারের গ্যারান্টি দেওয়ার কোনও আশা হারাতে পারি না।
ফস কেন?
অকারণে নিরীহ বিষয়গুলিকে ঘন ঘনবাদী পরিসংখ্যানবিদদের মত দেখানোর জন্য এই গল্পটি তৈরি করা হয়েছিল। সত্য, এই নিরীহ পাল্টাপাল্টি কে যত্ন করে? উত্তর অবশ্যই, প্রত্যেকের যত্ন নেওয়া উচিত। গুরুত্বপূর্ণ গুরুত্বপূর্ণ বৈজ্ঞানিক ক্ষেত্রগুলি বর্তমানে একটি গুরুতর প্রতিরূপ সংকটে ভুগছে , যা মিথ্যা আবিষ্কারগুলির ফ্রিকোয়েন্সি বৈজ্ঞানিক সাহিত্যে প্রত্যাশার চেয়ে অনেক বেশি বলে বোঝায়। এই সঙ্কটের অন্যতম চালক, যদিও কোনও উপায়ে একমাত্র নয় , পি-হ্যাকিংয়ের উত্থান , এটি যখন তাত্পর্যপূর্ণ হয় ততক্ষণ গবেষকরা কোনও মডেলের বিভিন্ন প্রকারের সাথে বিভিন্ন ধরণের পরিবর্তনগুলি নিয়ে খেলেন, যতক্ষণ না তারা গুরুত্ব পায়।
জনপ্রিয় বৈজ্ঞানিক মিডিয়া এবং ব্লগস্ফিয়ারে পি-হ্যাকিংকে ব্যাপকভাবে নিষ্ক্রিয় করা হয়েছে, তবে পি-হ্যাকিংয়ের ক্ষেত্রে কী কী ভুল এবং কেন তা আসলে খুব কমই বুঝতে পারে। জনপ্রিয় পরিসংখ্যানের মতামতের বিপরীতে, মডেলিংয়ের প্রক্রিয়া আগে, সময় এবং পরে আপনার ডেটা দেখার ক্ষেত্রে কোনও ভুল নেই। যা ভুল তা অনুসন্ধানী বিশ্লেষণগুলি রিপোর্ট করতে ব্যর্থ হচ্ছে এবং তারা কীভাবে অধ্যয়নের সময়কে প্রভাবিত করেছিল। কেবলমাত্র সম্পূর্ণ প্রক্রিয়াটি দেখেই আমরা সম্ভবত নির্ধারণ করতে পারি যে স্টোকাস্টিক মডেলটি সেই প্রক্রিয়ার প্রতিনিধিত্বকারী এবং সেই মডেলের জন্য কোন ঘনত্ববাদী বিশ্লেষণ উপযুক্ত, যদি কোনও হয়।
একটি নির্দিষ্ট ঘন ঘন বিশ্লেষণ উপযুক্ত বলে দাবি করা খুব গুরুতর দাবি। দাবি করা মানেই যে আপনি নিজের দ্বারা নির্বাচিত স্টোকাস্টিক প্রক্রিয়াটির শৃঙ্খলায় নিজেকে আবদ্ধ করছেন, যার ফলে আপনি বিভিন্ন পরিস্থিতিতে কী করেছেন তা সম্পর্কে পুরো পাল্টা জবাবদিহি করতে পারে। আপনার কাছে আবেদন করার জন্য ঘন ঘনবাদী গ্যারান্টির জন্য আপনাকে সেই সিস্টেমটির সাথে সামঞ্জস্য করতে হবে। খুব অল্প কিছু গবেষক, বিশেষত যারা ক্ষেত্রগুলিতে উন্মুক্ত সমাপ্ত অনুসন্ধানকে জোর দেয়, সিস্টেমের সাথে খাপ খায় এবং তারা তাদের বিচ্যুতিগুলি অবিচ্ছিন্নভাবে রিপোর্ট করে না; সে কারণেই এখন আমাদের হাতে একটি প্রতিলিপি সংকট রয়েছে। (কিছু সম্মানিত গবেষক যুক্তি দিয়েছিলেন যে এই প্রত্যাশা অবাস্তব নয়, এমন একটি অবস্থানের প্রতি আমি সহানুভূতিশীল, তবে এটি এই পোস্টের পরিধি ছাড়িয়ে যাচ্ছে।)
এটি অন্যায় বলে মনে হতে পারে যে ডেটা আলাদা থাকাকালীন তারা কী করত এমন দাবির ভিত্তিতে আমরা প্রকাশিত কাগজপত্রের সমালোচনা করছি। তবে এটি ঘনত্ববাদী যুক্তির (কিছুটা বিপরীতমুখী) প্রকৃতি: আপনি যদি পি-মানটির ধারণাটি গ্রহণ করেন তবে আপনাকে বিকল্প উপাত্তগুলির অধীনে কী করা হত তা মডেলিংয়ের বৈধতাকে সম্মান করতে হবে। (গেলম্যান ও লোকেন, ২০১৩)
যে ক্লিনিকাল ট্রায়ালগুলির তুলনামূলক তুলনামূলক সহজ এবং / অথবা মানিক, সেগুলি অধ্যয়নগুলিতে আমরা একাধিক বা অনুক্রমিক তুলনার মতো জিনিসগুলির জন্য সামঞ্জস্য করতে পারি এবং তাত্ত্বিক ত্রুটির হার বজায় রাখতে পারি; আরও জটিল এবং গবেষণামূলক গবেষণায়, একটি ঘনত্ববাদী মডেল অনুপযুক্ত হতে পারে কারণ গবেষক যে সমস্ত সিদ্ধান্ত নেওয়া হচ্ছে সে সম্পর্কে পুরোপুরি সচেতন না হতে পারে , রেকর্ডিং এবং সেগুলি স্পষ্টভাবে উপস্থাপন করতে দেওয়া হোক। এই জাতীয় ক্ষেত্রে, গবেষককে (1) যা করা হয়েছিল সে সম্পর্কে সৎ এবং সামনে থাকা উচিত; (২) পি-মানগুলি শক্তিশালী ক্যাভিয়েট সহ উপস্থিত রয়েছে, না হয় মোটেই নয়; (৩) অনুমানের পূর্বের কার্যকারিতা বা ফলো-আপ প্রতিলিপি অধ্যয়নের মতো প্রমাণের অন্যান্য লাইন উপস্থাপনের বিষয়টি বিবেচনা করুন।