প্রফেসরের সাথে আপনার আলোচনার সমস্যাটি হল একটি পরিভাষা, এটি একটি ভুল বোঝাবুঝি যা একটি সম্ভাব্য দরকারী ধারণা জানাতে চলেছে getting বিভিন্ন জায়গায়, আপনি উভয়ই ত্রুটি করেন।
সুতরাং সম্বোধন করার জন্য প্রথম জিনিস: বিতরণ কী তা সম্পর্কে সম্পূর্ণ পরিষ্কার হওয়া জরুরী ।
একটি সাধারণ বিতরণ একটি নির্দিষ্ট গাণিতিক অবজেক্ট, যা আপনি মূল্যবোধের অসীম জনসংখ্যার মডেল হিসাবে বিবেচনা করতে পারেন। (কোনও সীমাবদ্ধ জনগোষ্ঠীর আসলেই ধারাবাহিক বিতরণ থাকতে পারে না))
আলগাভাবে, এই বিতরণটি যা করে (একবার আপনি প্যারামিটারগুলি নির্দিষ্ট করে দিলে) তা সংজ্ঞায়িত করা হয় (একটি বীজগণিতিক অভিব্যক্তির মাধ্যমে) জনসংখ্যার মানগুলির অনুপাত যা আসল লাইনের কোনও নির্দিষ্ট ব্যবস্থের মধ্যে থাকে। কিছুটা কম looseিলে .ালা, এটি সম্ভাবনাটি সংজ্ঞায়িত করে যে সেই জনসংখ্যার একক মান যে কোনও নির্দিষ্ট বিরতিতে থাকবে।
একটি পর্যবেক্ষণ নমুনা সত্যিই একটি সাধারণ বিতরণ না; একটি নমুনা (সম্ভাব্য) একটি সাধারণ বিতরণ থেকে আঁকা হতে পারে, যদি একটি বিদ্যমান ছিল। আপনি যদি নমুনার ইমিরিকাল সিডিএফটি দেখেন তবে এটি পৃথক। যদি আপনি এটি বিন করেন (হিস্টগ্রামের মতো) নমুনায় একটি "ফ্রিকোয়েন্সি বিতরণ" থাকে তবে সেগুলি সাধারণ বিতরণ নয়। বিতরণ জনসংখ্যার এলোমেলো নমুনা সম্পর্কে কিছু জিনিস (সম্ভাব্য অর্থে) আমাদের বলতে পারে এবং একটি নমুনা আমাদের জনসংখ্যা সম্পর্কে কিছু জিনিসও বলতে পারে।
"সাধারণত বিতরণ করা নমুনা" * এর মতো একটি বাক্যাংশের যুক্তিসঙ্গত ব্যাখ্যা হ'ল "সাধারণত বিতরণ করা জনগোষ্ঠীর একটি এলোমেলো নমুনা"।
* (আমি সাধারণত এটি নিজেরাই এড়াতে চেষ্টা করি, যে কারণে এখানে আশাবাদী যথেষ্ট পরিস্কারভাবে ব্যাখ্যা করা হয়েছে; সাধারণত আমি নিজেকে দ্বিতীয় ধরণের মত প্রকাশের মধ্যে আবদ্ধ করে রাখি।)
সংজ্ঞায়িত শর্তাদি (এখনও যদি কিছুটা আলগাভাবে হয়), আসুন এখন প্রশ্নটি বিস্তারিতভাবে দেখি। আমি প্রশ্নের নির্দিষ্ট অংশে সম্বোধন করব।
সাধারণ বিতরণের একটির অবশ্যই গড় = মাঝারি = মোড থাকতে হবে
এটি অবশ্যই স্বাভাবিক সম্ভাব্যতা বিতরণের একটি শর্ত, যদিও একটি সাধারণ বিতরণ থেকে আঁকা কোনও নমুনার প্রয়োজন হয় না; নমুনাগুলি অসম্পৃক্ত হতে পারে, এর মাঝারি থেকে পৃথক হতে পারে ইত্যাদি। [তবে, নমুনাটি যদি সত্যিই একটি সাধারণ জনগোষ্ঠীর কাছ থেকে আসে তবে আমরা যুক্তিযুক্ত তাদের কাছ থেকে কতটা দূরে থাকতে পারি তা ধারণা পেতে পারি]]
সমস্ত ডেটা অবশ্যই বেল বক্ররেখার নীচে থাকা আবশ্যক
এই অর্থে "অন্তর্ভুক্ত" এর অর্থ কী তা আমি নিশ্চিত নই।
এবং পুরোপুরি গড় প্রায় প্রতিসাম্যপূর্ণ।
না; আপনি এখানে ডেটা সম্পর্কে কথা বলছেন , এবং একটি (স্পষ্টতই প্রতিসম) সাধারণ জনসংখ্যার একটি নমুনা নিজেই নিখুঁতভাবে প্রতিসম হয় না।
অতএব, প্রযুক্তিগতভাবে, বাস্তব গবেষণায় কার্যত কোনও সাধারণ বিতরণ নেই,
আমি আপনার উপসংহার সাথে একমত কিন্তু যুক্তি সঠিক নয়; এটি তথ্যের সঠিকভাবে প্রতিসাম্য (ইত্যাদি) নয় এর পরিণতি নয়; এটাই সত্য যে জনসংখ্যাগুলি নিজেরাই একেবারে স্বাভাবিক নয় ।
যদি স্কু / কুর্তোসিসটি 1.0 এর কম হয় তবে এটি একটি সাধারণ বিতরণ
তিনি যদি ঠিক সেভাবেই এটি বলেন তবে তিনি অবশ্যই ভুল।
একটি নমুনা স্নিগ্ধতা তার চেয়ে 0 এর কাছাকাছি হতে পারে (নিখুঁত পরিমাণের চেয়ে "কম" গ্রহণ করা প্রকৃত মান নয়), এবং নমুনা অতিরিক্ত কুর্তোসিসও তার চেয়ে 0 এর কাছাকাছি হতে পারে (তারা এমনকি, এমনকি সুযোগের দ্বারাও বা নির্মাণ, সম্ভাব্য প্রায় হুবহু শূন্য), এবং এখনও যে বিতরণ থেকে নমুনাটি আঁকানো হয়েছিল তা স্পষ্টভাবে অস্বাভাবিক হতে পারে।
আমরা আরও এগিয়ে যেতে পারি - এমনকি যদি আমরা জনসংখ্যার জঞ্জালতা এবং কুর্তোসিসটি সাধারণভাবে ঠিক জানতাম তবে এখনও এটি আমাদের জানায় না যে জনসংখ্যা স্বাভাবিক, এমনকি এমনকি সাধারণের কাছাকাছি কিছুও ছিল না।
52 টি নার্সিং হোমের র্যান্ডম স্যাম্পলিংয়ে ডেটাসেটটি মোট ঝরনা / বছরের সংখ্যা যা একটি বৃহত জনসংখ্যার এলোমেলো নমুনা।
গণনাগুলির জনসংখ্যা বিতরণ কখনই স্বাভাবিক হয় না । গণনাগুলি পৃথক এবং অ-নেতিবাচক, সাধারণ বিতরণ অবিচ্ছিন্ন এবং পুরো বাস্তব লাইনের ওপরে।
তবে আমরা এখানে সত্যিই ভুল বিষয়ে মনোনিবেশ করেছি। সম্ভাবনার মডেলগুলি কেবল এটিই, মডেলগুলি । আসুন আমরা আমাদের মডেলগুলিকে আসল জিনিসটির সাথে বিভ্রান্ত না করি ।
সমস্যাটি " ডেটাগুলি কি তারা সাধারণ থাকে?" (তারা হতে পারে না), এমনকি "এমন জনসংখ্যা যা থেকে ডেটাগুলি স্বাভাবিকভাবে আঁকানো হয়েছিল?" (এটি প্রায় কোনও ক্ষেত্রেই হবে না)।
আলোচনার জন্য আরও কার্যকর প্রশ্ন হ'ল "জনগণকে সাধারণভাবে বন্টন করা হিসাবে বিবেচনা করলে আমার অনুপাতটি কতটা খারাপ প্রভাবিত হবে?"
এটির উত্তম উত্তর দেওয়াও বেশ শক্ত প্রশ্ন এবং কয়েকটি সাধারণ ডায়াগনস্টিকগুলিতে নজর না দেওয়ার চেয়ে যথেষ্ট বেশি কাজের প্রয়োজন হতে পারে।
আপনি যে নমুনা পরিসংখ্যান দেখিয়েছেন তা স্বাভাবিকতার সাথে বিশেষভাবে বেমানান নয় (আপনি যদি সাধারণ জনসংখ্যার থেকে এই আকারের এলোমেলো নমুনা পেয়ে থাকেন তবে খুব কমই এটির "বা" খারাপ "এর মতো পরিসংখ্যান দেখতে পেতেন), তবে এর অর্থ এই নয় যে আসল জনসংখ্যা যা থেকে নমুনাটি আঁকা হয়েছিল তা কোনও নির্দিষ্ট উদ্দেশ্যে স্বয়ংক্রিয়ভাবে স্বাভাবিকের কাছে "যথেষ্ট পরিমাণে" পরিণত হয়। উদ্দেশ্যটি (আপনি কোন প্রশ্নের জবাব দিচ্ছেন) এবং এর জন্য নিযুক্ত পদ্ধতিগুলির দৃust়তা বিবেচনা করা গুরুত্বপূর্ণ হবে এবং তারপরেও আমরা এখনও নিশ্চিত হতে পারি না যে এটি "যথেষ্ট ভাল"; কখনও কখনও এটি অনুমান করা ভাল যে আমাদের কাছে প্রাইরি অনুমান করার উপযুক্ত কারণ নেই (যেমন, একইভাবে ডেটা সেটগুলির সাথে অভিজ্ঞতার ভিত্তিতে)।
এটি কোনও সাধারণ বিতরণ নয়
ডেটা - এমনকি একটি সাধারণ জনসংখ্যা থেকে আঁকা ডেটা - কখনও জনসংখ্যার বৈশিষ্ট্য হ'ল না; এই সংখ্যাগুলি থেকে একমাত্র আপনার কাছে এই সিদ্ধান্তে পৌঁছানোর ভাল ভিত্তি নেই যে এখানে জনসংখ্যা সাধারণ নয়।
অন্যদিকে, আমাদের কাছে এটিকে স্বাভাবিকের "যথেষ্ট কাছাকাছি" বলার কোনও যুক্তিসঙ্গত দৃ do় ভিত্তি নেই - আমরা এমনকি স্বাভাবিকতা ধরে নেওয়ার উদ্দেশ্যটিও বিবেচনা করি নি, তাই আমরা জানি না যে এটি কী বিতরণের বৈশিষ্ট্যগুলির প্রতি সংবেদনশীল হতে পারে।
উদাহরণস্বরূপ, যদি আমার কাছে পরিমাপিত একটি পরিমাপের জন্য দুটি নমুনা থাকত তবে আমি জানতাম যে ভারীভাবে বিচ্ছিন্ন হবে না (বেশিরভাগই কেবল কয়েকটি স্বতন্ত্র মান গ্রহণ করে না) এবং যুক্তিযুক্ত সংলগ্নের নিকটে, আমি দ্বি-নমুনা ব্যবহার করতে তুলনামূলকভাবে খুশি হতে পারি কিছু ছোট-না-ছোট নমুনা আকারে টি-পরীক্ষা; অনুমানগুলি থেকে হালকা বিচ্যুতি সামান্য শক্তিশালী (কিছুটা স্তর-দৃust়, এত শক্তিশালী নয়)। তবে স্প্রেডের সাম্যকে পরীক্ষা করার সময় আমি সাধারণভাবে স্বাভাবিকতা অনুমান করা সম্পর্কে যথেষ্ট সচেতন হতে পারি, উদাহরণস্বরূপ, কারণ যে অনুমানের অধীনে সেরা পরীক্ষাটি অনুমানের পক্ষে যথেষ্ট সংবেদনশীল।
যেহেতু এগুলি উভয়ই -1 এবং +1 এর সমালোচনামূলক মানগুলির মধ্যে রয়েছে তাই এই ডেটাটিকে সাধারণত বিতরণ করা হয় বলে মনে করা হয়। "
যদি এটি সত্যিকারের মাপদণ্ড হয় যার মাধ্যমে কেউ একটি সাধারণ বন্টনমূলক মডেল ব্যবহার করার সিদ্ধান্ত নেয়, তবে এটি কখনও কখনও আপনাকে বেশ দুর্বল বিশ্লেষণে নিয়ে যায়।
এই পরিসংখ্যানগুলির মানগুলি আমাদের সেই জনসংখ্যা সম্পর্কে কিছু সূত্র দেয় যা থেকে নমুনাটি আঁকা হয়েছিল, তবে এটি এমনটি নয় যে তাদের মানগুলি কোনওভাবেই কোনও বিশ্লেষণ চয়ন করার জন্য একটি 'নিরাপদ গাইড'।
এখন অন্তর্নিহিত সমস্যাটি যেমন আপনার প্রশ্নের মতো আরও একটি ভাল বর্ণযুক্ত সংস্করণ দিয়ে সমাধান করার জন্য:
কোনও মডেল বাছাই করতে কোনও নমুনা দেখার পুরো প্রক্রিয়াটি সমস্যায় ভরা - এটি করা আপনি যা দেখেছেন তার উপর নির্ভর করে বিশ্লেষণের পরবর্তী কোনও পছন্দগুলির বৈশিষ্ট্যগুলিকে পরিবর্তিত করে! উদাহরণস্বরূপ একটি অনুমানের পরীক্ষার জন্য, আপনার তাত্পর্য স্তর, পি-মান এবং শক্তি এগুলি যা আপনি বেছে নেবেন / গণনা করবেন তা নয় , কারণ সেই গণনাগুলি ডেটা ভিত্তিক না হয়ে বিশ্লেষণের উপর পূর্বাভাস দেওয়া হয়েছে।
উদাহরণস্বরূপ, গেলম্যান এবং লোকেন (২০১৪), " বিজ্ঞানের পরিসংখ্যান সংকট ," আমেরিকান সায়েন্টিস্ট , খণ্ড ১০২, সংখ্যা 4, পি ৪60০ (ডিওআই: 10.1511 / 2014.111.460) যা এই জাতীয় ডেটা নির্ভর নির্ভর বিশ্লেষণের সাথে বিষয়গুলি নিয়ে আলোচনা করে।