এই প্রশ্নটি পরিসংখ্যান কী এবং কীভাবে একটি ভাল পরিসংখ্যান বিশ্লেষণ পরিচালনা করতে হবে তার হৃদয়ে যায়। এটি অনেকগুলি বিষয় উত্থাপন করে, কিছু পরিভাষা এবং তত্ত্বের কিছু। তাদের স্পষ্ট করার জন্য, আসুন প্রশ্নটির অন্তর্নিহিত প্রসঙ্গটি লক্ষ্য করে শুরু করা যাক এবং "প্যারামিটার," "সম্পত্তি," এবং "অনুমানকারী" কী পদগুলি সংজ্ঞায়িত করতে সেখান থেকে এগিয়ে যাই। আলোচনায় আসার সাথে সাথে প্রশ্নের বেশ কয়েকটি অংশের উত্তর দেওয়া হয়। চূড়ান্ত সমাপ্তি বিভাগটি মূল ধারণাগুলির সংক্ষিপ্তসার করে।
রাষ্ট্রীয় স্থান
"বিতরণ" এর একটি সাধারণ পরিসংখ্যান ব্যবহার যেমন " সাথে সাধারণ বিতরণ proportion " এর সাধারণ একটি (গুরুতর) ইংরেজির অপব্যবহার, কারণ স্পষ্টতই এটি একটি বিতরণ নয়: এটি এবং চিহ্ন দ্বারা প্যারামিটারাইজড বিতরণের পুরো পরিবার । এর জন্য একটি মানক স্বরলিপি হ'ল "রাষ্ট্রীয় স্থান" , একটি সেটμσΩΩ Ωexp(−12(x−μ)/σ)2)dxμσΩবিতরণ। (আমি এখানে প্রকাশের স্বার্থে কিছুটা সরলীকরণ করছি এবং যতটা সম্ভব কঠোর থাকা অবস্থায় আমরা পাশাপাশি চলতে চলতে সহজতর করব)) এর ভূমিকাটি আমাদের পরিসংখ্যানগত পদ্ধতির সম্ভাব্য লক্ষ্যগুলি বর্ণনা করা: যখন আমরা কোনও কিছু অনুমান করি তখন আমরা me একটি (বা কখনও কখনও আরও বেশি) উপাদান বাছাই করা ।Ω
কখনও কখনও রাষ্ট্র স্পেস স্পষ্টভাবে হিসাবে, স্থিতিমাপ হয় । এই বর্ণনায় উপরের অর্ধেক সমতলে টিপলস of এর সেট এবং বিতরণের সেটের মধ্যে একটি থেকে একের মধ্যে যোগাযোগ রয়েছে যা আমরা আমাদের ডেটা মডেল করতে ব্যবহার করব। এই জাতীয় প্যারামিটারাইজেশনের একটি মান হ'ল আমরা এখন বিতরণগুলির জন্য একটি সংখ্যক আসল সংখ্যার অর্ডার দিয়ে উল্লেখ করতে পারি ।{ ( μ , σ ) } ΩΩ={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
অন্যান্য ক্ষেত্রে রাষ্ট্রীয় স্পেসগুলি স্পষ্টভাবে প্যারামিটারাইজড হয় না। একটি উদাহরণ হ'ল সমস্ত অবিচ্ছিন্ন অবিচ্ছিন্ন বিতরণের সেট। নীচে, আমরা যে কোনও উপায়ে এই জাতীয় ক্ষেত্রে পর্যাপ্ত প্যারামিটারাইজেশন খুঁজে পাওয়া যায় কিনা সেই প্রশ্নের সমাধান করব।
Parameterizations
সাধারণত, একটি একখান এর একটি সাদৃশ্য (গাণিতিক হয় ফাংশন একটি উপসেট থেকে) (সঙ্গে সসীম) এর । এটি, ডিস্ট্রিবিউশনগুলি লেবেল করতে এটি টিপলসগুলির অর্ডারযুক্ত সেটগুলি ব্যবহার করে। তবে এটি কেবল কোনও চিঠিপত্র নয়: এটি "ভাল আচরণ করা উচিত"। এটি বুঝতে, সমস্ত অবিচ্ছিন্ন বিতরণগুলির সেটটি বিবেচনা করুন যার পিডিএফের সীমাবদ্ধ প্রত্যাশা রয়েছে। এটিকে ব্যাপকভাবে "নন-প্যারাম্যাট্রিক" হিসাবে বিবেচনা করা হবে যে এই সেটটিকে প্যারামিটারাইজ করার কোনও "প্রাকৃতিক" প্রচেষ্টা সত্যিকারের সংখ্যার একটি গণনাযোগ্য ক্রমকে জড়িত করবে (যে কোনও অরথগোনাল ভিত্তিতে সম্প্রসারণ ব্যবহার করে)। তবুও, কারণ এই সেটটির কার্ডিনালিটি রয়েছেR d d Ω d ℵ 1 আরΩRddΩdℵ1 , যা reals এর cardinality, সেখানে এই ডিস্ট্রিবিউশন মধ্যে কিছু একের সাথে এক সাদৃশ্য থাকা আবশ্যক । অদ্ভুতভাবে, এটি একক বাস্তব প্যারামিটারের সাথে এটি একটি প্যারামিটারাইজড স্টেট স্পেস হিসাবে দেখায়!R
এই প্যারাডক্সটি সমাধান করে সমাধান করা হয়েছে যে কোনও একক আসল সংখ্যা বিতরণগুলির সাথে "সুন্দর" সম্পর্ক উপভোগ করতে পারে না: আমরা যখন সেই সংখ্যার মান পরিবর্তন করি তখন কিছু ক্ষেত্রে এটির সাথে বন্টন অবশ্যই সামঞ্জস্যপূর্ণ উপায়ে পরিবর্তিত হয়। আমরা এই জাতীয় "প্যাথলজিকাল" প্যারামিটারাইজেশনগুলি অস্বীকার করে তাদের প্যারামিটারগুলির নিকটতম মানের সাথে সম্পর্কিত বিতরণগুলি নিজেরাই একে অপরের "কাছাকাছি" থাকা আবশ্যক। "ক্লোজ" এর উপযুক্ত সংজ্ঞাগুলি আলোচনা করা আমাদের অনেক দূরে নিয়ে যাবে, তবে আমি আশা করি যে এই বিবরণটি প্রমাণ করার জন্য যথেষ্ট যে কেবলমাত্র একটি নির্দিষ্ট বিতরণের নামকরণের চেয়ে প্যারামিটার হওয়ার মতো আরও অনেক কিছুই রয়েছে।
বিতরণ সম্পত্তি
বারবার প্রয়োগের মাধ্যমে আমরা বিতরণের একটি "সম্পত্তি" ভাবতে অভ্যস্ত হয়ে উঠি যেটি আমাদের কাজের ক্ষেত্রে প্রায়শই উপস্থিত হয় যেমন এর প্রত্যাশা, বৈকল্পিকতা ইত্যাদি on "সম্পত্তি" এর সম্ভাব্য সংজ্ঞা হিসাবে এটির সাথে সমস্যাটি হ'ল এটি অত্যন্ত অস্পষ্ট এবং পর্যাপ্ত সাধারণ নয়। (এটি এখানেই অষ্টাদশ শতাব্দীর মাঝামাঝিতে গণিত ছিল, যেখানে "ফাংশনগুলি" অবজেক্টগুলিতে সীমাবদ্ধ প্রক্রিয়া হিসাবে বিবেচিত হত।) পরিবর্তে, "সম্পত্তি" এর একমাত্র বুদ্ধিমান সংজ্ঞা সম্পর্কে যা সর্বদা কাজ করবে তা হ'ল সম্পত্তি হিসাবে চিন্তা করা number প্রতিটি বিতরণের জন্য অনন্যভাবে নির্ধারিত এমন একটি সংখ্যাΩ Ω Ω টি 1 ΩΩ। এর মধ্যে গড়, বৈকল্পিকতা, কোনও মুহুর্ত, মুহুর্তের কোনও বীজগণিত সংমিশ্রণ, কোনও কোয়ান্টাইল এবং আরও অনেক কিছু রয়েছে, যা এমনকী জিনিসগুলিও গণনা করা যায় না। যাইহোক, এটা নেই না যে উপাদানের কিছু কোন অর্থে করা হবে অন্তর্ভুক্ত । উদাহরণস্বরূপ, যদি আপনার সব শিক্ষার্থীর টি ডিস্ট্রিবিউশন নিয়ে গঠিত, তারপর গড় না জন্য একটি বৈধ সম্পত্তি (কারণ কোন গড় আছে)। আসলে কী ধারণ করে তার উপর আমাদের ধারণাগুলি কতটা নির্ভর করে তা আমাদের উপরে আবারও প্রভাবিত করে ।ΩΩΩt1Ω
বৈশিষ্ট্যগুলি সর্বদা পরামিতি হয় না
কোনও সম্পত্তি এমন জটিল ফাংশন হতে পারে যা এটি প্যারামিটার হিসাবে কাজ করবে না। "সাধারণ বিতরণ" এর ক্ষেত্রে বিবেচনা করুন। আমরা জানতে চাইতে পারি যে সত্যিকারের বিতরণের গড়টি যখন নিকটতম পূর্ণসংখ্যার সাথে বৃত্তাকার হয় তখন কি সমান হয়। এটি একটি সম্পত্তি। তবে এটি প্যারামিটার হিসাবে কাজ করবে না।
প্যারামিটারগুলি অগত্যা বৈশিষ্ট্য নয়
প্যারামিটার এবং বিতরণ যখন একে অপরের সাথে যোগাযোগ হয় তবে স্পষ্টতই কোনও পরামিতি এবং সেই বিষয়টির জন্য পরামিতিগুলির কোনও ক্রিয়াকলাপ আমাদের সংজ্ঞা অনুসারে সম্পত্তি। তবে প্যারামিটার এবং বিতরণগুলির মধ্যে একে অপরের সাথে যোগাযোগের প্রয়োজন নেই: কখনও কখনও কয়েকটি বিতরণ প্যারামিটারের দুটি বা আরও স্বতন্ত্রভাবে পৃথক মান দ্বারা বর্ণনা করতে হবে। উদাহরণস্বরূপ, গোলকের পয়েন্টগুলির জন্য একটি অবস্থান প্যারামিটার স্বাভাবিকভাবেই অক্ষাংশ এবং দ্রাঘিমাংশ ব্যবহার করবে। এটি ঠিক আছে - দুটি মেরু ব্যতীত, যা প্রদত্ত অক্ষাংশ এবং কোনও বৈধ দ্রাঘিমাংশের সাথে মিলে যায়। অবস্থান(গোলকের দিকে নির্দেশ করুন) প্রকৃতপক্ষে একটি সম্পত্তি তবে এর দ্রাঘিমাংশ অবশ্যই সম্পত্তি নয়। যদিও বিভিন্ন ডজ রয়েছে (উদাহরণস্বরূপ একটি মেরুটির দ্রাঘিমাংশ শূন্য হিসাবে ঘোষণা করুন), এই সমস্যাটি কোনও সম্পত্তি (যা একটি বিতরণের সাথে স্বতন্ত্রভাবে জড়িত) এবং একটি পরামিতি (যা লেবেলের একটি উপায় ) এর মধ্যে গুরুত্বপূর্ণ ধারণাগত পার্থক্যকে হাইলাইট করে বিতরণ এবং অনন্য হতে পারে)।
পরিসংখ্যান পদ্ধতি
একটি অনুমানের লক্ষ্যকে একটি অনুমান বলা হয় । এটি নিছক একটি সম্পত্তি। পরিসংখ্যানবিদ অনুমানটি নির্বাচন করতে মুক্ত নয় : এটি তার ক্লায়েন্টের প্রদেশ। যখন কেউ আপনার কাছে একটি জনসংখ্যার নমুনা নিয়ে আসে এবং জনসংখ্যার 99 তম পার্সেন্টাইল অনুমান করার জন্য আপনাকে জিজ্ঞাসা করে, আপনি সম্ভবত এর পরিবর্তে গড়টির একটি অনুমান সরবরাহকারীকে ছাড়িয়ে যাবেন! আপনার পরিসংখ্যানবিদ হিসাবে আপনার কাজটি আপনাকে প্রদত্ত অনুমানটি নির্ধারণের জন্য একটি ভাল প্রক্রিয়া সনাক্ত করা । (কখনও কখনও আপনার কাজটি আপনার ক্লায়েন্টকে বোঝানো হয় যে তিনি তার বৈজ্ঞানিক উদ্দেশ্যগুলির জন্য ভুল অনুমানটি নির্বাচন করেছেন, তবে এটি ভিন্ন বিষয় ...)
সংজ্ঞা অনুসারে, কোনও পদ্ধতিটি ডেটা থেকে বেরিয়ে আসার একটি উপায়। পদ্ধতিগুলিতে সাধারণত ডেটা প্রয়োগ করার জন্য সূত্র হিসাবে দেওয়া হয়, যেমন "এগুলি সমস্ত কিছু যুক্ত করুন এবং তাদের গণনা অনুসারে ভাগ করুন।" আক্ষরিক যে কোনও প্রক্রিয়া প্রদত্ত অনুমানের একটি "অনুমানক" হিসাবে উচ্চারিত হতে পারে। উদাহরণস্বরূপ, আমি ঘোষণা করতে পারে যে নমুনা গড় (ক সূত্র ডেটা প্রয়োগ) অনুমান জনসংখ্যা ভ্যারিয়েন্স (জনসংখ্যার একটি সম্পত্তি, অভিমানী আমাদের ক্লায়েন্ট সম্ভব জনগোষ্ঠী সেট সীমাবদ্ধ করেছেন কেবলমাত্র সেই আসলে ভেরিয়ানস আছে অন্তর্ভুক্ত করা) ।Ω
Estimators
অনুমানের সাথে অনুমানের কোনও সুস্পষ্ট সংযোগ থাকতে হবে না। উদাহরণস্বরূপ, আপনি কি নমুনার গড় এবং জনসংখ্যার বৈচিত্রের মধ্যে কোনও সংযোগ দেখতে পাচ্ছেন? আমিও জানিনা কিন্তু তা সত্ত্বেও, নমুনা গড় আসলে জনসংখ্যা ভ্যারিয়েন্সের একটি শালীন মূল্নির্ধারক হয় নির্দিষ্ট জন্য Ω (যেমন সব পইসন ডিস্ট্রিবিউশন সেট হিসাবে)। এখানে বোঝার estimators একটা চাবি এই ব্যবস্থার সবচেয়ে গুরত্বপূর্ণ: তাদের গুণাবলী সম্ভব রাজ্যের সেট উপর নির্ভর করে । তবে এটি এর অংশ মাত্রΩ
একজন দক্ষ পরিসংখ্যানবিদ জানতে চাইবেন যে তারা সুপারিশ করছে যে পদ্ধতিটি বাস্তবে সম্পাদন করবে। আসুন পদ্ধতি "কল " এবং দিন estimand হতে θ । বুদ্ধিমান না যা বন্টন আসলে সত্য এক, সে পদ্ধতি এর পারফরম্যান্সের ভাবা হবে প্রতি সম্ভব বিতরণের জন্য এফ ∈ Ω । যেমন একটি প্রদত্ত এফ , এবং যে কোনো সম্ভাব্য পরিণতি দেওয়া গুলি (যে, একটি ডাটা সেট), সে তুলনা করবে টন ( গুলি ) (তার পদ্ধতি অনুমান) এর θ ( এফ ) (জন্য estimand মান এফ )। tθ F∈ΩFst(s)θ(F)Fএই দু'জনের কতটা কাছাকাছি বা দূরে তার কথা বলা তাঁর ক্লায়েন্টের দায়িত্ব। (এটি প্রায়শই একটি "ক্ষতি" ফাংশন দিয়ে করা হয়)) তারপরে তিনি টি ( গুলি ) এবং θ ( এফ ) এর মধ্যে দূরত্বের প্রত্যাশা নিয়ে চিন্তা করতে পারেন । এটিই তার পদ্ধতির ঝুঁকি । কারণ এটা নির্ভর করে এফ ঝুঁকি একটি ফাংশন উপর সংজ্ঞায়িত Ω ।t(s)θ(F)FΩ
(ভাল) পরিসংখ্যানবিদরা ঝুঁকি তুলনার ভিত্তিতে প্রক্রিয়াগুলির পরামর্শ দেন। উদাহরণস্বরূপ, যে জন্য যে অনুমান , পদ্ধতি ঝুঁকি টি 1 কম কম বা ঝুঁকির সমান টন । তারপরে টি ব্যবহার করার কোনও কারণ নেই : এটি "অগ্রহণযোগ্য"। অন্যথায় এটি "গ্রহণযোগ্য"।F∈Ωt1tt
(একটি "বায়সিয়ান" পরিসংখ্যানবিদ সর্বদা সম্ভাব্য রাজ্যগুলির (সাধারণত ক্লায়েন্ট দ্বারা সরবরাহিত) "পূর্ববর্তী" বিতরণকে গড়ের মাধ্যমে ঝুঁকির তুলনা করতে পারেন A একটি "ফ্রিকোয়ালিস্ট" পরিসংখ্যানবিদ এটি করতে পারেন, যদি পূর্বের ন্যায়সঙ্গতভাবে উপস্থিত থাকে তবে তারা এটি করতে আগ্রহী বেইসিয়ানরা অন্যান্য উপায়ে ঝুঁকি তুলনা করে।)
উপসংহার
আমরা বলতে চাই যে কোন অধিকার আছে যে জন্য গ্রাহ্য হয় θ একটি হল মূল্নির্ধারক এর θ । tθθ আমরা ব্যবহারিক উদ্দেশ্যে (কারণ গ্রাহ্য পদ্ধতি হার্ড এটি হতে পারে) হবে, মোড় এই বলছে যে কোন গ্রহণযোগ্যভাবে ক্ষুদ্র ঝুঁকি আছে (যখন তুলনা করা হচ্ছে θ ) কার্যকর পদ্ধতি মধ্যে একজন মূল্নির্ধারক হয় θ । tθθ "গ্রহণযোগ্য" এবং "অনুশীলনযোগ্য" ক্লায়েন্ট দ্বারা নির্ধারিত হয়, অবশ্যই: "গ্রহণযোগ্য" তাদের ঝুঁকি বোঝায় এবং "বাস্তবায়িত" পদ্ধতিটি বাস্তবায়নের ব্যয় (শেষ পর্যন্ত তাদের দ্বারা প্রদত্ত) প্রতিফলিত করে।
Ωt