এটি একটি সূক্ষ্ম প্রশ্ন। চিন্তাভাবনা করে এমন ব্যক্তির লাগে সেই উদ্ধৃতিগুলি না বুঝে! যদিও তারা প্রস্তাবনামূলক তবে দেখা যাচ্ছে যে এগুলির কোনওটিই ঠিক বা সাধারণভাবে সঠিক নয়। আমার কাছে পূর্ণ বিবরণ দেওয়ার মতো সময় নেই (এবং এখানে জায়গা নেই) তবে আমি এটির প্রস্তাবনা এবং একটি অন্তর্দৃষ্টি ভাগ করতে চাই।
স্বাধীনতার ডিগ্রি (ডিএফ) ধারণাটি কোথায় জন্মায়? প্রাথমিক চিকিত্সাগুলিতে এটি যে প্রসঙ্গে দেখা যায় সেগুলি হ'ল:
শিক্ষার্থীর t-test এর এবং এই ধরনের Behrens-ফিশার সমস্যা (যেখানে দুই জনগোষ্ঠী বিভিন্ন ভেরিয়ানস আছে) থেকে ওয়েলশ বা Satterthwaite সমাধান হিসেবে তার রূপের।
চি-স্কোয়ার ডিস্ট্রিবিউশন (স্বতন্ত্র স্ট্যান্ডার্ড সাধারণের স্কোয়ারের যোগফল হিসাবে সংজ্ঞায়িত), যা বৈকল্পিকের নমুনা বিতরণে জড়িত ।
এফ পরীক্ষা (আনুমানিক ভেরিয়ানস এর অনুপাতের)।
চি-স্কোয়ারড পরীক্ষা , আকস্মিকতার টেবিল সালে স্বাধীনতার এবং (খ) distributional অনুমান হইয়া ধার্মিকতা জন্য পরীক্ষার জন্য (ক) পরীক্ষার মধ্যে তার ব্যবহারসমূহ গঠিত।
আধ্যাত্মিকভাবে, এই পরীক্ষাগুলি নির্ভুল হওয়া থেকে (সাধারণ পরিবর্তনের জন্য শিক্ষার্থীর টি-টেস্ট এবং এফ-পরীক্ষা) ভাল সান্নিধ্য হিসাবে চালানো (স্টুডেন্ট টি-টেস্ট এবং ওয়েলচ / স্যাটারথওয়েট টেস্টগুলি খুব খারাপভাবে-স্কিউড ডেটা না করার জন্য) চালায় to ) অ্যাসিপটোটিক আনুমানিকতার (চি-স্কোয়ার্ড পরীক্ষা) ভিত্তিক হওয়া। এর কয়েকটিটির একটি আকর্ষণীয় দিক হ'ল অবিচ্ছেদ্য "স্বাধীনতার ডিগ্রি" (ওয়েলচ / স্যাটার্থওয়েট পরীক্ষা এবং যেমন আমরা দেখতে পাব, চি-স্কোয়ার্ড পরীক্ষা) উপস্থিতি। এই বিশেষ আগ্রহের কারণ এটি প্রথম ইঙ্গিতটি যে ডিএফ হয় না তা দাবি যে কোনো।
আমরা প্রশ্নের কিছু দাবি অবিলম্বে নিষ্পত্তি করতে পারি। যেহেতু "একটি পরিসংখ্যানের চূড়ান্ত গণনা" ভালভাবে সংজ্ঞায়িত করা হয়নি (এটি গণনার জন্য কোনওটি অ্যালগরিদম ব্যবহার করে তা স্পষ্টতই নির্ভর করে), এটি একটি অস্পষ্ট পরামর্শ ছাড়া আর কিছু হতে পারে না এবং এটির আর সমালোচনা করার মতো নয়। একইভাবে, "স্বতন্ত্র স্কোরগুলির সংখ্যা যা অনুমানের মধ্যে যায়" বা "মধ্যবর্তী পদক্ষেপ হিসাবে ব্যবহৃত প্যারামিটারের সংখ্যা" কোনওটিই সুসংজ্ঞায়িত হয় না।
"[প্রাক্কলিত অনুমানের মধ্যে থাকা তথ্যের স্বতন্ত্র টুকরোগুলি" মোকাবেলা করা কঠিন, কারণ এখানে "প্রাসঙ্গিক" সম্পর্কিত দুটি পৃথক তবে ঘনিষ্ঠভাবে সম্পর্কিত সংবেদন রয়েছে যা এখানে প্রাসঙ্গিক হতে পারে। একটি র্যান্ডম ভেরিয়েবলের স্বাধীনতা; অন্যটি হ'ল কার্যক্ষম স্বাধীনতা। পরেরটির একটি উদাহরণ হিসাবে, ধরুন আমরা বিষয় morphometric পরিমাপ সংগ্রহ করি - বলো, সরলতা জন্য তিনটি পাশ লেন্থ , , , পৃষ্ঠ এলাকা , এবং ভলিউম এর কাঠের ব্লক একটি সেট। তিন পাশের দৈর্ঘ্যগুলি স্বাধীন র্যান্ডম ভেরিয়েবল হিসাবে বিবেচনা করা যেতে পারে তবে সমস্ত পাঁচটি ভেরিয়েবল নির্ভরশীল আরভি। পাঁচটিও কার্যনির্বাহীওয়াই জেড এস = 2 ( এক্স ওয়াই + + ওয়াই জেড + + জেড এক্স ) ভী = এক্স ওয়াই জেড ( এক্স , ওয়াই , জেড , এস , ভি ) আর 5 ω ∈ আর 5 চ ω ছ ω চ ω ( এক্স ( ψ ) , … , ভি ( ψ ) ) = 0 গ্রাম ωXYZS=2(XY+YZ+ZX)V=XYZনির্ভরশীল কারণ codomain ( না ভেক্টর-মূল্যবান এলোপাতাড়ি ভেরিয়েবলের "DOMAIN"!) আউট একটি ত্রিমাত্রিক নানাবিধ ট্রেস । (সুতরাং, স্থানীয়ভাবে যে কোনও বিন্দুতে দুটি ফাংশন রয়েছে এবং যার জন্য এবং পয়েন্টের জন্য "" কাছাকাছি এবং এবং এর ডেরিভেটিভগুলি মূল্যায়ন করা হয়েছে(X,Y,Z,S,V)R5ω ∈ আর5চωছωচω( এক্স( ψ ) , … , ভি( ψ ) ) = 0ψ ω এফছω( এক্স( ψ ) , … , ভি( ψ ) ) = 0ψωচω ( এক্স , এস , ভি )ছωলিনিয়ারলি ইন্ডিপেন্ডেন্ট।) তবে - এখানে কিকারটি রয়েছে - ব্লকের উপর অনেকগুলি সম্ভাব্যতার জন্য, এর মতো ভেরিয়েবলের সাবসেটগুলি এলোমেলো ভেরিয়েবল হিসাবে নির্ভরশীল তবে কার্যত স্বতন্ত্র।( এক্স, এস, ভি)
এই সম্ভাব্য অস্পষ্টতা দ্বারা সজাগ হয়ে আসুন , আসুন পরীক্ষার জন্য ফিট-স্কোয়ার ধার্মিকতা ধরে রাখি , কারণ (ক) এটি সহজ, (খ) এটি সাধারণ পরিস্থিতিগুলির মধ্যে একটি যেখানে লোকেরা সত্যিকার অর্থে ডিএফ সম্পর্কে জানতে হবে পি-মান ডান এবং (গ) এটি প্রায়শই ভুলভাবে ব্যবহৃত হয়। এখানে এই পরীক্ষার সর্বনিম্ন বিতর্কিত প্রয়োগের সংক্ষিপ্তসার:
আপনার কাছে জনসংখ্যার নমুনা হিসাবে বিবেচিত ডেটা মানগুলির সংগ্রহ রয়েছে ।( এক্স1, … , এক্সএন)
আপনি কয়েকটি প্যারামিটার- অনুমান করেছেন । উদাহরণস্বরূপ, আপনি অনুমান করেছেন যে কোনও সাধারণ বন্টনের গড় এবং স্ট্যান্ডার্ড বিচ্যুতি , অনুমান করে জনসংখ্যা সাধারণত বিতরণ করা হয় তবে জানেন না (তথ্য প্রাপ্তির আগাম) কী বা হতে পারে।θ 1 θ 2 = θ পি θ 1 θ 2θ1, … , Θপিθ1θ2= θপিθ1θ2
আগাম, আপনি ডেটার জন্য "বিন" সেট তৈরি করেছেন । (এটি প্রায়শই সম্পন্ন হওয়া সত্ত্বেও, ডেটা দ্বারা বিনগুলি নির্ধারণ করা হলে এটি সমস্যাযুক্ত হতে পারে)) এই বিনগুলি ব্যবহার করে ডেটা প্রতিটি বিনের অভ্যন্তরে সংখ্যায় সেট হয়ে যায়। আসল মানগুলি কী হতে পারে তা অনুমান করে আপনি এটি সাজিয়ে রেখেছেন যাতে (আশা করা যায়) প্রতিটি বিন প্রায় একই গণনা পাবেন। (সম-সম্ভাব্যতা বিন্নিং চি-স্কোয়ার্ড বিতরণকে সত্যই বর্নিত হওয়া সম্পর্কে চি-স্কোয়ারের পরিসংখ্যানের সত্যিকারের বিতরণের একটি ভাল অনুমানের নিশ্চয়তা দেয়))( θ )ট( θ )
আপনার কাছে প্রচুর ডেটা রয়েছে - এটি নিশ্চিত করার জন্য যথেষ্ট যে প্রায় সমস্ত ডাবের 5 বা ততোধিক গণনা হওয়া উচিত। (এটি, আমরা আশা করি, কিছু বিতরণ দ্বারা পর্যাপ্ত পরিমাণে পরিসংখ্যানের স্যাম্পলিং বিতরণ সক্রিয় করতে সক্ষম করবে ))χ 2χ2χ2
পরামিতি অনুমান ব্যবহার করে, আপনি প্রতিটি বিনে প্রত্যাশিত গণনা গণনা করতে পারেন। চি-স্কোয়ার স্ট্যাটিস্টিক হ'ল অনুপাতের যোগফল
( পর্যবেক্ষণ - প্রত্যাশিত )2প্রত্যাশিত।
এটি, অনেক কর্তৃপক্ষ আমাদের বলে, এটি (খুব কাছের কাছাকাছি) চি-স্কোয়ার বিতরণ হওয়া উচিত। তবে এই জাতীয় বিতরণের পুরো পরিবার আছে। তারা একটি প্যারামিটার দ্বারা পৃথকীকৃত হয় প্রায়ই হিসাবে উল্লেখ করা "স্বাধীন ডিগ্রীগুলির।" কীভাবে নির্ধারণ করবেন সে সম্পর্কে স্ট্যান্ডার্ড যুক্তিটি এরকম হয়ννν
আমি গন্য। এটা তথ্য টুকরোগুলি। তবে তাদের মধ্যে ( ক্রিয়ামূলক ) সম্পর্ক রয়েছে। শুরু করার জন্য, আমি আগে থেকেই জানি যে গণনাগুলির যোগফল অবশ্যই সমান হয় । এটাই এক সম্পর্ক। আমি ডেটা থেকে দুটি (বা , সাধারণত) পরামিতি অনুমান করেছি । এটি দুটি (বা ) অতিরিক্ত সম্পর্ক, টি সম্পূর্ণ সম্পর্ক দেয়। তারা (পরামিতি) হয় সাহসী সমস্ত ( বৈশিষ্ট্যগুলি ) স্বাধীন, যে শুধুমাত্র ছেড়ে ( বৈশিষ্ট্যগুলি ) স্বাধীন "স্বাধীন ডিগ্রীগুলির": যে জন্য ব্যবহার করতে মান ।কে এন পি পি পি + 1 কে - পি - 1 ν νটটএনপিপিপি + 1k - পি - 1ν
এই যুক্তিটির সাথে সমস্যা (যা প্রশ্নে উদ্ধৃতিগুলি ইঙ্গিত করছে এমন গণনার ক্রম) এটি কিছু ভুল অতিরিক্ত শর্তগুলি ধরে রাখলে ভুল হয়। অধিকন্তু, ঐ অবস্থায় আছে কিছুই ডেটার "উপাদান" এর সংখ্যার স্বাধীনতার (কার্মিক বা পরিসংখ্যানগত) সঙ্গে করতে হবে, প্যারামিটার সংখ্যার, কিংবা কিছু দিয়ে অন্য মূল প্রশ্নে বলা হয়।
আমি একটি উদাহরণ দিয়ে আপনাকে দেখাতে দিন। (এটি যথাসম্ভব পরিষ্কার করার জন্য, আমি কয়েকটি সংখ্যক বিন্দু ব্যবহার করছি, তবে এটি অত্যাবশ্যক নয়)) আসুন ২০ টি স্বতন্ত্র এবং অভিন্নরূপে বিতরণ করা হবে (আইআইডি) স্ট্যান্ডার্ড সাধারণ প্রকারভেদগুলি এবং সাধারণ সূত্রগুলির সাথে তাদের গড় এবং মানক বিচ্যুতিটি অনুমান করুন ( গড় = যোগ / গণনা ইত্যাদি )। ফিটের সদ্ব্যবহার পরীক্ষা করতে, স্ট্যান্ডার্ড স্বাভাবিকের চতুর্দিকে কাটপয়েন্টগুলি সহ চারটি বিন তৈরি করুন: -0.675, 0, +0.657, এবং চি-স্কোয়ার স্ট্যাটিস্টিকস তৈরি করতে বিন সংখ্যাগুলি ব্যবহার করুন। ধৈর্য অনুমতি দেয় হিসাবে পুনরাবৃত্তি; আমার 10,000 টি পুনরাবৃত্তি করার সময় ছিল।
ডিএফ সম্পর্কে স্ট্যান্ডার্ড জ্ঞান বলছে যে আমাদের 4 টি বিন এবং 1 + 2 = 3 সীমাবদ্ধতা রয়েছে, এই 10,000 চি-স্কোয়ার পরিসংখ্যানের বিতরণকে বোঝায় যে 1 ডিএফ দিয়ে চি-স্কোয়ার বিতরণ অনুসরণ করা উচিত। হিস্টোগ্রামটি এখানে:
গা dark় নীল রেখার গ্রাফগুলি একটি বিতরণের পিডিএফ গ্রাফ করে - যা আমরা ভেবেছিলাম এটি কাজ করবে - যখন গা dark় লাল রেখার গ্রাফ একটি বিতরণের (যা ভাল হবে অনুমান করুন কেউ যদি আপনাকে বলে যে টি ভুল)। উভয়ই ডেটা ফিট করে না।χ 2 ( 2 ) ν = 1χ2( 1 )χ2( 2 )ν= 1
আপনি ডেটা সেটগুলির ছোট আকারের ( = 20) বা বিনের সংখ্যার ছোট আকারের কারণে সমস্যাটি আশা করতে পারেন । তবে, সমস্যাটি খুব বড় ডেটাসেট এবং বৃহত সংখ্যক বিনের পরেও বজায় রয়েছে: এটি কেবলমাত্র একটি অ্যাসিম্পটোটিক আনুমানিক কাছে পৌঁছাতে ব্যর্থতা নয়।এন
জিনিসগুলি ভুল হয়েছে কারণ আমি চি-স্কোয়ার পরীক্ষার দুটি প্রয়োজনীয়তা লঙ্ঘন করেছি:
আপনাকে অবশ্যই পরামিতিগুলির সর্বাধিক সম্ভাবনার প্রাক্কলনটি ব্যবহার করতে হবে । (এই প্রয়োজনীয়তাটি বাস্তবে সামান্য লঙ্ঘন হতে পারে))
আপনার অবশ্যই সেই অনুমানটি গণনার উপর ভিত্তি করে তৈরি করা উচিত , আসল ডেটাতে নয়! (এটি অত্যন্ত গুরুত্বপূর্ণ ।)
লাল হিস্টগ্রাম এই প্রয়োজনীয়তাগুলি অনুসরণ করে 10,000 টি পৃথক পুনরাবৃত্তির জন্য চি-স্কোয়ার পরিসংখ্যান চিত্রিত করে। নিশ্চিতভাবেই, এটি দৃশ্যত বক্ররেখাকে (গ্রহণযোগ্য পরিমাণে নমুনা ত্রুটির সাথে) অনুসরণ করে, যেমনটি আমরা প্রাথমিকভাবে আশা করি।χ2( 1 )
এই তুলনার মূল কথাটি - যা আমি আশা করি আপনি আগত দেখেছেন - এটি হ'ল পি-ভ্যালুগুলি গণনা করার জন্য সঠিক ডিএফ ব্যবহার করা বহুগুণের মাত্রা, কার্যকরী সম্পর্কের সংখ্যা বা সাধারণ পরিবর্তনের জ্যামিতি ব্যতীত অন্য অনেক কিছুর উপর নির্ভর করে । কিছু কার্যকরী নির্ভরতাগুলির মধ্যে একটি সূক্ষ্ম, সূক্ষ্ম মিথস্ক্রিয়া রয়েছে , যেমন পরিমাণের মধ্যে গাণিতিক সম্পর্কের মধ্যে পাওয়া যায়, এবং ডেটা বিতরণ , তাদের পরিসংখ্যান এবং এগুলি থেকে তৈরি অনুমানক। তদনুসারে, এটি এমনটি ঘটতে পারে না যে মাল্টিভারিয়েট স্বাভাবিক বিতরণগুলির জ্যামিতির ক্ষেত্রে, বা কার্যকরী স্বাধীনতার ক্ষেত্রে, বা পরামিতিগুলির পরিসংখ্যান হিসাবে বা এই প্রকৃতির অন্য কোনও কিছুর ক্ষেত্রে ডিএফ যথেষ্ট পরিমাণে ব্যাখ্যাযোগ্য।
আমাদের দেখতে পাওয়া যায় যে "স্বাধীনতার ডিগ্রি" নিছক একটি হিউরিস্টিক যা সূচিত করে যে (টি, চি-স্কোয়ার্ড, বা এফ) পরিসংখ্যানগুলির নমুনা বিতরণ কী হওয়া উচিত, তবে এটি বিতর্কিত নয়। বিশ্বাস করা যায় যে এটি নিষ্পত্তিমূলক গুরুতর ত্রুটির দিকে পরিচালিত করে। (উদাহরণস্বরূপ, "চি স্কোয়ারড গুডনেস অফ ফিট" অনুসন্ধানের সময় গুগলে শীর্ষস্থানীয় চিত্র হ'ল আইভি লীগ বিশ্ববিদ্যালয়টির একটি ওয়েব পৃষ্ঠা যা এটি পুরোপুরি ভুল হয়ে যায়! বিশেষত, এর নির্দেশাবলীর উপর ভিত্তি করে একটি সিমুলেশন দেখায় যে চি-স্কোয়ার্ড 7 ডিএফ থাকার ক্ষেত্রে এটিতে 9 ডিএফ রয়েছে বলে মানটি সুপারিশ করে)
এই আরও সংক্ষিপ্ত বোঝার সাথে, প্রশ্নে উইকিপিডিয়া নিবন্ধটি পুনরায় পড়ার পক্ষে এটি সার্থক: তার বিবরণে এটি জিনিসগুলি সঠিকভাবে পায়, যেখানে ডিএফ হিউরিস্টিক কোথায় কাজ করে এবং কোথায় হয় এটি প্রায় অনুমান বা আদৌ প্রয়োগ হয় না তা নির্দেশ করে।
এখানে চিত্রিত ঘটনাটির একটি উত্তম বিবরণ (চি-স্কোয়ারড জিওএফ পরীক্ষায় অপ্রত্যাশিতভাবে উচ্চ ডিএফ) কেন্ডাল অ্যান্ড স্টুয়ার্টের ৩ য় সংস্করণে প্রকাশিত হয়েছে । এই চমত্কার পাঠটিতে আমাকে ফিরিয়ে আনতে এই প্রশ্নটির সুযোগের জন্য আমি কৃতজ্ঞ, যা এই জাতীয় দরকারী বিশ্লেষণে পূর্ণ।
সম্পাদনা (জানুয়ারী 2017)
R
"ডিএফ সম্পর্কে স্ট্যান্ডার্ড বুদ্ধি ..." অনুসরণ করে চিত্রটি তৈরি করার কোড এখানে রয়েছে
#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats. The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040" # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4),
xlim=c(0, 13), ylim=c(0, 0.55),
col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)