আমি কি কলমোগোরভ-স্মারনভ পরীক্ষা এবং অনুমানের বিতরণ প্যারামিটারগুলি ব্যবহার করতে পারি?


14

আমি পড়েছি যে কোলমোগোরভ-স্মারনভ পরীক্ষাটি এমন কোনও বন্টনের উপযুক্ততার সদ্ব্যবহার পরীক্ষা করার জন্য ব্যবহার করা উচিত নয় যার পরামিতিগুলি নমুনা থেকে অনুমান করা হয়েছে।

আমার নমুনাটিকে দুটি ভাগে ভাগ করে কি প্যারামিটার অনুমানের জন্য প্রথমার্ধ এবং দ্বিতীয়টি কেএস-পরীক্ষার জন্য ব্যবহার করে?

আগাম ধন্যবাদ


1
আপনি কোন বিতরণের বিরুদ্ধে পরীক্ষা করতে চান এবং কেন?
গুং - মনিকা পুনরায়

আমি সন্দেহ করি যে ডেটা একটি ঘনিষ্ঠ বিতরণ অনুসরণ করে।
sortega

উত্তর:


13

সিমুলেশন দ্বারা আপনার পি-মানটির সমালোচনামূলক মানের গণনা করা আরও ভাল পদ্ধতির। সমস্যাটি হ'ল আপনি যখন অনুমানযুক্ত মানগুলি ব্যবহার না করে ডেটা থেকে পরামিতিগুলি অনুমান করেন তখন কেএস পরিসংখ্যানের বিতরণ নাল বিতরণ অনুসরণ করে না।

পরিবর্তে আপনি কেএস পরীক্ষা থেকে পি-মানগুলি উপেক্ষা করতে পারেন এবং পরিবর্তে আপনার আসল তথ্য হিসাবে একই আকারের প্রার্থীর বিতরণ (প্যারামিটারগুলির একটি অর্থপূর্ণ সেট সহ) থেকে গুচ্ছ ডেটাসেটগুলি সিমুলেট করতে পারেন। তারপরে প্রতিটি সেটের জন্য পরামিতিগুলি অনুমান করুন এবং আনুমানিক পরামিতিগুলি ব্যবহার করে কেএস পরীক্ষা করুন। আপনি পি-মান হ'ল সিমুলেটেড সেটগুলি থেকে পরীক্ষার পরিসংখ্যানগুলির অনুপাত যা আপনার মূল ডেটার চেয়ে আরও চূড়ান্ত।


2
আমি সমাধানটি কিছুটা বিভ্রান্তির সাথে খুঁজে পাই (কমপক্ষে আমার জন্য); প্রার্থী বিতরণের জন্য "প্যারামিটারগুলির একটি অর্থপূর্ণ সেট" বলতে কী বোঝ? আপনি প্রাথমিকভাবে প্রার্থী বিতরণের প্যারামিটারগুলি জানেন না, আপনি কীভাবে জানবেন যে "প্যারামিটারগুলির অর্থপূর্ণ সেট" কী?
নস্টোর

আপনি প্যারামিটারগুলির বিভিন্ন সেট চেষ্টা করতে পারেন এটি দেখতে পার্থক্য করে কিনা এবং না (সাধারণভাবে এটি না করে তবে কিছু বিতরণও হতে পারে)। তারপরে আপনার ডেটার পেছনের বিজ্ঞান সম্পর্কে চিন্তা করুন, বা এই অঞ্চলের কোনও বিশেষজ্ঞের সাথে কথা বলুন, আপনি কোথায় শুরু করবেন সে সম্পর্কে একটি সাধারণ ধারণা পেতে সক্ষম হওয়া উচিত, উদাহরণস্বরূপ, নাইজেরিয়ায় প্রাপ্তবয়স্ক পুরুষদের গড় উচ্চতা কী, তবে আমি জানি প্রায় নিশ্চিত যে এটি ইতিবাচক এবং 3 মিটারেরও কম।
গ্রেগ স্নো

@ গ্রেগস্নো এটি আমার বর্তমান কাজের সাথে সম্পর্কিত বলে আমি এই পোস্টটি জুড়ে এসেছি across আমি ভাবছিলাম যে আপনার প্রস্তাবিত পদ্ধতির কোনও তাত্ত্বিক ন্যায়সঙ্গততা আছে কিনা? তা হল, আমরা কীভাবে জানি যে প্রস্তাবিত "পি-মান" প্রকৃতপক্ষে 0 থেকে 1 অবধি বিতরণ করা হয়েছে? প্রস্তাবিত পি-মানটি প্রচলিত পি-মান হিসাবে মনে হচ্ছে না কারণ নাল অনুমানটি এখন বিতরণের একটি সেট
রেন্টারহেমস্টার

@ আরেনারেথহ্যামস্টার, আপনার ভাল বক্তব্য রয়েছে, এ কারণেই আমি বিভিন্ন পরিস্থিতিতে সিমুলেট করার পরামর্শ দিয়েছি। কিছু বিতরণের জন্য (আমি স্বাভাবিকটি আশা করতাম) এটি খুব বেশি গুরুত্বপূর্ণ হবে না, তবে অন্যদের বিভিন্ন সত্য প্যারামিটার মানগুলির জন্য বিভিন্ন কাট-অফের প্রয়োজন হতে পারে। যদি এটি হয় তবে ব্যবহারকারীর (আপনার) পরীক্ষার জন্য অর্থপূর্ণ শূন্যতার সন্ধান করতে হবে যার বিপরীতে আকৃতি এবং প্যারামিটারগুলির সেট বা পরিসীমা উভয়ই রয়েছে যা আপনি স্বাচ্ছন্দ্যযুক্ত are
গ্রেগ স্নো

1
@ লিলি লং, সিমুলেশনগুলি অনেক বেশি কঠিন এবং সময়সাপেক্ষ বলে ব্যবহৃত হত, তাই পরীক্ষাগুলি সিমুলেশনের চেয়ে দ্রুত / সহজতর হিসাবে বিকশিত হয়েছিল, কিছু প্রাথমিক সারণী সিমুলেশন দ্বারা তৈরি করা হয়েছিল। অনেক পরীক্ষা এখন সহজেই সিমুলেশন দ্বারা প্রতিস্থাপন করা যেতে পারে, তবে traditionতিহ্য এবং সরলতার কারণে সম্ভবত আমাদের আরও কিছু সময়ের জন্য থাকবে।
গ্রেগ স্নো

7

নমুনা বিভাজন সম্ভবত পরিসংখ্যান বিতরণ সমস্যা হ্রাস করতে পারে, কিন্তু এটি এটি মুছে না।

আপনার ধারণাটি এড়িয়ে চলেছে যে জনসংখ্যা মানের তুলনায় অনুমানগুলি 'খুব কাছাকাছি' হবে কারণ তারা একই নমুনার উপর ভিত্তি করে।

তারা যে সমস্যা এখনও অনুমান করছে আপনি এড়াচ্ছেন না। পরীক্ষার পরিসংখ্যান বিতরণ সারণীযুক্ত নয়।

এই ক্ষেত্রে এটি নাটকীয়ভাবে হ্রাস করার পরিবর্তে শূন্যের নীচে প্রত্যাখ্যান হার বাড়ায়।

আরও ভাল পছন্দ হ'ল একটি পরীক্ষা ব্যবহার করা যেখানে প্যারামিটারগুলি পরিচিতি ধরে নেওয়া হয় না, যেমন শাপিরো উইলক।

যদি আপনি কোলমোগোরভ-স্মারনভ পরীক্ষার জন্য বিবাহবন্ধনে আবদ্ধ হন তবে আপনি লিলিফর্স পরীক্ষার পদ্ধতি গ্রহণ করতে পারেন।

এটি হ'ল কেএস পরিসংখ্যানটি ব্যবহার করতে হবে তবে পরীক্ষার পরিসংখ্যানগুলির বিতরণ প্যারামিটারের অনুমানের প্রভাবকে প্রতিফলিত করে - প্যারামিটার অনুমানের অধীনে পরীক্ষার পরিসংখ্যান বিতরণকে অনুকরণ করে। (এটি আর বিতরণ-মুক্ত নয়, সুতরাং প্রতিটি বিতরণের জন্য আপনার নতুন টেবিলের প্রয়োজন))

http://en.wikipedia.org/wiki/Lilliefors_test

লিলিফাররা সাধারণ এবং তাত্পর্যপূর্ণ মামলার জন্য সিমুলেশন ব্যবহার করে তবে কোনও নির্দিষ্ট বিতরণের জন্য আপনি সহজেই এটি করতে পারেন; আর এর মতো কিছুতে 10,000 বা 100,000 নমুনা অনুকরণ করা এবং শূন্যের অধীনে পরীক্ষার পরিসংখ্যানগুলির বিতরণ পেতে মুহুর্তের বিষয়।

[অ্যান্ডারসন-ডার্লিংয়ের বিবেচনা করা একটি বিকল্প হতে পারে, যার একই সমস্যা রয়েছে তবে যা - ডি'গোস্টিনো এবং স্টিফেনস ( গুডনেস অফ-ফিট-টেকনিক ) এর বই থেকে বিচার করা তার পক্ষে কম সংবেদনশীল বলে মনে হয়। আপনি লিলিফোর্স ধারণাটি মানিয়ে নিতে পারেন তবে তারা তুলনামূলকভাবে সহজ সামঞ্জস্যের প্রস্তাব দেয় যা মোটামুটি ভালভাবে কাজ করে বলে মনে হয়]]

কিন্তু এখনও অন্যান্য পন্থা আছে; ফিটের উপকারের মসৃণ পরীক্ষার পরিবার রয়েছে, উদাহরণস্বরূপ (উদাহরণস্বরূপ রায়নার এবং সেরাের বইটি দেখুন) যে কয়েকটি নির্দিষ্ট ক্ষেত্রে প্যারামিটার অনুমানের সাথে মোকাবিলা করতে পারে।

* প্রভাবটি এখনও বেশ বড় হতে পারে - সাধারণত এটি গ্রহণযোগ্য হিসাবে গণ্য হবে তার চেয়ে বড় হতে পারে; মোমো এ সম্পর্কে উদ্বেগ প্রকাশ করা ঠিক। যদি উচ্চতর ধরণের I ত্রুটির হার (এবং একটি চাটুকার পাওয়ার কার্ভ) সমস্যা হয় তবে এটি কোনও উন্নতি হতে পারে না!


1
আপনি কীভাবে ব্যাখ্যা করতে পারেন "কীভাবে" নমুনা বিভাজনের সাথে নমুনা বিভাজন সমস্যার সমাধান করবে "? আমার মতে, প্যারামিটারগুলি একটি সাবসামেল থেকে অনুমান করা হবে এবং তারপরে দ্বিতীয় সাব-নমুনার কেএস পরীক্ষার জন্য প্লাগ ইন করা হবে, তবে প্যারামিটারগুলি এখনও নমুনা ত্রুটির সাথে জড়িত যা নাল ডিস্ট্রিবিউশনের জন্য নয়। এটি আমার কাছে মনে হয় যেন কোনও একই ধারণার সাহায্যে একটি সাধারণ বন্টন থেকে একটি নমুনা বিভক্ত করতে পারে, একটি উপস্থায় স্ট্যান্ডার্ড বিচ্যুতির প্রাক্কলন করতে পারে এবং দ্বিতীয় নমুনায় টি-ডিস্টের পরিবর্তে স্ট্যান্ডার্ড সাধারণের সাথে একটি গড় তুলনা চালায়।
মোমো

1
@ মোমো 'সমাধান' খুব শক্তিশালী; 'হ্রাস' করাই ভাল। যদি আপনি যে পর্যবেক্ষণগুলি পরীক্ষা করে থাকেন সেগুলি থেকে যদি পরামিতিগুলি অনুমান করা হয়, তবে - যদি আপনি সেই প্রভাবটির জন্য অ্যাকাউন্ট না করেন - বিতরণ থেকে নমুনার বিচ্যুতি 'খুব ছোট' হবে - প্রত্যাখ্যান হার কমবে । অন্য একটি নমুনা ব্যবহার করা সেই প্রভাবটিকে সরিয়ে দেয়। দ্বিতীয় নমুনা থেকে অনুমানের ফলে প্রাপ্ত প্যারামিটার মানগুলি এখনও স্যাম্পলিং ত্রুটিতে ভুগছে। এটি পরীক্ষার উপর কিছুটা প্রভাব ফেলবে (ধরণের আই ত্রুটির হারকে ধাক্কা দেয়), তবে নাটকীয় বাইসিং প্রভাব থাকবে না যা উভয়ের জন্য একই ডেটা ব্যবহার করে।
গ্লেন_বি -রিনস্টেট মনিকা

@ মোমো আমি 'সমাধান' অপসারণ করতে এবং এটিকে কিছু ব্যাখ্যা দিয়ে প্রতিস্থাপন করতে আমার মন্তব্য সম্পাদনা করেছি
Glen_b -Reninstate Monica

5

আমি আশঙ্কা করছি যে সমস্যার সমাধান করবে না। আমি বিশ্বাস করি যে সমস্যাটি একই নমুনা থেকে নয় তবে কোনও নমুনা থেকে মোটামুটি অনুমান করা হয় । কেএস পরীক্ষার স্বাভাবিক নাল ডিস্ট্রিবিউশনের উত্সটি রেফারেন্স বিতরণের প্যারামিটারগুলিতে কোনও অনুমানের ত্রুটির জন্য অ্যাকাউন্ট করে না, বরং তাদের দেওয়া হিসাবে দেখায়। 1973 এর ডুর্বিনও দেখুন যিনি এই সমস্যাগুলি দৈর্ঘ্যে আলোচনা করেন এবং সমাধানগুলি সরবরাহ করেন।


1
এগুলি আসলে দুটি পৃথক সমস্যা। আপনি যদি প্যারামিটারগুলি অনুমান করতে এবং কেএস-পরীক্ষা করতে একই ডেটা ব্যবহার করেন তবে আপনি সাধারণত স্ফীত পি-মানগুলি দেখতে পাবেন , কারণ এর বিরুদ্ধে পরীক্ষার আগে আপনি প্রয়োজনীয়ভাবে ডেটা বন্টনকে অভিযোজিত করেন। আপনি যদি দুটি নমুনা স্বতন্ত্র সেট ব্যবহার করেন তবে, এটি ক্ষেত্রে নয়। তবে, অনর্থক প্যারামিটারের অনুমানগুলি এই ক্ষেত্রে আপনার পাওয়া পি-মানগুলি হ্রাস করতে পারে , কারণ এখন আপনি মূলত একটি (সামান্য) ভুল বিতরণের বিরুদ্ধে পরীক্ষা করছেন ।
fgp
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.