এই একক মান যে বিতরণ মেলে?


10

এটি একটি খুব নিষ্পাপ প্রশ্নের মতো মনে হচ্ছে তবে উত্তরটি দেখতে আমার অসুবিধা হচ্ছে।

আমার কাছে 30 টি মানের একটি সেট রয়েছে। স্বতন্ত্রভাবে আমি একটি 31 তম মান পেয়েছি। নাল হাইপোথিসিসটি হ'ল 31 তম মান একই বন্টনের অংশ। বিকল্প এটি ভিন্ন। আমি এক ধরণের পি-মান বা সম্ভাবনা পরিমাপ চাই।

কিছু চিন্তা আমার ছিল:

  • এটি একটি দ্বি-নমুনা টি-পরীক্ষা করতে চাওয়ার অনুরূপ - দ্বিতীয় নমুনার জন্য আমার কেবলমাত্র একটিই মান রয়েছে এবং 30 টি মান অগত্যা স্বাভাবিকভাবে বিতরণ করা হয় না।
  • যদি 30 টি পরিমাপের পরিবর্তে আমার 10000 পরিমাপ থাকে তবে একক পরিমাপের র‌্যাঙ্ক কিছু দরকারী তথ্য সরবরাহ করতে পারে।

আমি কীভাবে এই সম্ভাবনা বা পি-মান গণনা করতে পারি?

ধন্যবাদ! Yannick


4
আপনি ভবিষ্যদ্বাণী ব্যবধানের জন্য জিজ্ঞাসা করছেন । আপনার দ্বিতীয় চিন্তাধারা অ-প্যারাম্যাট্রিকের পূর্বাভাস ব্যবধানের দিকে নিয়ে যায় (যা আমি বিশ্বাস করি যে এই সাইটে আগে উল্লেখ করা হয়নি)।
হোবার

আপনার জনসংখ্যা সম্পর্কে আপনি আর কী বলতে পারেন? সব মান কি ইতিবাচক? আপনি কি এটি প্রতিসম হিসাবে প্রত্যাশা করবেন? Unimodal?
সাকলি

ধন্যবাদ এবং দুঃখিত আমি আরও তথ্য সরবরাহ করা উচিত ছিল। আমরা পূর্বাভাস অন্তর একবার তাকান। মূলত আমাদের একটি ফোকাল জিনের পূর্বাভাসের দৈর্ঘ্য রয়েছে। এবং একই রকম জিনগুলির দৈর্ঘ্য ডাটাবেসে পাওয়া যায়। সুতরাং সমস্ত সংখ্যা ধনাত্মক পূর্ণসংখ্যার হয়। একটি সহজ ক্ষেত্রে, দৈর্ঘ্যের বিতরণ সর্বসম্মত। বাস্তবে তারা প্রায়শই ঝুঁকছে না; এই পর্যায়ে আমরা ধরে নিতে পারি যে তারা ছিল। বিতরণের কিছু প্লট এখানে দেখানো হয়েছে: github.com/monicadragan/gene_prediction/tree/master/…
ইয়্যানিক

আমি নিশ্চিত নই যে আমরা "ভবিষ্যদ্বাণী ব্যবধান" চাই আমরা ভবিষ্যদ্বাণী করতে চাই না ... এবং আমরা একটি বিরতি চাই না ...?
ইয়ানিক উর্ম

1
প্রযুক্তিগত শর্তাবলী overinter ব্যাখ্যার করবেন না। সংজ্ঞা অনুযায়ী, একটি "ভবিষ্যদ্বাণী ব্যবধান" থেকে নির্মাণ করা হয় মান এমনভাবে যে সব যুগ্ম বিতরণ অধিকৃত অধীনে মান সুযোগ মধ্যে যে 31 মান মিথ্যা একটি প্রদত্ত লক্ষ্য সমান, যেমন 95%। যদি, প্রকৃতপক্ষে, ৩১ তম মানটি মধ্যে থাকে না তবে আপনি এই সিদ্ধান্তে পৌঁছাতে পারবেন যে (উভয়) আপনি দুর্ভাগ্য ছিলেন (যা তথ্য সংগ্রহের আগে কেবল ঘটনার ৫% সম্ভাবনা ছিল) অথবা অন্যথায় (ii) এটি আসলে নয় আপনি যদি ধরে নিয়েছিলেন যে 31 তম মানের বন্টন এটি করেছে তবে: এবং এটিই আপনি পরীক্ষা করতে চান। আমি3031আমিআমি
whuber

উত্তর:


7

ইউনিমোডাল ক্ষেত্রে ভিসোচনস্কিজ-পেটুনিন বৈষম্য আপনাকে মোটামুটি ভবিষ্যদ্বাণী ব্যবধান দিতে পারে। উইকিপিডিয়া সাইটটি এখানে: http://en.wikedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

ব্যবহার λ=3 আনুমানিক 95% পূর্বাভাস অন্তরালে ফলাফল হবে।

সুতরাং আপনি আপনার জনসংখ্যার গড় এবং মানক বিচ্যুতি অনুমান করুন এবং কেবল নমুনা গড়টি ব্যবহার করুন এক্স¯ প্লাস বা মাইনাস 3গুলি আপনার বিরতি হিসাবে

এই পদ্ধতির সাথে বেশ কয়েকটি সমস্যা রয়েছে। আপনি সত্যিকার অর্থে বা মানক বিচ্যুতিটি জানেন না; আপনি অনুমান ব্যবহার করছেন। এবং সাধারণভাবে আপনার আনমোডাল বিতরণ নেই অর্থাত আপনাকে চেবিশেভের অসমতার বিশেষ সংস্করণ ব্যবহার করতে হবে। তবে কমপক্ষে আপনার কাছে একটি পয়েন্ট রয়েছে।

সাধারণ ক্ষেত্রে, কোনিজন (আমেরিকান পরিসংখ্যানবিদ, ফেব্রুয়ারী 1987) বলেছেন যে অর্ডার পরিসংখ্যান ভবিষ্যদ্বাণী ব্যবধান হিসাবে ব্যবহার করা যেতে পারে। সুতরাং[এক্স(আমি),এক্স()] জন্য একটি পূর্বাভাস অন্তর এক্স কোনজন কী আকারকে কল করে -আমিএন+ +1 আকারটিকে "সর্বনিম্ন নিম্ন বদ্ধ (সংযুক্ত ডিস্ট্রিবিউশনের সংস্থার সাথে স্বীকৃতি দেওয়া হয়) হিসাবে সংজ্ঞায়িত করা হয় যে বিরতিটি মানটি আবরণ করে that এক্স "এই পদ্ধতির সাথে 93.3% পূর্বাভাস অন্তর হবে [এক্স(1),এক্স(30)]

তিনি সা, ইয়াং এবং মো এর জন্য দায়ী একটি দৃষ্টিভঙ্গিও দিয়েছেন:

[এক্স¯-λ(1+ +1এন)1/2গুলি , এক্স¯+ +λ(1+ +1এন)1/2গুলি],
নিবন্ধে প্রদত্ত কভারেজ সম্পর্কে বিশদ সহ।

উদাহরণস্বরূপ সঙ্গে এন=30, ব্যবহার λ=3.2 90% এরও বেশি কভারেজ দেবে।


এটি অসমতার একটি ভুল প্রয়োগ হিসাবে প্রতীয়মান: এটি অনুমান করে যে এর গড় এবং বৈচিত্রটি জানা গেছে , যেখানে কেবলমাত্র এই প্রসঙ্গে ডেটা থেকে ভেরিয়েন্সটি অনুমান করা যায়। পার্থক্যটি বিশাল আকারের হতে পারে, বিশেষত ছোট ডেটাসেটের সাথে। চেবিশেভের অসমতার সাথে একই রকম প্রস্তাবগুলির আমার সিমুলেশন অধ্যয়নগুলিতে, আমি চমত্কারভাবে খারাপ পারফরম্যান্স পেয়েছি। স্বজ্ঞাতভাবে, এটি স্টুডেন্টের অন্তর্দৃষ্টির সাথে সমান যে টিআই বিতরণ সিআই তৈরির জন্য সাধারণ বিতরণের পরিবর্তে ব্যবহার করা উচিত; যেহেতু একটি পিআই লেজগুলিতে আরও "বাইরে" থাকে, তাই পার্থক্যটি বাড়ানো হয়।
হোবার

2
সম্পাদনাটি পুনরায় করুন (+1): ননপ্যারমেট্রিকের পূর্বাভাস ব্যবধানটি আইড নাল হাইপোথিসিসের অধীনে ক্রমায়ন পরীক্ষা হিসাবে বোঝা যায়। সেক্ষেত্রে কেবল ক2/316.4531% মান 31 টির মধ্যে বৃহত্তম বা সমস্ত 31 মানের সবচেয়ে ছোট হতে পারে chance সম্পর্কিত পরীক্ষাটি উপসংহারে আসে যে 31 তম মান অন্য 30 টির সাথে সামঞ্জস্যপূর্ণ নয় যখন এটি হয় সবচেয়ে ছোট বা বৃহত্তম is এই পরীক্ষার একটি আকার রয়েছে ( স্বাভাবিক অর্থে )6.45%। এটি 30 টি ডাটা মান সহ একটি (দ্বি-পার্শ্বযুক্ত) পরীক্ষার জন্য সবচেয়ে ছোট আকারের আকার।
হোবার

1

কিছু চিন্তা আমার ছিল:

এটি একটি দ্বি-নমুনা টি-পরীক্ষা করতে চাওয়ার অনুরূপ - দ্বিতীয় নমুনার জন্য আমার কেবলমাত্র একটিই মান রয়েছে এবং 30 টি মান অগত্যা স্বাভাবিকভাবে বিতরণ করা হয় না।

সঠিক। ধারণাটি একটি মান সহ টি-টেস্টের মতো কিছুটা। যেহেতু বিতরণটি জানা যায়নি, এবং কেবলমাত্র 30 টি ডাটা পয়েন্টের সাথে স্বাভাবিকতা গ্রাস করা কিছুটা কঠিন হতে পারে, তাই এটি একরকম নন-প্যারাম্যাট্রিক পরীক্ষা প্রয়োজন।

যদি 30 টি পরিমাপের পরিবর্তে আমার 10000 পরিমাপ থাকে তবে একক পরিমাপের র‌্যাঙ্ক কিছু দরকারী তথ্য সরবরাহ করতে পারে।

এমনকি 30 পরিমাপের সাথে র‌্যাঙ্ক তথ্যমূলক হতে পারে।

@ শুভর যেভাবে নির্দেশ করেছে, আপনি একরকম পূর্বাভাস অন্তর চান। নন-প্যারাম্যাট্রিক কেসের জন্য, আপনি যা জিজ্ঞাসা করছেন, মূলত তা হ'ল: প্রদত্ত ডেটা পয়েন্টের সম্ভাবনা কতটা সম্ভব যা আমরা আপনার ৩১ তম পরিমাপের জন্য পর্যবেক্ষণ করি?

এটি একটি সাধারণ ক্রমানুসারে পরীক্ষার মাধ্যমে সম্বোধন করা যেতে পারে। এখানে 15 টি মান এবং একটি উপন্যাস (16 তম পর্যবেক্ষণ) সহ একটি উদাহরণ যা পূর্বেরগুলির তুলনায় আসলে বড়:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

আমরা এন ক্রমানুসরণ সম্পাদন করি , যেখানে তালিকার উপাদানগুলির ক্রমটি পরিবর্তিত হয়, তারপরে এই প্রশ্নটি জিজ্ঞাসা করুন: (শিফলেড) তালিকার প্রথম উপাদানটির মানটির জন্য কী পদটি রয়েছে?

এন = 1000 ক্রিয়াকলাপ সম্পাদন করা আমাদের 608 কেস দেয় যেখানে তালিকার প্রথম উপাদানটির র‌্যাঙ্ক নতুন মানের র‌্যাঙ্কের সমান বা আরও ভাল (আসলে সমান, যেহেতু নতুন মানটি সর্বোত্তম is পুনরায় 1000 অনুক্রমের জন্য সিমুলেশন চালানো হচ্ছে, আমরা 658 টির মতো কেস পাই, তারপরে 663 ...

যদি আমরা এন = 1,000,000 ক্রিয়াকলাপ সম্পাদন করি তবে আমরা 62825 কেস পাই যা তালিকার প্রথম উপাদানটির মানটি নতুন মানের স্তরের সমান বা আরও ভাল (আরও সিমুলেশন 62871 কেস দেয়, তারপরে 62840 ...)। যদি শর্তটি সন্তুষ্ট হয় এবং মোট আদেশের মোট সংখ্যার মধ্যে অনুপাত নেয় তবে আমরা 0.062825, 0.062871, 0.06284 এর মতো নম্বর পাই ...

আপনি এই মানগুলি 1/16 = 0.0625 (6.25%) এর দিকে রূপান্তর করতে পারেন, যা @ শুভর নোট হিসাবে, সম্ভাব্যতা যে এলোমেলোভাবে আঁকা একটি প্রদত্ত মান (16 এর মধ্যে) এর মধ্যে সর্বোত্তম সম্ভাব্য র‌্যাঙ্ক রয়েছে।

একটি নতুন ডেটাসেটের জন্য, যেখানে নতুন মানটি দ্বিতীয় সেরা মান (অর্থাত্ র‌্যাঙ্ক 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

আমরা পেয়েছি (এন = 1,000,000 ক্রমবর্ধনের জন্য): 125235, 124883 ... অনুকূল ক্ষেত্রে যা পুনরায় এলোমেলোভাবে আঁকা একটি প্রদত্ত মান (16 এর মধ্যে) এর মধ্যে দ্বিতীয় সম্ভাব্য র‌্যাঙ্কটি পাওয়ার সম্ভাবনাটিকে প্রায় ঘনিষ্ঠ করে তোলে: 2/16 = 0.125 (12.5%)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.