একটি জনগোষ্ঠীর একটি এলোমেলো সদস্যের ভিন্ন জনগোষ্ঠীর এলোমেলো সদস্যের চেয়ে "ভাল" হওয়ার সম্ভাবনা আমি কীভাবে অনুমান করতে পারি?


15

ধরুন আমার দুটি স্বতন্ত্র জনসংখ্যার নমুনা রয়েছে। যদি আমি পরিমাপ করি যে কোনও সদস্যকে প্রতিটি সদস্যের কাজ করতে কতক্ষণ সময় লাগে তবে আমি প্রতিটি জনসংখ্যার গড় এবং তারতম্যটি সহজেই অনুমান করতে পারি।

আমি যদি এখন প্রতিটি জনগোষ্ঠীর একজনের সাথে একটি এলোমেলো জোড় অনুমান করে, তবে আমি কি দ্বিতীয়টির চেয়ে প্রথমের চেয়ে দ্রুততার সম্ভাবনাটি অনুমান করতে পারি?

আমার মনে একটি দৃ concrete় উদাহরণ রয়েছে: পরিমাপগুলি আমার জন্য এ থেকে বিতে সাইকেল চালানোর সময় এবং জনসংখ্যা আমি যে বিভিন্ন রুটে নিতে পারি তার প্রতিনিধিত্ব করে; আমি সম্ভাব্যতাটি কী তা নিয়ে কাজ করার চেষ্টা করছি যে আমার পরবর্তী চক্রের জন্য একটি বাছাইয়ের রুটটি बी বাছাইয়ের চেয়ে দ্রুত হবে B. আমি যখন প্রকৃতপক্ষে চক্রটি করি তখন আমার নমুনা সেটটির জন্য আমি অন্য একটি ডেটা পয়েন্ট পেয়েছি :)।

আমি সচেতন যে এটি কাজ করার চেষ্টা করার এটি একটি মারাত্মক সরল উপায়, কারণ কোনও দিনেই বাতাস আমার সময়ের চেয়ে অন্য যে কোনও কিছুর চেয়ে বেশি প্রভাবিত হওয়ার সম্ভাবনা থাকে, তাই দয়া করে আপনি আমাকে যদি আমাকে জিজ্ঞাসা করে থাকেন তবে আমাকে জানান ভুল প্রশ্ন ...


এটি সাধারণ দ্বিপদী পরীক্ষার মাধ্যমে করা যেতে পারে এবং @ ম্যাক্রোর একটি ভাল উত্তর রয়েছে। তবে, একটি ইস্যু নিজেই নমুনাগুলির সাথে রয়েছে: এমন কি এমন কিছু আছে যা আপনার এ বা রুট বি রুট নেওয়ার সিদ্ধান্তকে প্রভাবিত করতে পারে? বিশেষত, আপনি যখন রাস্তাগুলি শুকনো হয়ে যায়, বাতাসটি আপনার পিছনে থাকে এবং রাতের খাবারের জন্য অপেক্ষা করেন তখন আপনি কি রুট A এ যেতে পছন্দ করেন? :) যে কোনও কিছুতে বিদেশীদের প্রভাবিত করতে পারে বা এমন কোনও উপায়ে নমুনাগুলিকে পক্ষপাত করতে পারে সে সম্পর্কে কেবল সাবধান হন। উদাহরণস্বরূপ, পরিবর্তনের জন্য কোনও প্রয়োজনের (যেমন সুরক্ষা) বিবেচনার সাথে আগে আপনার নমুনা পরিকল্পনাটি আগে স্থাপন করার চেষ্টা করুন।
Iterator

অন্য একটি বিবেচনা: মনে করুন যে আপনার কাছে দুটি একই পথ রয়েছে এবং একই সাথে এটি দ্রুততর হওয়ার সম্ভাবনার দিক থেকেও দুটিতে প্রভাব ফেলবে না। যেমন একটি সর্বদা হয় হয় হয় 10 বা 20 মিনিট, অন্যটি সর্বদা যথাযথভাবে 15 মিনিটের। বৃহত্তর অনিশ্চয়তার (যেমন স্ট্যান্ডার্ড বিচ্যুতি) দন্ডিত করা বা সময়ের কিছু প্রান্তিকের চেয়ে কম সময় লাগার সম্ভাবনা রয়েছে এমনটিকে সমর্থন করা আপনার পক্ষে আরও ভাল। আপনার প্রশ্ন যেমন ঠিক আছে; আমি কেবল ভবিষ্যতের সংস্কারের পরামর্শ দিচ্ছি।
Iterator

পরিসংখ্যানগত প্রশ্নটি ঠিক আছে তবে আপনি যদি কোন রুটটি আরও দ্রুততার সম্ভাবনাটি নিয়ে কাজ করতে চান তবে আমার রুটগুলির দৈর্ঘ্য পরিমাপ করার পরামর্শ দেওয়া উচিত। যদি অঞ্চলটি পাহাড়ি না হয় তবে ছোট রুটটি সর্বদা দ্রুততর হবে।
এমপিটিকাস

যদি বায়ু একটি গুরুত্বপূর্ণ উপাদান এবং যদি বাতাসের গতি দুটি রুটের জন্য সম্পর্কিত হয় তবে মনে হয় যে কোনও ব্যক্তির প্রশ্নের সঠিক উত্তর দিতে A এবং B এর মধ্যে নির্ভরতা সম্পর্কে তথ্য প্রয়োজন হবে। এর জন্য আপনার দ্বিবিভক্ত ডেটা লাগবে এবং একই সাথে দুটি পথে চলা শক্ত। আপনাকে ডেটা সংগ্রহ করতে সহায়তা করতে আপনি অন্য কাউকে তালিকাভুক্ত করতে পারেন, তবে তার পরে চালকদের মধ্যে পরিবর্তনের জন্য অ্যাকাউন্টিং করতে হবে। এ এবং বি স্বতন্ত্র ক্ষেত্রে নীচের উত্তরগুলি দুর্দান্ত।

অন্য একটি উপায় রাখুন: যদি আমি সিদ্ধান্ত নিতে চাই যে কোনটি নিয়ে যাওয়া উচিত, কোনও একটি টানেলের মধ্য দিয়ে, কোনওটি একটি ক্ষেত্রের মধ্য দিয়ে, এবং বাতাসের মতো পাগলের মতো প্রবাহিত হয়, আমি ক্ষেত্রটি গড়তে মারাত্মকভাবে খারাপ করলেও আমি খুব ভালভাবে বেছে নিতে পারি।

উত্তর:


12

সমাধান

দুই উপায়ে হোক এবং μ Y এবং তাদের স্ট্যান্ডার্ড ডেভিয়েশন হতে σ এক্স এবং σ Y যথাক্রমে। দুই ভর (মধ্যে সময় পার্থক্য ওয়াই - এক্স ) অতএব গড় হয়েছে μ Y - μ এক্স এবং মানক চ্যুতির μxμyσxσyYXμyμx । মানক পার্থক্য ("জেড স্কোর")σx2+σy2

z=μyμxσx2+σy2.

যদি না এই যাত্রায় আপনারা বার অদ্ভুত ডিস্ট্রিবিউশন আছে, সুযোগ যে যাত্রায় যাত্রায় চেয়ে বেশী সময় লাগে এক্স প্রায় স্বাভাবিক ক্রমবর্ধমান বণ্টনের হয় Φ এ মূল্যায়ন z- রYXΦz

গুনতি

তুমি তোমার ভর এক এই সম্ভাব্যতা কাজ পারবেন না কারণ আপনি ইতিমধ্যে আনুমানিক পরিসংখ্যান আছে ইত্যাদি :-)। এ জন্যে এটা সহজ এর কিছু কী মান মুখস্থ করার Φ : Φ ( 0 ) = .5 = 1 / 2 , Φ ( - 1 ) 0.16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , এবং Φ ( - 3 ) 00 0.0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 । (অনুমানের পরিমাণটি z এর জন্য দুর্বল হতে পারে | 2 এর তুলনায় অনেক বড়, তবে knowing ( - 3 ) জানার ফলে দ্রবীভূত হতে সহায়তা করে)) Φ ( z ) = 1 - Φ ( - z ) এবং কিছুটা দোলনের সাথে মিলিত হয়েআপনি কোনও তাত্পর্যপূর্ণ চিত্রের সম্ভাব্যতাটি দ্রুতই অনুমান করতে পারে, যা সমস্যার প্রকৃতি এবং ডেটা প্রদত্ত যথাযথ পরিমাণের চেয়ে বেশি।Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

উদাহরণ

ধরুন, রুট 6 মিনিটের মানক বিচ্যুতির সাথে 30 মিনিট সময় নেয় এবং রুট ওয়াইটি 8 মিনিটের একটি প্রমিত বিচ্যুতির সাথে 36 মিনিট সময় নেয়। শর্তের বিস্তৃত পরিসীমাটি যথেষ্ট পরিমাণে coveringেকে রাখার সাথে সাথে, আপনার ডেটাগুলির হিস্টোগ্রামগুলি শেষ পর্যন্ত এগুলি প্রায় অনুমান করতে পারে:XY

দুটি হিস্টোগ্রাম

(এগুলি গামা (২৫, ৩০/২৫) এবং গামা (২০, ৩//২০) ভেরিয়েবলের জন্য সম্ভাব্য ঘনত্বের কাজগুলি রয়েছে Ob

তারপর

μx=30,μy=36,σx=6,σy=8.

কোথা হইতে

z=363062+82=0.6.

আমাদের আছে

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0.84.

সুতরাং আমরা অনুমান করি যে উত্তরটি 0.5 থেকে 0.84: 0.5 + 0.6 * (0.84 - 0.5) = প্রায় 0.70 এর মধ্যে 0 (সাধারণ বিতরণের জন্য সঠিক তবে অতিমাত্রায় যথাযথ মানটি 0.73)

প্রায় 70% সম্ভাবনা রয়েছে যে রুটের X এর চেয়ে বেশি সময় লাগবে । আপনার মাথায় এই গণনাটি করা আপনার পরের পাহাড়ের মন কেড়ে নেবে। :-)YX

(দেখানো হিস্টোগ্রামগুলির সঠিক সম্ভাবনা %২%, যদিও এটি সাধারণ নয়: এটি ভ্রমণের সময়কালের পার্থক্যের জন্য সাধারণ আনুমানিকতার সুযোগ এবং কার্যকারিতা চিত্রিত করে))


যদি আপনার প্রতিটি বিতরণ থেকে আইআইডি উপলব্ধি থাকে তবে অনুমানের জন্য মন্টি কার্লো রি-স্যাম্পলিং পদ্ধতির (আমার উত্তর) পরিবর্তে স্বাভাবিক আনুমানিকতা ব্যবহার করে কী লাভ ? P(X>Y)
ম্যাক্রো

@ ম্যাক্রো: যদি আগ্রহের পরিমাণের জন্য ডেটা সংক্ষিপ্ত পরিসংখ্যানগুলিতে হ্রাস করা যায় তবে কেউ কম ডেটা সঞ্চয় করতে পারে ... কেবল একটি চিন্তাভাবনা।
ইট্রেটর

দুঃখিত, আমার মস্তিষ্ক উত্তপ্ত হয়ে পড়েছিল এবং আমি এর সুস্পষ্ট উত্তরটি মিস করেছি। আপনি প্রত্যেকে বিভিন্ন প্রশ্নের উত্তর দিচ্ছেন। আপনি বুটস্ট্র্যাপ পদ্ধতিটি অনুমান দিয়েছেন , যখন @ হুবার মাঝামাঝি সময়ের পার্থক্য বিবেচনা করছে, যা একই নয়। এটা একটা কেস যেখানে বিকল্প গঠন করা খুব কঠিন নয় ওয়াই বিকল্প তুলনায় খাটো এক্স সময় 60%, কিন্তু জন্য গড় ওয়াই জন্য গড় চেয়ে বেশী এক্সP(X>Y)YXYX
ইট্রেটর

এফডাব্লুআইডাব্লু: @ হুইবার স্ট্যান্ডার্ড বিচ্যুতি নিয়ে দুটি নমুনার মধ্যে পার্থক্যের জন্য শিক্ষার্থীদের টি-টেস্টের বর্ণনা দিচ্ছে।
Iterator 23

1
ধন্যবাদ, @ হুবুহু, আমি যে প্রশ্নটি করার চেষ্টা করেছিলাম তার উত্তর এটি :) :)
অ্যান্ড্রু আইলেট

6

আমার সহজাত প্রবণতা সর্বাধিক পরিসংখ্যানগতভাবে পরিশীলিত নাও হতে পারে তবে আপনি এটি আরও মজাদার বলে মনে করতে পারেন :)

আমি গ্রাফ পেপারের একটি শালীন আকারের শীট পেতে এবং কলামগুলি টাইম ব্লকে ভাগ করে নেব। আপনার রাইডগুলি কত দিন নির্ভর করে - আমরা কি 5 মিনিট বা এক ঘন্টার গড় সময়ের কথা বলছি - আপনি বিভিন্ন আকারের ব্লক ব্যবহার করতে পারেন। ধরা যাক প্রতিটি কলাম দুটি মিনিটের ব্লক। রুটের A এর জন্য একটি রঙ এবং বি বি রুটের জন্য আলাদা রঙ চয়ন করুন এবং প্রতিটি যাত্রার পরে উপযুক্ত কলামে একটি বিন্দু তৈরি করুন। যদি ইতিমধ্যে সেই রঙের একটি বিন্দু থাকে তবে এক সারি উপরে চলে যান। অন্য কথায়, এটি পরম সংখ্যায় একটি হিস্টোগ্রাম হবে।

তারপরে, আপনি যে কোনও যাত্রা চালাবেন তা দিয়ে আপনি একটি মজাদার হিস্টোগ্রাম তৈরি করবেন এবং দুটি রুটের মধ্যে পার্থক্যটি দৃশ্যত দেখতে পারবেন।

বাইকের যাত্রী হিসাবে (আমার অনুমানের মাধ্যমে যাচাই করা হয়নি) নিজের অভিজ্ঞতার ভিত্তিতে আমার বোধগম্যতা হল সময়গুলি সাধারণত বিতরণ করা হবে না - তাদের ইতিবাচক স্কিউ বা অন্য কথায় উচ্চ-শেষ সময়ের দীর্ঘ লেজ হবে। আমার সাধারণ সময়টি আমার সংক্ষিপ্ততম সময়ের চেয়ে বেশি দীর্ঘ নয়, তবে এখন থেকে এবং পরে আমি সমস্ত লাল বাতিগুলিকে আঘাত করব বলে মনে হয় এবং এর উচ্চতর প্রান্তটি রয়েছে। আপনার অভিজ্ঞতা ভিন্ন হতে পারে। সে কারণেই আমি মনে করি হিস্টগ্রামের পদ্ধতির আরও ভাল হতে পারে, তাই আপনি নিজেই বিতরণের আকারটি পর্যবেক্ষণ করতে পারেন।

পিএস: আমার কাছে এই ফোরামে মন্তব্য করার মতো যথেষ্ট প্রতিনিধি নেই, তবে আমি whuber এর উত্তর পছন্দ করি! তিনি স্যাঙ্কনেস সম্পর্কে আমার উদ্বেগকে নমুনা বিশ্লেষণের মাধ্যমে কার্যকরভাবে সমাধান করেছেন। এবং আপনার মনটি পরবর্তী পাহাড় থেকে দূরে রাখতে আপনার মাথায় গণনা করার ধারণাটি আমি পছন্দ করি :)


1
সৃজনশীলতার জন্য +1। প্রকৃতপক্ষে, আপনার ধারণা ব্যবহারিক ইউটিলিটির দিকে চলছে। সাইকেল বিভাগগুলির ট্র্যাক করার জন্য বাইক ট্র্যাকিং সাইটগুলির মধ্যে একটি (আমি এখন কোনটি ভুলে গিয়েছি, তবে যুক্ত করুন, যদি আপনি যোগ করেন) ব্যবহার করা কিছুটা আকর্ষণীয় হবে। যদি ওপি সিভি বা স্ট্যাকওভারফ্লোতে বিভাগের সময় পরিকল্পনা করার বিষয়ে একটি প্রশ্ন নিয়ে ফিরে আসে এবং এর সাথে ঘনত্ব যুক্ত হয়, তবে এটি একটি চমত্কার পরিসংখ্যান অনুশীলন হবে - জিআইএস, পরিসংখ্যানগত দৃশ্যায়ন এবং ঘনত্বের ক্রিয়া, ওহে আমার! :)
Iterator

1
বাইকিং বিভাগগুলিকে ট্র্যাক করতে আমি আমার ফোনে গুগল মাই ট্র্যাক ব্যবহার করেছি। আমি দেখতে পেয়েছি যে ফোনটি এটির জন্য দুর্দান্ত নয় কারণ এটি কোনও ডিভাইসটির জন্য এটি পাওয়ার জন্য উপযুক্ত নয় optim গারমিন (এবং অন্যরা) জিপিএস ডিভাইসগুলি রুটগুলিতে ব্যয় করা সময় ট্র্যাক করতে এবং একটি অনলাইন ইন্টারফেসে ঝরঝরে চার্ট সরবরাহ করার জন্য রানার এবং বাইকারদের লক্ষ্য করে লক্ষ্যযুক্ত করে তোলে। আমি নিজে ডেডিকেটেড জিপিএস ডিভাইস ব্যবহার করি না, তবে আমার কিছু বন্ধু ফেসবুকে রুটগুলি ভাগ করে নেওয়ার জন্য সেগুলি ব্যবহার করে।
জোনাথন

1
গারমিন ডিভাইস কী উত্পাদন করে তার একটি উদাহরণ এখানে । চার্টগুলির সাথে সমস্যাটি হ'ল তারা ইতিমধ্যে প্রচুর প্রাক-প্রক্রিয়াজাতকরণ, স্মুথিং ইত্যাদি Also এছাড়াও উদাহরণস্বরূপ আর-তে ডেটা আমদানির কোনও সুবিধাজনক উপায় নেই। তবে ডেডিকেটেড ডিভাইস হিসাবে এটি দুর্দান্তভাবে তার কাজ করে, আমি এগুলি চালনা বা বাইক চালানোর কথা ভাবতে পারি না।
এমপিটিকাস

+1 নোট করুন যে লাল বাতিগুলি আঘাত করার ফলে খুব বেশি স্কিউ আসে না (যদি না তাদের সময়সীমা না থাকে): সম্মিলিতভাবে, তারা সাধারণত সময় বিতরণে কিছু গাউসিয়ান শব্দের যোগ করে। (এর ভিন্নতা গণনা করা আপনি পরবর্তী পাহাড়ে করতে পারেন এমন একটি মানসিক অনুশীলন)) অনুশীলনে স্কিউটি অশ্ব-গৌসীয় পার্থক্য থেকে আসে যা পুরো যাত্রাকে নিয়ন্ত্রণ করে: গুরুত্বপূর্ণ আবহাওয়া, আপনি কেমন অনুভব করছেন, কার সাথে আপনি ' পুনরায় অশ্বচালনা, এবং অনিয়মিত দুর্ঘটনা / বাঁক / ট্রাফিক জ্যাম ইত্যাদি
whuber

এখন যেহেতু আমি এটি সম্পর্কে আরও কিছু চিন্তা করি, আরেকটি গুরুত্বপূর্ণ বিষয়টি হ'ল সময়ের সময়। ট্র্যাফিক লাইটগুলি ট্রাফিকের শীর্ষ সময়ে খুব আলাদাভাবে কাজ করে - উচ্চ ট্র্যাফিক রাস্তার জন্য লম্বা লম্বা শাক। অফ-পিক সময়ে, লাইটগুলি দ্রুত চক্রের দিকে ঝুঁকতে থাকে, উচ্চ ট্র্যাফিক রাস্তার জন্য সবুজ হিসাবে ডিফল্ট হয়ে যায়, তবে আমি ক্রসিং বোতামটি চাপলে বা কোনও গাড়ি সেন্সরকে সক্রিয় করে দ্রুত পরিবর্তন হয়।
জোনাথন

5

XYx,yx>yP(Xi>Yj)i,j

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)

এটি একটি ভাল উত্তর, কিন্তু আপনি সরানোর দ্বারা এটি প্রক্রিয়া সহজ পারে forলুপ: দিন x1 = sample(X, 10000, replace = TRUE)এবং y1 = sample(Y, 10000, replace = TRUE)এবং তারপর নিরূপণ mean(x1 > y1)সহ mean(x1 == y1)- # সময়ের মান সমান একটা ধারনা পেতে।
Iterator

ধন্যবাদ। আমি জানতাম লুপটি অপ্রয়োজনীয় তবে আমি চেয়েছিলাম যে পদ্ধতির অন্তর্নিহিত যুক্তিটি প্রচুর পরিমাণে পরিষ্কার হোক। আপনার কোড অবশ্যই একই ফলাফল উত্পাদন করবে।
ম্যাক্রো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.