বাক্স-ও-হুইস্কার প্লটগুলি পড়া: গ্রুপগুলির মধ্যে উল্লেখযোগ্য পার্থক্য সংগ্রহ করা সম্ভব?


11

মনে করুন আমরা এই বাক্স এবং হুইস্কার প্লটটি দেখছি:

পটভূমি

বৃহস্পতিবার থেকে শুক্রবারের মধ্যে, আমি মনে করি বেশিরভাগ রাজি হবেন সময় ঘুমানোর ক্ষেত্রে একটি উল্লেখযোগ্য পার্থক্য রয়েছে। যদিও এটি একটি পরিসংখ্যানগতভাবে-বৈধ অনুমান, তবে? বৃহস্পতিবার থেকে শুক্রবারের মধ্যে অন্তর্-চৌম্বকীয় রেঞ্জগুলির কোনওটিই ওভারল্যাপ না হওয়ার কারণে আমরা কী তাত্পর্যপূর্ণ পার্থক্য বুঝতে পারি? বৃহস্পতিবার এবং শুক্রবারের উপরের এবং নীচের হুইস্কারগুলি যথাক্রমে ওভারল্যাপ হওয়ার বিষয়টি কী? এটি কি আমাদের বিশ্লেষণকে প্রভাবিত করে?

সাধারণত এর মতো একটি চার্টের সাথে আনোভা এক ধরণের হবে তবে আমি কেবল কৌতূহল বোধ করি আমরা কেবল একটি বক্সপ্লট দেখে গ্রুপগুলির মধ্যে পার্থক্য সম্পর্কে কতটা বলতে পারি ।


চেনাশোনাগুলি outliers প্রতিনিধিত্ব করে।
মাইকেল আর চেরনিক

3
যতক্ষণ প্লট নমুনা আকারের কোনও ইঙ্গিত মিস করে না, ততক্ষণ এটি কঠিন। তবে আপনি যদি মিডিয়ানদের জন্য প্লটের আত্মবিশ্বাসের অন্তরগুলির সাথে অন্তর্ভুক্ত করেন তবে আপনি এই আত্মবিশ্বাসের অন্তরগুলির সাথে তুলনা করতে থাকবেন। তারা আপনার চক্রান্তে উপস্থিত বলে মনে হচ্ছে না।
কেজেটিল বি হালওয়ারসেন 14

@kjetilbhalvorsen এই Google থেকে মাত্র একটি চক্রান্ত আমি দখল :) ... আমি অন্তর্ভুক্ত করেছি, আমার নিজের চক্রান্ত উপর, তুমি আসলে কি বর্ণনা করেছি, একটি Tukey এর HSD পরীক্ষা অংশ হিসাবে
blacksite

2
সিআই ছাড়া আপনি "উল্লেখযোগ্য" পার্থক্য সম্পর্কে কথা বলতে পারবেন না can't তবে আমি বলব বৃহস্পতিবার থেকে শুক্রবারের মধ্যে একটি "উল্লেখযোগ্য" পার্থক্য রয়েছে। অথবা বৃহস্পতিবার থেকে শুক্রবারের মধ্যে "সবচেয়ে উল্লেখযোগ্য" পার্থক্যটিও দেখা যায় ..
আশে

1
চেনাশোনাগুলি কাছাকাছি কোয়ার্টাইল থেকে 1.5 আইকিউআরের বেশি পয়েন্ট are তারা দ্ব্যর্থহীন এবং উদ্দেশ্যমূলকভাবে বিদেশী নয়। বৃহস্পতিবারের জন্য এটি অন্যান্য বিতরণের তুলনায় অসাধারণ বলে মনে হচ্ছে না। শুক্রবারের জন্য এটি সত্যিই করে; এবং একজন গবেষক বা বিশ্লেষককে যথাসম্ভব এটি পরীক্ষা করে দেখতে হবে এবং ব্যাখ্যা করার মতো কোনও গল্প আছে কিনা তা দেখতে হবে। সত্যিই কারও ঘুম হয়নি! এইভাবে ডেটা পয়েন্টগুলিতে পতাকাঙ্কিত করা তাদের তদন্ত এবং চিন্তার জন্য পতাকাঙ্কিত করে। এটি রাক্ষসকে নির্মূল করার শনাক্ত করার কোনও পরিসংখ্যান পদ্ধতি নয়।
নিক কক্স

উত্তর:


4

না, আপনি পারবেন না। যদি আপনার কাছে নমুনার আকার এবং প্রচুর অভিজ্ঞতা থাকে তবে আপনি অনুমান করতে সক্ষম হতে পারেন - এবং আপনার অনুমানের নির্ভুলতা নমুনার আকারের (প্রভাবের আকারের সাথে) উপর নির্ভর করবে। যদি প্রতি গ্রুপে এন = 1,000,000 হয়, প্রচুর তাৎপর্য। যদি গ্রুপ প্রতি এন = 10, এত বেশি না। প্রতি গ্রুপে 100 এ অনুমান করা শক্ত।

আমি তর্ক করব যে এটি একটি ভাল জিনিস। একটি বক্স প্লটের সাথে করা জিনিসটি পরিসংখ্যানগত তাত্পর্য অনুমান করার চেষ্টা করা নয় যা ঘটছে তা দেখার জন্য এবং এটি সম্পর্কে যুক্তি দেখানোর চেষ্টা করা। হুম। সাপ্তাহিক ছুটিতে বেশি ঘুমানো। এটি আকর্ষণীয় তবে আশ্চর্যজনক নয়। আমরা উইকএন্ডের ভার্সন হিসাবে কয়েক ঘন্টা ঘুমের মডেল করতে পারি। অথবা আমরা এই প্যাটার্নটি পৃথক কিনা তা দেখার চেষ্টা করতে পারি। অবসরপ্রাপ্তদের কি এই প্যাটার্নটি নেই? শিফট শ্রমিকদের কী হবে? উইকএন্ডে যারা কাজ করেন? যারা সপ্তাহে 7 দিন কাজ করেন?

গ্রেড স্কুলে আমার প্রিয় অধ্যাপক হিসাবে (হারমান ফ্রাইডম্যান) বলতেন: "গবেষণায় পি-ইনগিং বন্ধ করুন!"


1
আমি মনে করি এই উত্তরটি অহেতুক হতাশাব্যঞ্জক। বক্সপ্লটগুলিতে গ্রুপের আকারগুলি সম্পর্কে কিছু তথ্য থাকে কারণ সত্যই ছোট গ্রুপের আকারগুলি ( ) বৈশিষ্ট্যযুক্ত "অবনমিত" কাঠামো রয়েছে। যেহেতু এই বিতরণগুলি খুব স্কিউড নয় এবং অল্প সংখ্যক বিদেশী রয়েছে, তাই আইকিউআর (উপযুক্ত একাধিক বার) এসডির জন্য একটি ভাল সারোগেট, যেখানে আমরা স্ট্যান্ডার্ড ত্রুটিগুলি উপরের দিকে আবদ্ধ করতে পারি। সুতরাং, কেউ এককভাবে চক্রান্ত থেকে রক্ষণশীল রুক্ষ এবং প্রস্তুত আনোভা করতে পারে: এবং এটি সামগ্রিক আনোভা উল্লেখযোগ্য show কেউ রক্ষণশীল পোস্ট-হক পরীক্ষাও করতে পারেন। N<5
whuber

8

হ্যা, তুমি পারো. কমপক্ষে আনুমানিক অর্থে।

আমি কিছু সাবধানতা এবং সীমাবদ্ধতার সাথে নীচে কীভাবে নীচে (এবং প্রকৃতপক্ষে "বক্স-ওভারল্যাপ" এর সাথে আপনার সম্পর্ক হিসাবে একটি সম্পর্ক আছে) এর বাহ্যরেখাটি রূপরেখা দিচ্ছি। তবে প্রথমে কিছু পটভূমি এবং প্রসঙ্গে কয়েকটি প্রাথমিক বিষয় আলোচনা করা যাক। (আমি মনে করি যে এখানে একটি উপযুক্ত উত্তরের উদাহরণের বিবরণে মনোনিবেশ করা উচিত - যদিও এটি সম্ভবত কিছুটা আলাদাভাবে উল্লেখ করা যোগ্য - তবে স্পষ্টত পার্থক্য সহজেই এলোমেলো প্রকরণ হিসাবে ব্যাখ্যা করা যায় কি না তা মূল্যায়নের জন্য বক্সপ্লট ব্যবহারের কেন্দ্রীয় ইস্যুতে) ।)

আপনার যদি ডেটাতে অ্যাক্সেস থাকে তবে আপনি এই ধরণের ভিজ্যুয়াল তুলনার জন্য নকশাকৃত বক্সপ্লট আঁকতে পারেন ।

আর-তে খালি বক্সপ্লটগুলি দেখানো চিত্র

এখানে খাঁজ করা বক্সপ্লট গণনার একটি আলোচনা আছে । যদি খাঁজ-ব্যবধানগুলি দুটি গ্রুপের সাথে তুলনা করা হয় না তবে তারা প্রায় 5% স্তরে পৃথক হয়; গণনাগুলি সাধারণভাবে গণনার উপর ভিত্তি করে তৈরি করা হয় তবে তারা বেশ শক্তিশালী এবং বিতরণের একটি পরিসীমা জুড়ে যুক্তিসঙ্গতভাবে ভাল সম্পাদন করে। (এটি যদি একটি আনুষ্ঠানিক পরীক্ষার হিসাবে বিবেচনা করা হয় তবে শক্তিটি সাধারণ পর্যায়ে এত বেশি না তবে বিভিন্ন বা কম-বেশি "সাধারণ" ভারী-লেজযুক্ত মামলার ক্ষেত্রে এটি বেশ ভাল করা উচিত))

বাক্সপ্লটগুলি কীভাবে কাজ করে তা বিবেচনা করে আপনি যখন থাম্বের একটি দ্রুত নিয়মটি প্রশ্নটির মতো একটি ডিসপ্লে পাবেন তখন কাজ করবে তা বুঝতে পারবেন। যখন নমুনার আকার 10 হয় এবং মিডিয়ানটি বাক্সের মাঝখানে কাছে রাখা হয়, একটি খাঁজযুক্ত বক্সস্প্লটের খাঁজগুলি বাক্সের প্রস্থের প্রায় হয়, সুতরাং খাঁজগুলি এবং বাক্সটি প্রায় একই জায়গায় থাকে।

থাম্বের " " বিধি কীভাবে উত্থিত হয় তার আলোচনার জন্য এখানে দেখুন ।n=10

যাইহোক, এই তুলনার জন্য আপনার বাক্সের মাঝখানে মাঝারি প্রয়োজন হবে না; এটি কেবলমাত্র আমরা কীভাবে নিয়মে পৌঁছেছি তা ব্যাখ্যা করে। যদিও আমরা খালি বক্সপ্লটগুলি থেকে শুরু করেছি এবং মাঝারিদের জন্য একটি ব্যবধানের একটি সাধারণ-ভিত্তিক গণনা থেকে শুরু করেছি, আমরা এখন কেবল এ "বাক্স-ওভারল্যাপ" নিয়মটি বিবেচনা করছি এবং একটি নাল যা (আরও কোনও অনুমানের পাশাপাশি) ফলাফল করবে would অবিচ্ছিন্ন ধারাবাহিক বিতরণ বনাম কিছু বিকল্প যা বাক্সগুলিকে পৃথক করে তোলে (প্রয়োজনীয় বিশুদ্ধ অবস্থান শিফট নয়, যদিও এটি ব্যাখ্যা করার সবচেয়ে সহজ বিকল্প)।n=10

কোয়ার্টাইলগুলির সম্ভাব্য আপেক্ষিক অর্ডারের সম্ভাব্যতা (এক বক্সপ্লোটে টুগির সংজ্ঞা ধরে যেগুলি আটকে থাকে) যেখানে একক পর্যবেক্ষণে সেগুলি ঘটে সেগুলি শূন্যের নীচে বিতরণ আকারের উপর নির্ভর করে না। সেক্ষেত্রে (যেমন প্রতিটি নমুনায় এ) পরীক্ষার পরীক্ষার এই সংস্করণটি বিতরণ মুক্ত । এ এটা বন্টন বিনামূল্যে নয় (যেহেতু সংলগ্ন অর্ডার পরিসংখ্যান গড় বিতরণের এখন বন্টন আকৃতি কহা না) কিন্তু এটা প্রায় বন্টন-বিনামূল্যে।n=9এন = 10n=10

টাইপ আই ত্রুটির হারগুলি নিকটবর্তীn=10 : প্রচলিত ব্যবহৃত বিতরণগুলি (উভয় প্রতিসম এবং স্কিউ, ভারী এবং হালকা লেজযুক্ত) জুড়ে সিমুলেশন দেখায় যে দুটি নমুনা বাক্স-ওভারল্যাপ পরীক্ষার এ প্রায় 2.3% তাত্পর্য স্তর রয়েছে (বিতরণে সত্যিই তেমন কোনও প্রকরণ নেই) এবং এটি এ প্রায় 5.6% পরীক্ষা (এটি 5% এর নীচে ফিরে আসে , সম্ভবত অর্ডার পরিসংখ্যানের গড়ের কারণে ভেরিয়েন্সকে আরও কমিয়ে দেয় পর্যবেক্ষণের ক্ষতি এটি বৃদ্ধি করে)। যদি আপনার 9 এবং 10 এর নমুনা থাকে তবে তাৎপর্য স্তরটি 5% এর নীচে।n=10,10n=9,9n=8,8

অন্যান্য নমুনার আকার : আপনি যদি নমুনার আকারগুলি জানেন তবে আপনি সনাক্ত করতে পারেন যে প্রদর্শনগুলি খালি খালি কোথায় যায়। যদি আপনার নমুনা আকারগুলিতে নিম্ন সীমা থাকে তবে আপনি খাঁজ-লোকেশনগুলিতে একটি উপরের বাউন্ড পেতে পারেন। তবে আপনার জানা সমস্ত কিছু হ'ল কমপক্ষে 10 হ'ল আপনি দ্রুত বক্স-ওভারল্যাপের জন্য পরীক্ষা করতে পারেন। খাঁজ-অন্তরগুলির প্রস্থটি সমানুপাতিক যাতে আপনি কাজ করতে পারেন যে , খাঁজটি মধ্যম থেকে প্রতিটি চৌম্বকটির প্রায় অর্ধেক পথ হওয়া উচিত।nnn=40

আপনার প্লটটি দেখুন:

নোট করুন যে আমরা প্রশ্নের মধ্যে প্লটের উপস্থিতি থেকে বলতে পারি যে নমুনার আকারগুলি কমপক্ষে 5 হতে হবে; যদি তারা 5-এরও কম হয় তবে পৃথক-নমুনা বক্সপ্লটগুলির স্বতন্ত্র ক্লুগুলি থাকতে পারে যে তারা নিম্ন নমুনা আকারের (যেমন মিডিয়ানরা প্রতিটি বাক্সের মৃত কেন্দ্র, বা যখন কোনও বাহক ছিল তখন হুইস্কারের দৈর্ঘ্য 0) from

বিকল্পভাবে যদি বাক্সগুলি (কোয়ার্টাইলগুলি চিহ্নিত করে) একে অপরকে ওভারল্যাপ না করে এবং নমুনার আকার কমপক্ষে 10 হয়, তবে দুটি গ্রুপের সাথে তুলনা করা হচ্ছে 5% স্তরে (একটি একক যুগের তুলনা হিসাবে বিবেচিত) আলাদা মিডিয়ান থাকতে হবে।

আপনি জানা না থাকলে , 'গুলি যেহেতু আমরা জানি যে নমুনা মাপ অন্তত 5 হওয়া উচিত, আপনি শুধু অন্তর একটু বাক্সে চেয়ে বড় করা, বিশেষভাবে, যদি আপনি 40% সম্পর্কে প্রতিটি বক্স প্রসারিত প্রয়োজন মিডিয়ান থেকে দূরত্ব এবং তারা এখনও ওভারল্যাপ করে না তারা জন্য একটি উল্লেখযোগ্য পার্থক্য নির্দেশ করতে চাইবে - এখানে কেবল বাক্সের তুলনা করার জন্য আমরা যে বিস্তৃত ভিত্তিটি বিবেচনা করতে পারি তার চেয়ে নচ-বক্সপ্লট যুক্তি থেকে একটি যুক্তিতে ফিরে আসছি।nn=5

[দ্রষ্টব্য, এটি তুলনা সংখ্যার কোনও হিসাব গ্রহণ করে না, সুতরাং আপনি যদি একাধিক তুলনা করেন তবে আপনার সামগ্রিক ধরণের I ত্রুটি আরও বড় হবে। এটি আনুষ্ঠানিক পরীক্ষার চেয়ে ভিজ্যুয়াল পরিদর্শন করার জন্য; তবুও জড়িত ধারণাগুলি একাধিক তুলনার জন্য সামঞ্জস্য সহ আরও আনুষ্ঠানিক পদ্ধতির সাথে মানিয়ে নেওয়া যেতে পারে]]

আপনি পারেন কিনা তা সম্বোধন করার পরে , আপনার উচিত কিনা তা বিবেচনা করা যুক্তিসঙ্গত হবে । সম্ভবত না; সম্ভাব্য পি-হ্যাকিংয়ের বিষয়টি বাস্তব, তবে আপনি যদি গবেষণার বিষয়ে নতুন ডেটা সংগ্রহ করার চেষ্টা করছেন এবং আপনার সমস্ত কিছু একটি কাগজে বক্সপ্লট কিনা তা নির্ধারণের জন্য যদি আপনি এটি ব্যবহার করছেন - বলুন - এটি হতে পারে গোলমালের কারণে প্রকরণের দ্বারা সহজেই ব্যাখ্যা করা যায় তার চেয়ে আরও বেশি কিছু আছে কিনা সে সম্পর্কে কিছুটা মূল্যায়ন করতে সক্ষম হতে যথেষ্ট দরকারী। তবে সেই সমস্যাটিকে গভীরতার সাথে বিবেচনা করা সত্যই একটি ভিন্ন প্রশ্নের উত্তর দেবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.