একটি বক্সপ্লটের হুইস্কারগুলি বোঝা


9

বক্সপ্লটের হুইস্কারগুলির ব্যাখ্যা সম্পর্কে আমার একটি প্রশ্ন আছে। আমি নিম্নলিখিতটি পড়েছি: "আয়তক্ষেত্রের উপরে এবং নীচে," ফিসফিসারগুলি "0.25- এবং 0.75-কোয়ান্টাইলের মধ্যে 1.5 গুন দূরত্বের পরিসীমা দেখায়, তবে" দূরত্ব "বলতে কী বোঝায় তা পুরোপুরি বুঝতে পারি না ।

এটি হতে পারে না যে সম্ভাবনা ভর বোঝানো হয়, যেহেতু 0.25 এবং 0.75 কোয়ান্টাইলের মধ্যে আমাদের কাছে অবশ্যই সবসময় ডেটার সমান শতাংশ থাকে। তাহলে কি ধারণা?

উত্তর:


6

এক্স এর মান যে 75 কোয়ান্টাইল বিয়োগের সাথে মিলিত হবে 25 এর সাথে X এর মান হ'ল দূরত্ব। উদাহরণস্বরূপ, স্যাট গণিত পরীক্ষার জন্য, 620 75 তম এবং 520 25 তম কোয়ান্টাইল। সুতরাং আপনি যদি 620 এর উপরে স্কোর করেন তবে আপনি পরীক্ষার্থীদের 75% এর চেয়ে ভাল করেছেন done হুইস্কারগুলি 1.5 * (620-520) পয়েন্ট দীর্ঘ পর্যন্ত প্রসারিত হবে


ঠিক আছে তবে তবে হুইস্কারগুলি বাক্সের উভয় পাশের সমান দৈর্ঘ্যের হবে (যা ক্ষেত্রে প্রয়োজন হয় না)।
অতিথি 555

8
+1, এর (কিছুটা আরও) সম্পূর্ণ উত্তর হ'ল হুইস্কারগুলি 1.5 * আইকিউআর অবধি থাকে, যদি সেই ব্যবধানের মধ্যে আপনার আরও কোনও ডেটা না থাকে তবে হুইস্কারটি ছোট হয়ে যায়। তদ্ব্যতীত, এই বিন্দুটির বাইরে কোনও অতিরিক্ত ডেটা পৃথকভাবে সম্ভাব্য আউটলিয়ার হিসাবে প্লট করা হয়।
গুং - মনিকা পুনরায়

এই অতিরিক্ত অতিরিক্ত ব্যাখ্যার সাথে এটি এখন স্পষ্ট, অনেক অনেক ধন্যবাদ!
অতিথি 555

আমি @ gung এর দুর্দান্ত পয়েন্ট দিয়ে উত্তরটি সম্পাদনা করেছি।
দিমিত্রি ভি। মাস্টারভ

5
@ গুং এবং আরও সম্পূর্ণ উত্তর হ'ল হুইস্কাররা সর্বদা ডেটাগুলির একটি বিদ্যমান পয়েন্টে থাকে
হ্যাডলি

4

একটি বক্সপ্লট এমন একটি উপাত্তের তুলনামূলকভাবে ছোট সেটটির সংক্ষিপ্তসার করার উদ্দেশ্যে তৈরি যা স্পষ্টভাবে দেখায়

  • একটি কেন্দ্রীয় মান।

  • "সাধারণ" মানগুলির বিস্তার।

  • পৃথক মানগুলি যা স্প্রেডের সাথে তুলনামূলকভাবে কেন্দ্রীয় মান থেকে এত বেশি প্রস্থান করে যে এগুলি বিশেষ মনোযোগের জন্য আলাদাভাবে আলাদা করা হয় এবং আলাদাভাবে চিহ্নিত করা হয় (উদাহরণস্বরূপ, নাম অনুসারে)। এগুলিকে "চিহ্নিত মান" বলা হয়।

এই মধ্যে সম্পন্ন করা হয় শক্তসমর্থ উপায়: তার মানে boxplot appreciably ভিন্ন নয় হওয়া উচিত যখন কেউ, অথবা একটি অপেক্ষাকৃত ছোট অংশ, ডাটা মূল্যবোধের ইচ্ছামত পরিবর্তিত হয়।

এর উদ্ভাবক জন টুকি দ্বারা গৃহীত সমাধানটি হ'ল অর্ডার পরিসংখ্যান - সর্বনিম্ন থেকে সর্বোচ্চ পর্যন্ত সাজানো ডেটা - পদ্ধতিগত উপায়ে data সরলতার জন্য (তিনি মানসিকভাবে বা পেন্সিল এবং কাগজ দিয়ে গণনা করেছিলেন) টুকি মেডিয়ানদের উপর দৃষ্টি নিবদ্ধ করেছিলেন : সংখ্যার ব্যাচের মাঝারি মানের values (এমনকি গণনা সহ ব্যাচগুলির জন্য, টুকি দুটি মাঝারি মানেরগুলির মধ্যবিন্দু ব্যবহার করেছে।) একজন মধ্যমা এটির ভিত্তিতে অর্ধেকের ডেটা পরিবর্তনের জন্য প্রতিরোধী, এটি একটি শক্তিশালী পরিসংখ্যান হিসাবে দুর্দান্ত করে তুলেছে। এভাবে:

  • কেন্দ্রীয় মান সমস্ত ডেটা মধ্যমা দিয়ে অনুমান করা হয়।

  • বিস্তার "নীচে অর্ধেক" এবং - - সমস্ত ডেটা অথবা মধ্যমা উপরে সমান - "উপরের অর্ধেক" এর মধ্যমা মধ্যে পার্থক্য সঙ্গে অনুমান করা হয় সমস্ত ডেটা অথবা মধ্যমা কম সমান। এই দুটি মিডিয়ানকে উপরের এবং নীচের "কব্জাগুলি" বা "চতুর্থাংশ" বলা হয়। তারা আজকাল কোয়ার্টাইলস (যার কোনও সার্বজনীন সংজ্ঞা নেই, হায়) নামে জিনিস দ্বারা প্রতিস্থাপন করা হয় tend

  • স্ক্রিনিং আউটলিয়ারদের জন্য অদৃশ্য বেড়া 1.5% এবং 3 বার কব্জাগুলির বাইরে ছড়িয়ে পড়ে (কেন্দ্রীয় মান থেকে দূরে) are

    • "প্রতিটি প্রান্তের মান নিকটতম, তবে এখনও ভিতরে, অভ্যন্তরীণ বেড়াটি 'সংলগ্ন'।
    • প্রথম বেড়ার বাইরে মানগুলিকে "আউটলিয়ার" বলা হয়।
    • দ্বিতীয় বেড়ার বাইরে মানগুলি "বহুদূর"।

( '60 এর দশকের হিপ্পি আরগোটটি মনে রাখার মতো যথেষ্ট বয়স্করা এই রসিকতাটি বুঝতে পারবে))

যেহেতু স্প্রেড ডেটা মানগুলির একটি পার্থক্য, এই বেড়াগুলির মূল ডেটার মতো পরিমাপের একই ইউনিট রয়েছে: এটিই প্রশ্নের "দূরত্ব" বোধ।

সনাক্ত করার জন্য ডেটা মানগুলির বিষয়ে, লিখেছেন টুকি

আমরা কমপক্ষে চূড়ান্ত মানগুলি সনাক্ত করতে পারি এবং আরও কয়েকটি সনাক্ত করতে ভাল করতে পারি।

মিডিয়ান, কব্জাগুলি এবং চিহ্নিত মানগুলি প্রদর্শনের জন্য যে কোনও গ্রাফিকাল পদ্ধতিটি যুক্তিযুক্তভাবে "বক্সপ্লট" (মূলত, "বাক্স এবং হুইস্কার প্লট") হিসাবে ডাকা উচিত। বেড়া সাধারণত চিত্রিত হয় না। টুকির নকশায় একটি আয়তক্ষেত্র রয়েছে যা মিডিয়ায় একটি "কোমর" দিয়ে কব্জাগুলির বর্ণনা দেয়। স্ববিরোধী রেখার মতো "হুইস্কারগুলি" কব্জাগুলি থেকে অন্তর্নিহিত চিহ্নিত মানগুলিতে (বাক্সের উপরে এবং নীচে উভয়) বহির্মুখী প্রসারিত করে । সাধারণত এই অন্তর্নিহিত চিহ্নিত মানগুলি উপরে বর্ণিত সংলগ্ন মানগুলি হয়।

ফলস্বরূপ, একটি বক্সপ্লট-এর ডিফল্ট উপস্থিতি হ'ল হুইস্কারগুলিকে সর্বাধিক চরম অ-বহির্মুখী ডেটা মানগুলিতে প্রসারিত করা এবং হুইস্কার এবং সমস্ত আউটলিয়ারের অন্তর্ভুক্ত ডেটা সনাক্তকরণ (পাঠ্য লেবেলের মাধ্যমে) সনাক্ত করা। উদাহরণস্বরূপ, তুপুনাগাতিতো আগ্নেয়গিরি চিত্রের ডানদিকে চিত্রিত আগ্নেয়গিরি উচ্চতার ডেটার জন্য উচ্চ সংলগ্ন মান: হুইস্কারটি সেখানে থামে। টুপুঙ্গাতিটো এবং সমস্ত লম্বা আগ্নেয়গিরির পৃথকভাবে চিহ্নিত করা হয়।

যাতে এটি বিশ্বস্তভাবে ডেটা প্রদর্শিত হবে, গ্রাফিকের মধ্যে দূরত্ব ডেটা মানগুলির মধ্যে পার্থক্যের সমানুপাতিক। (সরাসরি আনুপাতিকতা থেকে যে কোনও প্রস্থান টুফ্টের (1983) পরিভাষায় একটি "লাই ফ্যাক্টর" প্রবর্তন করতে পারে))

ইডিএ থেকে চিত্র

টুকির বই ইডিএ (পৃষ্ঠা 41) এর এই দুটি বক্সপ্লট উপাদানগুলি চিত্রিত করে। এটি লক্ষণীয় যে তিনি বাম দিকে স্টেটস ডেটাসেটের উচ্চ এবং নিম্ন প্রান্তে এবং বহির্মুখী মানগুলি ডানদিকে ভলকানো হাইটের একটি নিম্ন বহির্মুখী মান সনাক্ত করেছেন। এটি নিয়ম এবং বিচারের আন্তঃব্যক্তিকে উদাহরণ দেয় যে বইটি ছড়িয়ে পড়ে।

(আপনি এই সনাক্ত করা ডেটাগুলি বহিরাগত বলে দিতে পারেন, কারণ আপনি বেড়াগুলির অবস্থানগুলি অনুমান করতে পারেন instance উদাহরণস্বরূপ, রাজ্যের উচ্চতাগুলির কব্জাগুলি প্রায় ১১,০০০ এবং ১,০০০ এর কাছাকাছি, ১০,০০০ এর কাছাকাছি একটি স্প্রেড প্রদান করে। 1.5 এবং 3 দ্বারা গুণ করলে দূরত্ব দেয় ১৫,০০০ এবং ৩০,০০০ এর মধ্যে। সুতরাং, অদৃশ্য উপরের বেড়াটি অবশ্যই ১১,০০০ + ১৫,০০০ = ২ --,০০০ এর কাছাকাছি হতে হবে এবং নীচের বেড়াটি ১,০০০-১,000,০০০ এর কাছাকাছি হবে শূন্যের নীচে।দুর বেড়াগুলি হবে ১১,০০০ + ৩০,০০০ = ৪১,০০০ এবং ১,০০০ - 30,000 = -29.000।)


তথ্যসূত্র

টুফতে, এডওয়ার্ড পরিমাণগত তথ্যের ভিজ্যুয়াল প্রদর্শন। চ্যাশায়ার প্রেস, 1983।

টুকি, জন অধ্যায় 2, ইডিএ অ্যাডিসন-ওয়েসলি, 1977।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.