একাধিক "মিডিয়ান" সূত্র আছে কি?


16

আমার কাজকালে, যখন ব্যক্তিরা কোনও ডেটা সেটের "গড়" মান বোঝায়, তারা সাধারণত পাটিগণিত গড়কে বোঝায় (অর্থাত "গড়", বা "প্রত্যাশিত মান")। যদি আমি জ্যামিতিক গড় সরবরাহ করি তবে লোকেরা সম্ভবত মনে করবে যে আমি ফাঁদহীন বা অ-সহায়ক, কারণ "গড়" এর সংজ্ঞাটি আগে থেকেই জানা গেছে।

আমি একটি ডেটা সেট "মিডিয়ান" এর একাধিক সংজ্ঞা আছে কিনা তা নির্ধারণ করার চেষ্টা করছি। উদাহরণস্বরূপ, এমনকি কোনও সংখ্যক উপাদান সহ একটি সেট সেট ডেটার মিডিয়ান সন্ধানের জন্য কোনও সহকর্মীর দ্বারা প্রদত্ত সংজ্ঞাগুলির মধ্যে একটি হ'ল:

অ্যালগরিদম 'এ'

  • দুটি করে উপাদানগুলির সংখ্যা দুটি ভাগ করে নিন round
  • সেই মানটি হ'ল মাঝারিটির সূচক।
  • উদাহরণস্বরূপ, নিম্নলিখিত সেট জন্য, মিডিয়ান হবে 5
  • [4, 5, 6, 7]

এটি বোধগম্য বলে মনে হচ্ছে, যদিও বৃত্তাকার-ডাউন দিকটি কিছুটা নির্বিচারে মনে হচ্ছে।

অ্যালগরিদম 'বি'

যাই হোক না কেন, অন্য সহকর্মী একটি পৃথক অ্যালগরিদম প্রস্তাব করেছেন, যা তাঁর (নাম এবং লেখকের নাম প্রয়োজন) এর একটি স্ট্যাটাস পাঠ্যপুস্তকে ছিল:

  • উপাদানগুলির সংখ্যা 2 দ্বারা ভাগ করুন, এবং বৃত্তাকার আপ এবং বৃত্তাকার-ডাউন পূর্ণসংখ্যাগুলির একটি অনুলিপি রাখুন। তাদের নাম দিন n_loএবং n_hi
  • উপাদানগুলিতে গাণিতিক গড় নিন n_loএবং n_hi
  • উদাহরণস্বরূপ, নিম্নলিখিত সেট জন্য, মিডিয়ান হবে (5+6)/2 = 5.5
  • [4, 5, 6, 7]

যদিও এটি ভুল হিসাবে মনে হয়, মিডিয়ান মান হিসাবে, এক্ষেত্রে 5.5আসলে মূল ডেটা সেটে নেই। যখন আমরা কিছু পরীক্ষার কোডে 'বি' এর জন্য অ্যালগরিদম 'এ' সরিয়ে আনি, তখন এটি ভয়াবহভাবে ভেঙে যায় (যেমনটি আমরা প্রত্যাশা করেছিলাম)।

প্রশ্ন

কোনও ডেটা সেটের মাধ্যম গণনা করার জন্য এই দুটি পদ্ধতির কোনও আনুষ্ঠানিক "নাম" আছে? অর্থাত্ "মিড-অফ-দ্য মিডিয়ান" বনাম "গড়-মিডল-এলিমেন্টস-এবং-মেক-নতুন-ডেটা মিডিয়ান"?


16
আমি কোনও মিডিয়ান হিসাবে বিবেচিত অ্যালগরিদম "এ" দেখিনি। এটি কোনও সমস্যা হওয়া উচিত নয় যে তথ্যগুলির কেন্দ্রীয় প্রবণতার বর্ণনামূলক পরিসংখ্যানগুলি ডেটাগুলির মধ্যে না থাকে: সর্বোপরি, বেশিরভাগ উপায় ডেটাতেও নেই। আমরা মধ্যমাধ্যমের কাছে আরও একটি মৌলিক সম্পত্তি চাই যা হ'ল ডেটার ক্রমটি বিপরীত হলে এটি পরিবর্তিত হয় না, যেহেতু ছোট থেকে বৃহত্তম বা বৃহত্তম থেকে ডেটা অর্ডার করা স্বাদের এক স্বেচ্ছাসেবী বিষয়। এই কারণে বেশিরভাগ লেখক মিডিয়ানকে অ্যালগরিদম "বি" হিসাবে সংজ্ঞায়িত করেন কারণ এটি এখন পর্যন্ত সহজতম অর্ডার-ইনগ্রেন্ট পদ্ধতি।
whuber

3
@ ভুবার অ্যালগরিদম 'এ' কে কখনও কখনও লো-মিডিয়ান বলা হয় । অবশ্যই একটি উচ্চ মাধ্যমিক অবশ্যই আছে। সাধারণত মিডিয়ান দুটি এর গড় হয় (যা মিডিয়ানটি গণনা করা সেট থেকে এক উপাদান হতে পারে বা নাও হতে পারে)।
ব্যবহারকারী 60

8
1, 2, 3, 4, 5, 6 তে 3 এবং 4 এর মতো - এমন একাধিক পর্যবেক্ষণের সাথে অর্ডার করা নমুনায় দুটি কেন্দ্রীয় মানকে এই মন্তব্যের পুনরাবৃত্তি করার জন্য একটি ভাল সময় এবং জায়গা come (এসএম স্টিগলার, আর। কোয়েঙ্কার, এবং অন্যরা কোনও সন্দেহ নেই independent
নিক কক্স

3
উভয় অ্যালগরিদম ডেটা বাছাইয়ের গুরুত্বপূর্ণ পদক্ষেপটি হারিয়েছে না?
এমিল

3
ডেটা সেটের উপাদান হতে সর্বদা আপনার যদি আপনার "মিডিয়ান" প্রয়োজন হয় তবে আপনি সম্ভবত একটি মিডোডির সন্ধান করছেন
ইলমারি করোনেন

উত্তর:


23

টিএল; ডিআর - নমুনা মিডিয়ানদের বিভিন্ন অনুমানকারীকে নির্দিষ্ট নাম দেওয়া হচ্ছে সে সম্পর্কে আমি অবগত নই। কিছু তথ্য থেকে নমুনা পরিসংখ্যান অনুমান করার পদ্ধতিগুলি বরং উদ্ভট এবং বিভিন্ন সংস্থানগুলি বিভিন্ন সংজ্ঞা দেয়।

হগ, ম্যাককিন এবং ক্রেগের গাণিতিক পরিসংখ্যানের পরিচিতিতে লেখকরা এলোমেলো নমুনার মধ্যম সংখ্যার সংজ্ঞা প্রদান করে তবে কেবলমাত্র সেখানে বিজোড় সংখ্যার নমুনা রয়েছে! লেখকরা লিখেন

nY(n+1)/2

Yii

n

অ্যালগরিদম বিতে এমন সম্পত্তি রয়েছে যা অর্ধেক ডেটা মানের উপরে চলে যায় এবং অর্ধেক ডেটা মানের নীচে পড়ে below এলোমেলো ভেরিয়েবলের মধ্যম সংজ্ঞাটির আলোকে , এটি দুর্দান্ত বলে মনে হচ্ছে।


কোনও নির্দিষ্ট অনুমানকারী ইউনিট পরীক্ষাগুলি ভাঙবে কিনা তা ইউনিট পরীক্ষার সম্পত্তি - নির্দিষ্ট অনুমানের বিরুদ্ধে লিখিত ইউনিট পরীক্ষাগুলি অন্য কোনও অনুমানকারীকে বিকল্প হিসাবে রাখলে অগত্যা ধরে রাখে না। আদর্শ ক্ষেত্রে, ইউনিট পরীক্ষাগুলি বাছাই করা হয়েছিল কারণ তারা আপনার সংস্থার সমালোচনামূলক প্রয়োজনীয়তা প্রতিফলিত করে, সংজ্ঞাগুলির উপর কোনও মতবাদ যুক্তির কারণে নয়।


2
(+1) আমরা এটিকে আরও যুক্ত করতে পারি (1) মানগুলি যখন ওজন নিয়ে আসে তখন নীতিগতভাবে এবং অনুশীলনে মধ্যস্থদের সংজ্ঞাটি অবশ্যই এটি আবৃত করে। (উত্তরের উত্তরগুলিতে এখনও পর্যন্ত, সমস্ত ওজন সমান, অতএব অপরিহার্য)) ওজনের যোগফলের যোগফলের মধ্যে রৈখিক দ্রবীভূততা সহজ হলেও, এমন পরিস্থিতি রয়েছে যেখানে অন্যান্য ধরণের ক্ষয়ের অর্থ হতে পারে। (২) মিডিয়ানের আরও কঠোর সংজ্ঞা সাধারণত কোথাও কোথাও কোথাও সম্ভাবনার স্পাইকগুলি সহ পৃথকভাবে পৃথক এবং ক্রমাগত এবং সংকর বিতরণগুলি কভার করার উদ্দেশ্যে তৈরি হয়।
নিক কক্স

25

@ সাইকোরাক্স কী বলে।

প্রকৃতপক্ষে, সাধারণ কোয়ান্টাইলগুলির আশ্চর্যরূপে অনেক সংজ্ঞা রয়েছে, তাই বিশেষত মিডিয়ানদেরও। হেন্ডম্যান অ্যান্ড ফ্যান (১৯৯ 1996, দ্য আমেরিকান স্ট্যাটিস্টিশিয়ান ) একটি ওভারভিউ দেয় যা এএফআইকে, এখনও বিস্তৃত। বিভিন্ন ধরণের আনুষ্ঠানিক নাম নেই। আপনি কোন ধরণের ব্যবহার করছেন সে সম্পর্কে আপনাকে কেবল পরিষ্কার হওয়া দরকার। (এটি প্রায়শই বাস্তব আকারের ডেটা সেটগুলির সাথে বড় পার্থক্য করে না))

নোট করুন যে এটি একটি মান হিসাবে সাধারণত গ্রহণ করা হয় যা উপস্থাপিত হিসাবে ডেটা সেটে উপস্থিত না থাকে, উদাহরণস্বরূপ, 5.5 একটি মধ্যস্থ হিসাবে (4, 5, 6, 7)। এটি আর এর জন্য ডিফল্ট আচরণ:

> median(4:7)
[1] 5.5

আর এর median()ডিফল্ট ব্যবহার দ্বারা Hyndman & ফ্যান এর শ্রেণীবিন্যাস 7 টাইপ করুন।


6
"1 এর জন্য এটি প্রায়শই বাস্তব আকারের ডেটা সেটগুলির সাথে বড় পার্থক্য করে না।" আমি এটি চুরি করব, আমার স্বাভাবিকের পরিবর্তে "যদি এটি উপাদানকে একটি পার্থক্য করে তোলে, আপনার সম্ভবত আরও ডেটা প্রয়োজন।" :)
জেসন

1
যদি আপনার বাইনারি ভেরিয়েবল 0, 1 (বলুন) এবং প্রায় সমানভাবে অনেক 0 এবং 1 এস (মানে 0.5 এর কাছাকাছি) থাকে তবে বড় নমুনার আকারটি অবশ্যই 0, 0.5 এবং 1 এর মধ্যে উল্লিখিত মিডিয়াকে পিছনে পিছনে ফেলা বন্ধ করবে না। মোস্টেলার এবং টুকি ( ডেটা অ্যানালাইসিস এবং রিগ্রেশন 1977) দৃ b়ভাবে বিমোডাল এবং প্রায় প্রতিসাম্যিক বিতরণের ক্ষেত্রে যেমন মধ্যমা বিশেষত ভাল আচরণ করতে পারে না হিসাবে উল্লেখ করেছেন।
নিক কক্স

3

আর এর madকার্যক্রমে, এটি আপনার এলগরিদম এ বর্ণনা করার জন্য "লো-মিডিয়ান" পদগুলি ব্যবহার করে, পরিবর্তে গোলাকার বর্ণনার জন্য "হাই-মিডিয়ান", এবং আপনার অ্যালগরিদম বি বর্ণনা করার জন্য কেবল "মিডিয়ান" শব্দটি ব্যবহার করেছে (যা অন্যরা উল্লিখিত রয়েছে যে বহুদূর পর্যন্ত সর্বাধিক সাধারণ সংজ্ঞা))

কৌতূহলজনকভাবে, আর এর ফাংশনটিতে এমন কোনও বিকল্প নেই median()! (তবে জরিমানা নিয়ন্ত্রণের জন্য আর এর quantile()রয়েছে type))

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.