মিডিয়েন ফায়ার মানে কি?


17

আমি সম্প্রতি পরামর্শটি পড়েছি যা আপনার সাধারণত মিডিয়ান ব্যবহার করা উচিত যা নাগরিকদের অপসারণ করার জন্য নয়। উদাহরণ: নিম্নলিখিত নিবন্ধটি http://www.amazon.com/Forensic-S ज्ञान- Intr Productions- বিজ্ঞানীয়- আবিষ্কারক / উত্পাদক-পর্যালোচনা / 1420064932 /

এই মুহুর্তে 16 টি পর্যালোচনা রয়েছে:

review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1)
summary(review)  ## "ordinary" summary

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
1.000   3.750   5.000   4.062   5.000   5.000 

কারণ তারা ব্যবহার করেন মানে নিবন্ধটি 4 টি তারা পায় তবে তারা যদি মেডিয়ান ব্যবহার করে তবে এটি 5 টি তারা পাবে।

মিডিয়ান কি 'ফেইরার' বিচারক নয়?


একটি পরীক্ষা দেখায় যে মিডিয়ানের ত্রুটি সর্বদা গড়ের চেয়ে বড়। মিডিয়ান কি আরও খারাপ?

library(foreach)

#the overall population of bookjudgments
n<-5
p<-0.5
expected.value<-n*p
peoplesbelieve <-rbinom(10^6,n, p)

#16 ratings made for 100 books
ratings <- foreach(i=1:100, .combine=rbind) %do% sample(peoplesbelieve,16)
stat <- foreach(i=1:100, .combine=rbind) %do% c(mean=mean(ratings[i,]), median=median(ratings[i,]))

#which mean square error is bigger? Mean's or Median's?
meansqrterror.mean<-mean((stat[,"mean"]-expected.value)^2)
meansqrterror.median<-mean((stat[,"median"]-expected.value)^2)

res<-paste("mean MSE",meansqrterror.mean)
res<-paste(res, "| median MSE", meansqrterror.median)
print(res)


3
5 তারা রেটিং কেন আরও ভাল হবে? 6/16 টি পর্যালোচনা রয়েছে যা কম রেটিং দিয়েছে ...
নিকো

ঠিক আছে, আপনি কি গড় গড় হিসাবে গড় ভাবেন? সংখ্যাগরিষ্ঠরা এর 5.০% বেশি বলেছে, বাকিরা //১। এর বেশি বলেছে।
রোল্যান্ড কোফলার

2
আমার যদি একটি পৃথক মূল্যায়ন করতে হয় তবে সেই 16 টি পর্যালোচনা দেখে আমি 5 হিসাবে 4 না, 5- আমার হিসাবে 5 এর অর্থ হ'ল সমস্ত (বা বৃহত্তর সংখ্যাগরিষ্ঠ) ভোট 5 5. 6/16 ~ 40% , যা একেবারেই তুচ্ছ নয়।
নিকো

8
সুতরাং, সংক্ষেপে, আমি মনে করি না মানে বা মধ্যমাটি ভাল নয়। বিভিন্ন ভোট সহ একটি বারোগ্রাফ প্রদর্শন (যেমন অ্যামাজন করে) সেরা বিকল্প। এছাড়াও, এটি উল্লেখ করা আকর্ষণীয় যে অনলাইনে 1-5 রেটিংগুলি সর্বদা যথাযথ হয় না ... youtube-global.blogspot.com/2009/09/…
নিকো

1
@নিকো: স্কোরিং পুরো ফাঁদে পূর্ণ, আপনি যেটা দেখিয়েছেন তা এখানে আমার নিবন্ধের একটি যুক্তি: আপত্তিদর্শী.ব্লগস্পট.com
রোল্যান্ড

উত্তর:


26

সমস্যাটি হ'ল ভাল বা ন্যায্য রেটিংয়ের অর্থ কী তা আপনি সত্যই সংজ্ঞায়িত করেন নি। আপনি @ কেভিনের উত্তরে একটি মন্তব্যে পরামর্শ দিয়েছেন যে কোনও খারাপ পর্যালোচনা যদি কোনও আইটেম নিলে আপনার পছন্দ হয় না। তবে দুটি আইটেমের তুলনায় যেখানে একটিতে "নিখুঁত রেকর্ড" রয়েছে এবং অন্যটির একটিতে খারাপ পর্যালোচনা রয়েছে, সম্ভবত সেই পার্থক্য প্রতিফলিত হওয়া উচিত।

মাঝারি এবং গড়ের মধ্যে একটি সম্পূর্ণ (উচ্চ-মাত্রিক) ধারাবাহিকতা রয়েছে। আপনি মান অনুসারে ভোট অর্ডার করতে পারেন, তারপরে সেই ক্রমের অবস্থানের উপর নির্ভর করে ওজন সহ একটি ওজন গড়ে নিন। গড়টি সমস্ত ওজন সমান হওয়ার সাথে মিলে যায়, মিডিয়ান নোনজারো ওজন পেয়ে মধ্যমতে কেবল একটি বা দু'টি এন্ট্রির সাথে মিল রাখে, একটি ছাঁটাই করা গড় প্রথম এবং শেষ যুগলকে একই ওজন বাদে সমস্ত দেওয়ার সাথে মিল রাখে, তবে আপনি ওজনও ঠিক করতে পারেন 1 সহ এন নমুনার বাইরে kkn বাএক্সপ্রেস(-(2কে-1-এন)211+(2k1n)2, সেখানে এলোমেলোভাবে কিছু ছুঁড়ে ফেলার জন্য। সম্ভবত এরকম ওজনযুক্ত গড় যেখানে আউটলিয়াররা কম ওজন পান, কিন্তু এখনও একটি ননজারো পরিমাণ, মধ্যমানের ভাল বৈশিষ্ট্যগুলিকে একত্রিত করতে পারে?exp((2k1n)2n2)


22

আপনি যে উত্তরটি পেয়েছেন তা আপনার জিজ্ঞাসা প্রশ্নের উপর নির্ভর করে।

গড় এবং মিডিয়ান বিভিন্ন প্রশ্নের উত্তর দেয়। সুতরাং তারা বিভিন্ন উত্তর দেয়। এটি একজনের চেয়ে অন্যের তুলনায় "ভাল" নয়। মিডিয়ানরা প্রায়শই উচ্চ স্কু ডেটা (যেমন আয়) দিয়ে ব্যবহৃত হয়। তবে, এমনকি সেখানেও মাঝে মাঝে গড়টি সবচেয়ে ভাল। এবং কখনও কখনও আপনি কেন্দ্রীয় প্রবণতার কোনও পরিমাপ চান না।

এছাড়াও, যখনই আপনি কেন্দ্রীয় প্রবণতার একটি পরিমাপ দেন, আপনার কিছুটা স্প্রেড দেওয়া উচিত। সর্বাধিক সাধারণ জুটিগুলি হ'ল গড়-মানক বিচ্যুতি এবং মিডিয়ান-ইন্টারকোটারিল পরিসর। এই তথ্যগুলিতে, 5 এর মাত্র একটি মাধ্যম দেওয়া হ'ল, আমি মনে করি, বিভ্রান্তিকর, বা কমপক্ষে, তথ্যহীন। প্রতিটি একক ভোট 5 হলে মাঝারিটি 5 হবে।


5
আপনার পরিমাপের পরিমাপের বিষয়টি এখানে একটি কী key এটি সেই আলোচনার মধ্যে এমন একটি বিষয় যা অন্য নামে এই আলোচনায় উঠে আসে, এবং এটি এরিক পি'র ওজন স্কীমের আলোচনার সাথেও জড়িত।
ওয়েইন

8

যদি একমাত্র পছন্দগুলি 1 থেকে 5 সীমাতে পূর্ণসংখ্যা হয় তবে আসলেই কি কোনও আউটলেট হিসাবে বিবেচনা করা যেতে পারে?

α=0.05

Grubbs test for one outlier

data:  review  G = 2.0667, U = 0.6963,
p-value = 0.2153 alternative
hypothesis: lowest value 1 is an outlier

কারণ আপনার উদাহরণে কেবল একজন ব্যক্তি ফলাফলকে নাটকীয়ভাবে পরিবর্তন করতে পারে। যদি বইটিতে বিশ্বাস করা হয় যে বইটির অন্যরকম বিষয় রয়েছে তবে তার
দোষটি

2
কারও মতামত কি দোষ? আমি যুক্তি দিয়েছি যে ব্যর্থতা কেবলমাত্র কয়েকটি তথ্য পয়েন্ট থেকে একক পরিসংখ্যানের ভিত্তিতে অর্থবহ সিদ্ধান্তে আঁকতে চেষ্টা করছে। উপরে @nico দ্বারা উল্লিখিত হিসাবে, অ্যামাজন সমস্ত রেটিংয়ের একটি বার গ্রাফ প্রদর্শন করে।
কিমিমি

5

একটি পরীক্ষা দেখায় যে মিডিয়ানের ত্রুটি সর্বদা গড়ের চেয়ে বড়।

এটি আপনার ব্যবহৃত ব্যয় ফাংশনের উপর নির্ভর করে।

এমএসই গড় দ্বারা হ্রাস করা হয়। সুতরাং আপনি যদি এমএসই মিডিয়ান ব্যবহার করেন তবে সর্বদা গড়ের চেয়ে খারাপ হবে।

কিন্তু, আপনি যদি সম্পূর্ণরূপে ত্রুটি ব্যবহার করেন তবে গড়টি আরও খারাপ হবে!

এ সম্পর্কে একটি সুন্দর ব্যাখ্যা এখানে পাওয়া যাবে: http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifing-

পছন্দটি আপনার সমস্যা এবং পছন্দগুলির উপর নির্ভর করে। আপনি যদি না চান যে বিদেশিরা "সেন্ট্রাল পয়েন্ট" এর অবস্থানের উপর বড় প্রভাব ফেলতে পারেন, তবে আপনি মধ্যমা চয়ন করেন। আপনি যদি বহিরাগতদের সম্পর্কে চিন্তা করেন তবে আপনি মধ্যমা পছন্দ করেন।


4

শুধু একটি দ্রুত চিন্তা:

যদি আপনি ধরে নেন যে প্রতিটি রেটিং একটি সুপ্ত ক্রমাগত পরিবর্তনশীল থেকে অঙ্কিত হয়, তবে আপনি এই অন্তর্নিহিত বিতরণের গড়ের পরিবর্তে এই আগ্রহের অন্তর্নিহিত ক্রমাগত পরিবর্তনশীলকে আপনার আগ্রহের মান হিসাবে সংজ্ঞায়িত করতে পারেন। যেখানে বিতরণটি প্রতিসম হয়, তারপরে গড় এবং মিডিয়ান শেষ পর্যন্ত একই পরিমাণের অনুমান করে। যেখানে বিতরণটি স্কিউড, সেখানে মিডিয়ানটি গড় থেকে আলাদা হবে। এই ক্ষেত্রে, আমার মনে, মধ্যমাটি আমরা সাধারণত মূল্য হিসাবে বিবেচনা করি তার সাথে আরও মিল রাখে। এটি কেন মাঝারি আয় এবং মাঝারি বাড়ির দামগুলি সাধারণত গড়ের চেয়ে প্রতিবেদন করা হয় তা বোঝার কিছু উপায়।

যাইহোক, যখন আপনার কাছে স্বল্প সংখ্যক বিযুক্ত মান রয়েছে, মিডিয়ান খারাপ অভিনয় করে।

সম্ভবত, আপনি কিছু ঘনত্ব অনুমানের পদ্ধতি ব্যবহার করতে পারেন এবং তারপরে এর মধ্যস্থতা নিতে পারেন বা কিছু অন্তরবিচ্ছিন্ন মিডিয়ান ব্যবহার করতে পারেন।


2

স্টার রেটিংয়ের জন্য মিডিয়ানটি ব্যবহার করার দুর্দান্ত বিষয়টি হ'ল স্মার্ট ব্যবহারকারী (মিডিয়ান ব্যবহার সম্পর্কে সচেতন) সিস্টেমটি "গেম" করবে না:

যদি কোনও যুক্তিবাদী ব্যবহারকারী মনে করেন যে যথাযথ রেটিংটি 4 টি তারকা হওয়া উচিত তবে বর্তমানে এটিতে 4.5 টি তারকা রয়েছে, তবে চারটি তারার কাছে যাওয়ার সর্বোত্তম উপায় (ধরে নেওয়া যে সেখানে ছয়টিরও বেশি ভোট হয়েছে) একটি গড় ভিত্তিক রেটিং পদ্ধতিতে 1 তারা ভোট দেওয়া is ।

মিডিয়ান ভিত্তিক সিস্টেমে থাকাকালীন ব্যবহারকারীর বুদ্ধিমান পছন্দটি হ'ল সঠিকভাবে তারার সংখ্যা যা ভোটার মনে করে যে পণ্যটি থাকা উচিত।

এটি স্টার রেটিং সিস্টেমগুলির জন্য দ্বিতীয় মূল্য নিলামের সমতুল্য।


জবর যুক্তি, ব্যবহারের analoge সঠিক স্কোর ফাংশন
kjetil খ halvorsen

বেশ না। আমার উত্তরটি উদাহরণগুলিকে দেখায় যেখানে একটি নতুন উচ্চ বা নিম্ন মানের মধ্যম স্থানান্তর করবে।
নিক কক্স

বেশ কি না ? ভাল উত্তর, যাইহোক।
স্টিফেন বের্সিয়ার

যৌক্তিক কৌশলটি চূড়ান্তভাবে ভোট দেওয়া হতে পারে। স্বাভাবিকভাবেই, অন্যদের ভোট সম্পর্কে কতটা জানা তা সবসময়ই একটি প্রশ্ন থাকে।
নিক কক্স

@ নিককক্স কেবলমাত্র যদি আপনি প্রকৃতপক্ষে যথাযথ রেটিং হতে চান। তাই আমি বিশ্বাস করি যে আমি যা লিখেছি তা সব ক্ষেত্রেই কাজ করে। এবং এটি আপনার উত্তরের সাথে বৈপরীত্য নয়।
স্টিফেন বের্সিয়ার

1

বেশ কয়েকটি ভাল উত্তর এখনও আরও মন্তব্যে রাখে।

প্রথমত, মধ্যমা আউটলাইনারদের নির্মূল করার উদ্দেশ্যে করা এই ধারণাটি নিয়ে কেউ আপত্তি করেননি, তবে আমি এটি যোগ্যতা অর্জন করব। উদ্দিষ্ট অর্থটি প্রকট, তবে বাস্তব ডেটা আরও জটিল হওয়া সহজ। বেশিরভাগ ক্ষেত্রে, মধ্যস্থতাকারী বাহ্যিকদের ছাড় বা উপেক্ষা করার উদ্দেশ্যে তৈরি হয়, তবে এটিরও গ্যারান্টি নেই। উদাহরণস্বরূপ, 1 1 1 5 5 5 এর রেডিং সহ মিডিয়ান এবং গড় 3 এ সম্মত হয়, তাই সমস্ত কিছু ভাল লাগতে পারে। তবে একটি অতিরিক্ত 5 মধ্যমানকে 5 এ টিপ করবে এবং একটি অতিরিক্ত 1 মধ্যমানকে 1 টিপ করবে The প্রতি ক্ষেত্রে গড়টি প্রায় 0.286 দ্বারা সরবে। সুতরাং গড়টি এখানে মিডিয়ানের চেয়ে বেশি প্রতিরোধী। উদাহরণটি অস্বাভাবিক হিসাবে খারিজ করা যেতে পারে, তবে এটি আপত্তিজনক নয়। বিন্দুটি মূল নয়, স্বাভাবিকভাবেই। এটি তৈরি করা একটি জায়গা মোস্টেলার, এফ এবং টুকি, জেডাব্লু 1977। ডেটা অ্যানালাইসিস এবং রিগ্রেশন। পড়া, এমএ: অ্যাডিসন-ওয়েসলি, পিপি ৩৪-৩৫।

দ্বিতীয়ত, ছাঁটাইযুক্ত উপায়ের কথা উল্লেখ করা হয়েছে এবং ধারণাটি একটি বড় ধাক্কা প্রাপ্য। গড় এবং মাঝারিদের জন্য একেবারে বিকল্প বিকল্প হওয়া দরকার না যাতে বিশ্লেষককে অবশ্যই একে অপরকে বাছাই করতে (ভোট দেওয়া) করতে হবে। আপনি প্রতিটি লেজের নির্দিষ্ট সংখ্যক মান ছাঁটাইয়ের উপর ভিত্তি করে সমস্ত সম্ভাব্য ছাঁটাই উপায় বিবেচনা করতে পারেন । টেবিলটি # হিসাবে গণনার সাথে অন্তর্ভুক্ত মানের সংখ্যা হিসাবে দেখায়:

  +----------------------------+
  | number    #   trimmed mean |
  |----------------------------|
  |      0   16         4.0625 |
  |      1   14       4.214286 |
  |      2   12       4.416667 |
  |      3   10            4.6 |
  |      4    8           4.75 |
  |      5    6       4.833333 |
  |      6    4              5 |
  |      7    2              5 |
  +----------------------------+

এখানে মূল চিত্রটি হ'ল চূড়ান্ত মূল্যবোধের কারণে বন্ধ হওয়ার ঝুঁকির বিরুদ্ধে এক ধরণের বীমা হিসাবে আপনি আপনার ছাড়ের হারকে (সন্দেহ হিসাবে প্রতিটি পুচ্ছের এতগুলি মান উপেক্ষা করুন) বেছে নিতে পারেন। আমি যা দেখছি তা হ'ল গড় এবং মাঝারিগুলির মধ্যে বেশ মসৃণ গ্রেডিয়েন্ট, যা এখানে প্রত্যাশিত কারণ সম্ভাব্য মান 1, 2, 3, 4, 5 সমস্তই ডেটাতে উপস্থিত রয়েছে। ধারাবাহিকতায় একটি বড় জাম্প একটি বিচ্ছিন্ন আউটলেটারের সাথে প্রত্যাশিত।

ছাঁটাইযুক্ত অর্থের সাথে প্রতিটি লেজের সমান সংখ্যাকে ছাঁটাই করার কোনও বাধ্যবাধকতা নেই, তবে আমি এর উপর প্রসারিত করব না।

তৃতীয়, উদাহরণটি অ্যামাজন পর্যালোচনাগুলির। আপনি কীভাবে ডেটা সংক্ষিপ্ত করতে চান তা গাইড করতে প্রসঙ্গ সর্বদা প্রাসঙ্গিক । আমাজনের রিভিউয়ের ক্ষেত্রে সবচেয়ে ভাল উত্তরটি রিভিউ পড়তে হবে! উচ্চ এবং নিম্ন গ্রেডগুলি একইভাবে উত্সাহপূর্ণ কারণে হতে পারে (স্পষ্টত: এই বইটির লেখক আমার বন্ধু) এবং / বা আপনার সিদ্ধান্তের সাথে অপ্রাসঙ্গিক (স্পষ্টত: পুনঃ-বিক্রেতা আমার সাথে খারাপ ব্যবহার করেছেন), আমার কাছে স্পষ্টতই নেই কীভাবে এই জাতীয় ডেটা সংক্ষিপ্ত করতে হয় এবং প্রকৃতপক্ষে আপনাকে বিতরণ দেখিয়ে অ্যামাজনকে সর্বাধিক তথ্যবহুল করা যায় imp

চতুর্থ, এবং সবচেয়ে প্রাথমিক কিন্তু সবার মৌলিক, আপনাকে কে বাছাই করছে? কখনও কখনও গড় এবং মাঝারি উভয়ই রিপোর্ট করা উচিত (এবং যেমন বলা হয়েছে, একটি বন্টন গ্রাফও)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.