আরে কোয়ার্টাইল সন্ধান করা


33

আর শেখার সময় আমি একটি পরিসংখ্যান পাঠ্যপুস্তকের মধ্য দিয়ে কাজ করছি এবং আমি নিম্নলিখিত উদাহরণে হোঁচট খেয়েছি:

এখানে চিত্র বর্ণনা লিখুন

দেখার পরে ?quantileআমি নিম্নলিখিত দিয়ে আর এ এটি পুনরায় তৈরি করার চেষ্টা করেছি:

> nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104)
> quantile(nuclear)
   0%   25%   50%   75%  100% 
  6.0   9.5  16.0  28.0 104.0 

পাঠ্য এবং আর এর পৃথক ফলাফল রয়েছে তা প্রদত্ত, আমি একত্রিত করছি যে প্রথমটি এবং তৃতীয় কোয়ার্টাইলের গণনায় মিডিয়াকে ব্যবহার করছে।

প্রশ্ন:

প্রথম এবং তৃতীয় কোয়ার্টাইল গণনা করার জন্য আমি কি মিডিয়েনকে অন্তর্ভুক্ত করব?

আরও সুনির্দিষ্টভাবে বলা যায় যে পাঠ্যপুস্তক বা আর-এর কি সঠিক আছে? পাঠ্যপুস্তকে যদি এই সঠিক থাকে তবে এটি আর-তে সঠিকভাবে অর্জন করার কোনও উপায় আছে কি?

আগাম ধন্যবাদ.

r  quantiles 

6
কোয়ান্টাইলগুলি গণনা বা অনুমান করা যায় এমন বিভিন্ন উপায়ে এখানে কয়েকটি থ্রেড আলোচনা করে। এখানে প্রামাণিক উত্তর সহ একটি , তবে অন্যরা আমাদের সাইটটি অনুসন্ধান করে উপলব্ধ। সংক্ষেপে, আপনার পাঠ্যপুস্তকে কম্পিউটিং কোয়ার্টাইলগুলির একটি মানহীন পদ্ধতি উপস্থাপিত হয়েছে বলে মনে হচ্ছে তবে quantile1, 2, এবং 6 প্রকারগুলি তাদের এই নির্দিষ্ট আকারের ডেটাসেটের জন্য পুনরুত্পাদন করবে । কোনটি এর Rপদ্ধতি আপনার পাঠ্যপুস্তক অনুরূপ। (এই পাঠ্যের মান সম্পর্কে এক আশ্চর্য ...)
শুক্র

@ শুভ এই মন্তব্যটির জন্য ধন্যবাদ, এটি অনেকটা সহায়তা করেছে যেহেতু আমি আশঙ্কা করি যে এখনও বিভিন্ন ধরণের কী করছে তার পার্থক্য করার মতো প্রযুক্তিগত পটভূমি আমার কাছে নেই quantile

@ শুভ: এটি স্পষ্টত অ-মানক (যা সম্ভবত বইয়ের কোথাও উল্লেখ করা হয়েছে), তবে অনিচ্ছুক নয়। আপনি কি গাণিতিকভাবে ভুল বলে মনে করেন?
মাইকেল এম

6
@ মিশেল আপনি নিজের পছন্দমতো কিছু হিসাবে "কোয়ার্টাইল" সংজ্ঞায়িত করতে পারেন, সুতরাং গাণিতিকভাবে কোনও ভুল নেই। এটা পরিষ্কার যে asympototically এই সংজ্ঞাগুলি বড় জন্য কাজ করে । তবে পাঠ্যপুস্তকে একটি উপন্যাস সংজ্ঞা প্রবর্তন করা চক ডি-এর মতো চিন্তাশীল শিক্ষার্থীদের বিরুদ্ধাচরণ করে যারা লক্ষ্য করে যে তারা সফটওয়্যার, প্রকাশনা বা তাদের পাঠ্য ব্যতীত অন্য যে কোনও বিষয়গুলির সাথে একমত হওয়ার জন্য তাদের গণনাগুলি পাবে না। এন
হোবল

1
আর কোয়ান্টাইলের নয়টি আলাদা সংজ্ঞা ব্যবহার করে (ডিফল্টরূপে এটি সংজ্ঞাটি 7 ব্যবহার করে)। দেখুন?quantile
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


43

আপনার পাঠ্যপুস্তক বিভ্রান্ত খুব কম লোক বা সফ্টওয়্যার এইভাবে কোয়ার্টাইলগুলি সংজ্ঞায়িত করে। (এটি প্রথম চৌকোটিটি খুব ছোট এবং তৃতীয় চতুর্থাংশটি খুব বড় করে তোলে))

quantileফাংশন Rকার্যকরী নয় কম্পিউট quantiles বিভিন্ন উপায়! তাদের মধ্যে কোনটি যদি এই পদ্ধতির সাথে সামঞ্জস্য হয় তা দেখতে, আসুন এটি প্রয়োগ করে শুরু করুন। বর্ণনা থেকে আমরা প্রথমে গাণিতিক এবং তারপরে একটি অ্যালগরিদম লিখতে পারি R:

  1. ডেটা অর্ডার করুন ।x1x2xn

  2. তথ্য কোনো সেট জন্য মধ্যমা যখন মূল্যবোধের একটি বিজোড় সংখ্যা হয় তার মধ্যম মান; অন্যথায় যদি দুটি সংখ্যার মান থাকে তবে এটি দুটি মাঝারি মানের। Rএর medianফাংশন এটি গণনা করে।

    মাঝের মানের সূচকটি । যখন এটি একটি পূর্ণসংখ্যা নয়, মধ্যমা কোথায় এবং হয় উপর নিচ বৃত্তাকার এবং। অন্যথায় যখন একটি পূর্ণসংখ্যা হয়, হ'ল মাঝারি। যে ক্ষেত্রে নিতে এবং । উভয় ক্ষেত্রেই হ'ল তাত্ক্ষণিকভাবে মিডিয়ানের বাম দিকে ডেটা মানের সূচক এবং হ'ল তত্ক্ষণাত্ মিডিয়ানের ডানদিকে ডাটা মানের সূচক।( এক্স এল + এক্স ইউ ) / 2 এল ইউ এম এম এক্স এম l = মি - 1 ইউ = মি + 1 এল ইউm=(n+1)/2(এক্স+ +এক্সতোমার দর্শন লগ করা)/2তোমার দর্শন লগ করামিমিএক্সমি=মি-1তোমার দর্শন লগ করা=মি+ +1তোমার দর্শন লগ করা

  3. "প্রথম কোয়ার্টাইলের" সব মধ্যমা হয় যার জন্য । "তৃতীয় কোয়ার্টাইল" হ'ল এর মধ্যবর্তী যা । i l ( x i ) i uএক্সআমিআমি(এক্সআমি)আমিতোমার দর্শন লগ করা

এখানে একটি বাস্তবায়ন। এটি আপনাকে এই পাঠ্যপুস্তকে আপনার অনুশীলনগুলি করতে সহায়তা করতে পারে।

quart <- function(x) {
  x <- sort(x)
  n <- length(x)
  m <- (n+1)/2
  if (floor(m) != m) {
    l <- m-1/2; u <- m+1/2
  } else {
    l <- m-1; u <- m+1
  }
  c(Q1=median(x[1:l]), Q3=median(x[u:n]))
}

উদাহরণস্বরূপ, আউটপুট quart(c(6,7,8,9,10,15,16,16,20,20,23,33,50,58,104))পাঠ্যের সাথে একমত:

Q1 Q3 
 9 33 

সমস্ত দশটি পদ্ধতি ব্যবহার করে কিছু ছোট ডেটাসেটের জন্য কোটাটাইটিস গণনা করা যাক: নাইন ইন Rএবং পাঠ্যপুস্তকের:

y <- matrix(NA, 2, 10)
rownames(y) <- c("Q1", "Q3")
colnames(y) <- c(1:9, "Quart")
for (n in 3:5) {
  j <- 1
  for (i in 1:9) {
    y[, i] <- quantile(1:n, probs=c(1/4, 3/4), type=i)
  }
  y[, 10] <- quart(1:n)
  cat("\n", n, ":\n")
  print(y, digits=2)
}

যখন আপনি এই চালানো এবং চেক, আপনি যে পাবেন পাঠ্যপুস্তক মান সাথে একমত নই কোন এর Rসব তিনটি নমুনা মাপ জন্য আউটপুট। (মতবিরোধের ধাঁচটি তিন পর্বের চক্রগুলিতে অব্যাহত রয়েছে যা দেখায় যে নমুনা যত বড় হোক সমস্যাটি স্থির থাকে))

পাঠ্যপুস্তকে জন টুকির "কব্জাগুলি" (ওরফে "চতুর্থাংশ") গণনার পদ্ধতিটি ভুল ধারণা করেছিল। পার্থক্যটি হ'ল মাঝারিটির চারপাশে ডেটাসেটটি বিভক্ত করার সময়, তিনি উভয় অংশে মধ্যস্থকে অন্তর্ভুক্ত করেন। উদাহরণস্বরূপ ডেটাসেটের জন্য এটি এবং উত্পাদন করবে ।9.528


3
আমাকে নিজের কাজ করার এবং বিভিন্ন পদ্ধতির মূল্যায়ন করার সরঞ্জাম সরবরাহ করার পাশাপাশি এই জাতীয় উত্তরের জন্য একটি বড় ধন্যবাদ। আমি এখন তাদের জ্বালিয়ে দেব এবং আরও বিশদে জিনিসগুলি দিয়ে যাচ্ছি।

2

পরিসংখ্যানের ক্ষেত্রের মধ্যে (যা আমি শিক্ষা দিই, তবে যার মধ্যে আমি গবেষক নই), চতুর্ভুজ গণনাগুলি বিশেষত অস্পষ্ট (এমনভাবে যা কোয়ান্টাইলগুলির ক্ষেত্রে সত্য নয়, আরও সাধারণভাবে)। এর পেছনে অনেক ইতিহাস রয়েছে, অংশবিশেষে আন্ত-কোয়ার্টাইল রেঞ্জের (আইকিউআর) ব্যবহার (এবং সম্ভবত অপব্যবহারের) কারণে, যা বিদেশীদের কাছে সংবেদনশীল নয়, স্ট্যান্ডার্ড বিচ্যুতির বিকল্প হিসাবে as এটি একটি উন্মুক্ত প্রতিযোগিতা হিসাবে রয়ে গেছে, কিউ 1 এবং কিউ 3 এর সহ-নৈমিত্তিক হওয়ার জন্য তিনটি স্বতন্ত্র পদ্ধতি রয়েছে।

যেমনটি প্রায়শই দেখা যায়, উইকিপিডিয়া নিবন্ধটিতে যুক্তিসঙ্গত সংক্ষিপ্তসার রয়েছে: https://en.m.wikedia.org/wiki/Quartil বেশিরভাগ প্রাথমিক পরিসংখ্যান পাঠ্যের মতো লারসন এবং ফারবার পাঠ্যটি উইকিপিডিয়া নিবন্ধে বর্ণিত বিষয়গুলি হিসাবে ব্যবহার করে " পদ্ধতি 1. " আমি যদি উপরে বর্ণিত বিবরণগুলি অনুসরণ করি তবে r "পদ্ধতি 3" ব্যবহার করে। আপনাকে নিজের জন্য সিদ্ধান্ত নিতে হবে যা আপনার নিজের ক্ষেত্রে উপযুক্তভাবে উপযুক্ত।


আপনি ভাল পয়েন্ট (+1) করেন। তবে প্রদত্ত যে "মেথড 1" এর উল্লেখগুলি হল টিআই -83 ক্যালকুলেটর এবং এক্সেল (যার বিশ্বাসযোগ্যতার অভাব সুপরিচিত), যে এই পদ্ধতিটি প্রদর্শিতভাবে পক্ষপাতদুষ্ট, এবং এটি টুকির কব্জাগুলির তুলনায় গণনা করা আরও কঠিন নয় would এর ব্যবহারকে ন্যায়সঙ্গত করা বা সুপারিশ করা কঠিন বলে মনে হচ্ছে।
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.