আমি ফলাফলটিকে শ্রেণিবিন্যাসের পরিবর্তে অর্ডিনাল হিসাবে বিবেচনা করলে আমার কী লাভ হবে?


12

অর্ডিনাল এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলির পূর্বাভাস দেওয়ার জন্য বিভিন্ন পদ্ধতি রয়েছে।

আমি যা বুঝতে পারি না, তা এই পার্থক্যটি কীভাবে গুরুত্বপূর্ণ। এমন কোনও সরল উদাহরণ রয়েছে যা আমি আদেশটি ফেলে দিলে কী ভুল হয় তা পরিষ্কার করে দিতে পারে? কোন পরিস্থিতিতে এটি বিবেচনা করে না? উদাহরণস্বরূপ, যদি স্বাধীন ভেরিয়েবলগুলি সমস্ত শ্রেণীবদ্ধ / অর্ডিনাল হয়, তবে কি কোনও পার্থক্য থাকবে?

এই সম্পর্কিত প্রশ্নটি স্বাধীন ভেরিয়েবলের ধরণের উপর দৃষ্টি নিবদ্ধ করে। এখানে আমি ফলাফল ভেরিয়েবল সম্পর্কে জিজ্ঞাসা করছি।

সম্পাদনা: আমি বিন্দুটি দেখতে পাচ্ছি যে অর্ডার কাঠামোটি ব্যবহার করা হলে মডেল পরামিতিগুলির সংখ্যা হ্রাস হয়, তবে আমি এখনও সত্যই নিশ্চিত হতে পারি না।

এখানে একটি উদাহরণ রয়েছে ( অর্ডারযুক্ত লজিস্টিক রিগ্রেশনের একটি ভূমিকা থেকে নেওয়া যেখানে আমি যতদূর দেখতে পাচ্ছি সাধারণ লজিস্টিক রিগ্রেশন মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশনের চেয়ে ভাল সম্পাদন করে না:

library(nnet)
library(MASS)
gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric"))

ordered_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- polr(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

multinomial_result <- function() {
  train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9))
  train_data <- gradapply[train_rows,]
  test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),]
  m <- multinom(apply~pared+gpa, data=train_data)
  pred <- predict(m, test_data)
  return(sum(pred==test_data$apply))
}

n <- 100

polr_res <- replicate(n, ordered_result())
multinom_res <- replicate(n, multinomial_result())
boxplot(data.frame(polr=polr_res, multinom=multinom_res))

যা উভয় অ্যালগরিদমের সঠিক অনুমানের সংখ্যা (40 এর মধ্যে) বিতরণ দেখায়।

polr_vs_multinom

সম্পাদনা 2: যখন আমি স্কোরিং পদ্ধতি হিসাবে নিম্নলিখিতটি ব্যবহার করি

return(sum(abs(as.numeric(pred)-as.numeric(test_data$apply)))

এবং "খুব ভুল" পূর্বাভাসকে শাস্তি দেওয়া, পোলার এখনও খারাপ দেখাচ্ছে, যেমন উপরের প্লটটি খুব বেশি পরিবর্তন হয় না।


1
আপনার উদাহরণটি একটি বিচ্ছিন্ন অযৌক্তিক স্কোরিং নিয়ম ব্যবহার করে, যা সাধারণত পূর্বাভাসের সেটগুলির তুলনা করার জন্য ভাল ভিত্তি নয় (এটি স্বেচ্ছাসেবী এবং শক্তি এবং নির্ভুলতার অভাব)।
ফ্র্যাঙ্ক হ্যারেল

আমি ধরে নিয়েছি আপনাকে আউটপুট ভেরিয়েবলটি প্রয়োগ করতে হতে পারে ordered factor, ফলস্বরূপ উন্নতি ঘটবে: gradapply$apply <-factor(gradapply$apply, levels= c('unlikely', 'somewhat likely', 'very likely') , ordered = TRUE)তবে এতে কোনও পার্থক্য নেই। আপনি যদি নির্ভুলতার দিকে তাকান তবে দু'জনের মধ্যে বেশ মিল রয়েছে। যদিও পুরোপুরি নির্ভর করার জন্য নির্ভুলতা কোনও ভাল মেট্রিক নয়।
ঝুবার্ব

উত্তর:


10

যথাযথ যখন ওয়াইন্ডালকে অর্ডিনাল হিসাবে বিবেচনা করা থেকে বড় শক্তি এবং নির্ভুল লাভ রয়েছে। এটি মডেলটির অনেক কম সংখ্যক প্যারামিটার থেকে উদ্ভূত হয় (কে এর একটি ফ্যাক্টর দ্বারা যেখানে কে ওয়াইয়ের বিভাগগুলির সংখ্যার তুলনায় এক কম)। বেশ কয়েকটি অর্ডিনাল মডেল রয়েছে। সর্বাধিক ব্যবহৃত হয় আনুপাতিক প্রতিকূলতা এবং ধারাবাহিকতা অনুপাত অর্ডিনাল লজিস্টিক মডেল।


1
+1 পরামিতি হ্রাস এরও অর্থ অর্ডিনাল মডেলগুলি ফিট করা অনেক সহজ হতে পারে fit
জেএমএস

4

আপনি যদি ভেরিয়েবলের ক্রমযুক্ত প্রকৃতিটিকে উপেক্ষা করেন তবে উপযুক্ত পদ্ধতিগুলি সঠিক বিশ্লেষণ প্রদান করবে তবে অর্ডার করা তথ্যের জন্য পদ্ধতিগুলি ব্যবহারের সুবিধা হ'ল তারা উল্লেখযোগ্য ভেরিয়েবলের ক্রম এবং পরিমাণ সম্পর্কে বৃহত্তর তথ্য সরবরাহ করে।


অর্ডার সম্পর্কে কোন তথ্য সরবরাহ করা হয়েছে তা আমি দেখতে পাচ্ছি না।
কার্স্টেন ডব্লিউ

1
ধরুন একটি ভেরিয়েবলের তিনটি স্তর রয়েছে নিম্ন, মধ্যম, উচ্চ। একটি সাধারণ বিশ্লেষণ নিম্ন ও মেডের মধ্যে কোনও পার্থক্য প্রস্তাব করতে পারে না, তবে উচ্চতার জন্য তাত্পর্য। প্যারামিটার অনুমান তথ্য সরবরাহ করতে পারে যেমন 'যখন ভেরিয়েবল এক্স বেশি হয়, তখন প্রভাবটি কম বা মাঝারি থেকে 2.5 গুণ বেশি বলে ধরা হয়' - সুতরাং দিক ও প্রস্থতা।
মারে

2

আপনি যদি ডেটা মডেল করতে চান এবং নির্ভরযোগ্য শ্রেণিবদ্ধ ভেরিয়েবলের কোনও অর্ডিং (নামমাত্র) না থাকে তবে আপনাকে অবশ্যই বহুজাতিক লগইট মডেলটি ব্যবহার করতে হবে। যদি নির্ভরশীল ভেরিয়েবলের অর্ডারিং (অর্ডিনাল) থাকে তবে আপনি একটি সংখ্যক লগইট মডেল (আনুপাতিক প্রতিকূল মডেল) ব্যবহার করতে পারেন।

ব্যক্তিগতভাবে আমার জন্য, বহুজাতিকের মডেলের তুলনায় আনুপাতিক প্রতিকূল মডেলের জন্য ফলাফলগুলি ব্যাখ্যা করা আমার পক্ষে খুব সহজ মনে হয়েছে, বিশেষত যখন আপনি পরিসংখ্যানগতভাবে অজ্ঞান হন এমন কাউকে ফলাফলগুলি রিপোর্ট করতে চান।

এগুলি কেবলমাত্র আপনি ব্যবহার করতে পারবেন এমন মডেল নয় তবে এগুলি খুব সাধারণ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.