ওয়াইন রেটিং (0 এবং 10 থেকে) অনুমান করার জন্য লিনিয়ার রিগ্রেশন বা অরডিনাল লজিস্টিক রিগ্রেশন


18

আমার কাছে এখান থেকে ওয়াইন ডেটা রয়েছে যার মধ্যে 0 টি 10 ​​এবং 10 এর মধ্যে মানগুলির সাথে প্রতিটি এন্ট্রির সাথে সম্পর্কিত একটি নির্ভরযোগ্য রেটিং সহ 11 সংখ্যাগত স্বতন্ত্র ভেরিয়েবলগুলি থাকে এটি ভেরিয়েবল এবং এর সাথে সম্পর্কিত তদন্ত করার জন্য একটি রিগ্রেশন মডেল ব্যবহার করে একটি দুর্দান্ত ডেটাসেট তৈরি করে রেটিং। তবে, লিনিয়ার রিগ্রেশন কি যথাযথ হবে, বা বহুজাতিক / আদেশযুক্ত লজিস্টিক রিগ্রেশন ব্যবহার করা ভাল?

লজিস্টিক রিগ্রেশন নির্দিষ্ট নির্দিষ্ট বিভাগগুলিকে দেওয়া ভাল বলে মনে হয়, যেমন একটি অবিচ্ছিন্ন নির্ভরশীল পরিবর্তনশীল নয় তবে (1) 11 টি বিভাগ রয়েছে (কিছুটা অনেক বেশি?) এবং (2) পরিদর্শন করার পরে, কেবল এই বিভাগগুলির 6-7 এর জন্য কেবলমাত্র ডেটা রয়েছে ডেটাসেটে 5-4 বিভাগগুলির কোনও উদাহরণ নেই।

অন্যদিকে, লিনিয়ার রিগ্রেশন 0-10-এর মধ্যে রেটিংকে রৈখিকভাবে অনুমান করা উচিত যা আমি অনুসন্ধান করার চেষ্টা করছি তার কাছাকাছি মনে হয়; তথাপি নির্ভরশীল ভেরিয়েবল ডেটাসেটে অবিচ্ছিন্ন নয়।

ভাল পদ্ধতির কোনটি? দ্রষ্টব্য: আমি বিশ্লেষণের জন্য আর ব্যবহার করছি

উত্তরে বর্ণিত কিছু পয়েন্ট সম্বোধন করে সম্পাদনা করুন:

  • ব্যবসায়ের কোনও লক্ষ্য নেই কারণ এটি প্রকৃতপক্ষে কোনও বিশ্ববিদ্যালয় কোর্সের জন্য। কাজটি হ'ল আমি যে কোনও উপায়ে ফিট দেখলে পছন্দের একটি ডেটাসেট বিশ্লেষণ করা।
  • রেটিংগুলির বিতরণটি সাধারণ দেখায় (হিস্টোগ্রাম / কিউকিউ প্লট)। ডেটাসেটের আসল মানগুলি 3-8 এর মধ্যে (যদিও প্রযুক্তিগতভাবে 0-10)।

উত্তর:


9

অর্ডারযুক্ত লগইট মডেলটি আরও উপযুক্ত কারণ আপনার নির্ভরশীল পরিবর্তনশীল যা একটি র‌্যাঙ্কিং, উদাহরণস্বরূপ 7 এর চেয়ে 4 টি ভাল। সুতরাং একটি পরিষ্কার আদেশ আছে।

এটি আপনাকে প্রতিটি বিনের সম্ভাব্যতা অর্জন করতে দেয়। আপনার বিবেচনায় নেওয়া দরকার এমন কয়েকটি অনুমান রয়েছে। আপনি এখানে একবার দেখতে পারেন ।

অর্ডিনাল লজিস্টিক (এবং অরডিনাল প্রবিট) রিগ্রেশন অন্তর্নিহিত অনুমানগুলির মধ্যে একটি হ'ল ফলাফল গ্রুপগুলির প্রতিটি জুটির মধ্যে সম্পর্ক একই। অন্য কথায়, অর্ডিনাল লজিস্টিক রিগ্রেশন ধরে নেয় যে সহগগুলি যে প্রতিক্রিয়ার ভেরিয়েবলের সমস্ত উচ্চতর বিভাগের মধ্যে সম্পর্কের বর্ণনা দেয়, বলে থাকে, পরবর্তী ন্যূনতম বিভাগ এবং সমস্ত উচ্চতর বিভাগ ইত্যাদির মধ্যে সম্পর্কের বর্ণনা দেয় সেগুলির মতোই are একে আনুপাতিক প্রতিক্রিয়ার ধারণা বা সমান্তরাল রিগ্রেশন অনুমান বলা হয়।

কিছু কোড:

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

আপনি এখানে , এখানে , এখানে বা এখানে আরও ব্যাখ্যা করতে পারেন ।

মনে রাখবেন যে আপনার সম্ভাবনাগুলির ক্ষেত্রে স্পষ্ট ব্যাখ্যা দেওয়ার জন্য আপনার সহগকে বৈধ অনুপাত এবং তারপরে সম্ভাবনাগুলিতে রূপান্তর করতে হবে।

সরল (এবং সরল পদ্ধতিতে) আপনি এগুলি দ্বারা গুণতে পারেন:

এক্সপি(βআমি)=হেগুলিআরএকটিটিআমি

এক্সপি(β1)Σএক্সপি(βআমি)=পিRএকটিআমিআমিটিY

(খুব প্রযুক্তিগত হতে চাই না)


4

আমি সমস্যার আরেকটি মতামত সরবরাহ করতে চাই: বাস্তব বিশ্বে, এই প্রশ্নের মুখোমুখি হওয়ার সম্ভাবনা কম, কারণ কী করা উচিত তা ব্যবসায়ের প্রয়োজনের উপর নির্ভর করে

বাস্তব বিশ্বে অপরিহার্য প্রশ্নটি ভবিষ্যদ্বাণী পাওয়ার পরে কী করা উচিত?

  • মনে করুন ব্যবসা "নিম্নমানের" ওয়াইন ট্র্যাশ করতে চায়। তারপরে, আমাদের "কতটা খারাপ এটি খারাপ" এর কিছু সংজ্ঞা দরকার (মানের নীচে )। সংজ্ঞা সহ, বাইনারি লজিস্টিক রিগ্রেশন ব্যবহার করা উচিত, কারণ সিদ্ধান্তটি বাইনারি। (আবর্জনা রাখুন বা রাখুন, মাঝখানে কিছুই নেই)।2

  • মনে করুন ব্যবসায়টি তিন ধরণের রেস্তোঁরায় প্রেরণের জন্য কিছু সূক্ষ্ম ওয়াইন নির্বাচন করতে চায়। তারপরে, বহু-শ্রেণীর শ্রেণিবিন্যাস প্রয়োজন হবে।

সংক্ষেপে, আমি যুক্তি দিতে চাই যে ভবিষ্যদ্বাণীটি পাওয়ার পরে প্রয়োজনীয় কী কী করা উচিত তা কেবল প্রতিক্রিয়াশীল ভেরিয়েবলের বৈশিষ্ট্যটি না দেখে is


1

যদিও অর্ডারযুক্ত লগইট মডেল (@ অ্যাড্রিয়ান১১১১ দ্বারা বিশদভাবে) মডেল অনুমানের ক্ষেত্রে সবচেয়ে উপযুক্ত হবে তবে আমি মনে করি একাধিক লিনিয়ার রিগ্রেশন এর কিছু সুবিধাও রয়েছে।

  1. সহজেই ব্যাখ্যা । লিনিয়ার মডেলগুলি অর্ডারযুক্ত লগিটে মডেলগুলির চেয়ে ব্যাখ্যা করা সহজ are
  2. স্টেকহোল্ডার আরাম । মডেলটির ব্যবহারকারীরা লিনিয়ার রিগ্রেশন নিয়ে বেশি স্বাচ্ছন্দ্য বোধ করতে পারেন কারণ তারা এটি কী তা জানেন likely
  3. আরও পার্সিমোনিয়াস (সহজ)) সহজ মডেল ঠিক পাশাপাশি সঞ্চালন করতে পারে, সম্পর্কিত বিষয় দেখুন

এই সত্য যে বেশিরভাগ প্রতিক্রিয়া 3-8 এর মধ্যে রয়েছে তা আমার কাছে পরামর্শ দেয় যে একটি রৈখিক মডেল আপনার প্রয়োজনের জন্য উপযুক্ত পারফর্ম করতে পারে। আমি এটি "ভাল" বলছি না, তবে এটি আরও ব্যবহারিক পদ্ধতির হতে পারে।


0

নীতিগতভাবে অর্ডার করা লগিট মডেল উপযুক্ত বলে মনে হয় তবে 10 (বা এমনকি 7) বিভাগগুলি বেশ অনেকগুলি।

1 / অবশেষে কিছু পুনরায় কোডিং করা কি বুদ্ধিমান হবে (উদাহরণস্বরূপ, 1-4 রেটিংগুলি 1 একক মোডিয়ালিটিতে একীকরণ করা হবে, "লো রেটিং" বলুন)?

2 / রেটিং বিতরণ কি? যদি বেশ ভাল সাধারণত বিতরণ করা হয়, তবে লিনিয়ার রিগ্রেশন একটি ভাল কাজ করবে ( লিনিয়ার সম্ভাব্যতা মডেল দেখুন )।

3 / অন্যথায় আমি " বিটা রিগ্রেশন " নামে সম্পূর্ণ ভিন্ন কিছুতে যাব - একটি 11-পয়েন্টের রেটিং স্কেলটি ক্লাসিকাল 5-পয়েন্টের স্কেলের তুলনায় বেশ বিস্তারিত কিছু - আমি মনে করি রেটিং স্কেলটিকে "তীব্রতা" হিসাবে বিবেচনা করা গ্রহণযোগ্য হবে স্কেল যেখানে 0 = নাল এবং 1 = পূর্ণ / নিখুঁত - এটি করার মাধ্যমে আপনি মূলত অনুমান করবেন যে আপনার স্কেলটি অন্তরালের ধরণের (অরডিনাল একের চেয়ে) তবে আমার কাছে এটি গ্রহণযোগ্য বলে মনে হয় sounds


3
10 (বা 7) বিভাগগুলি কেন অনেক বেশি? অর্ডারযুক্ত লগইট মডেলটিতে 10 বিভাগগুলি যথাযথ আচরণ করবে না এমন কোনও মৌলিক প্রযুক্তিগত কারণ রয়েছে বা আপনি খাঁটি ব্যবহারিক দৃষ্টিকোণ থেকে কথা বলছেন? (যেমন hxd1011 দেওয়া উত্তরের অনুরূপ বিবেচনাগুলি))
আরএম

না যতক্ষণ না ডেটা "এতগুলি" বিভাগ সহ অর্ডারযুক্ত লগিট (ওএল) অনুমানের অনুমতি দেয় ততক্ষণ পর্যন্ত কোনও প্রযুক্তিগত কারণ নেই। তবে 11 টি বিভাগের সাথে একটি ওএল মডেল নির্দিষ্ট করা 10 "ধ্রুবক" পদগুলি (অর্থাত্ প্রান্তিক পরামিতি) অনুমান করে বোঝায় - এটি আমার কাছে অনেকটাই শোনাচ্ছে, বিশেষত যদি কিছু বিভাগ ডেটাবেজে ভালভাবে প্রতিনিধিত্ব না করে - আমার অন্ত্র অনুভূতিটি হ'ল একটি ওল মডেল 11 বিভাগগুলি কিছুটা বেশি মারা গেছে, আমি রেটিংগুলিকে ক্রমাগত পরিবর্তনশীল হিসাবে বিবেচনা করব বা আরও পার্সোনিমিয়াস (এবং সম্ভবত আরও অর্থবহ) ওএল মডেল নির্দিষ্ট করার জন্য কিছু পদ্ধতি ভেঙে দেব।
উমকা

-1

আমি লজিস্টিক রিগ্রেশন বিশেষজ্ঞ নই, তবে আমি বলব যে আপনি আপনার স্বতন্ত্র নির্ভরশীল ভেরিয়েবলের কারণে বহুজাতিক ব্যবহার করতে চান।

একটি লিনিয়ার রিগ্রেশন আপনার নির্ভরশীল ভেরিয়েবলের সম্ভাব্য সীমানার বাইরে এক্সট্রাপোলেট করা যেতে পারে এমন সহগগুলি আউটপুট করতে পারে (যেমন স্বতন্ত্র ভেরিয়েবলের বর্ধন প্রদত্ত রিগ্রেশন সহগের জন্য আপনার সীমানার বাইরে নির্ভরশীল পরিবর্তনশীলকে নিয়ে যেতে পারে)।

বহুভিত্তিক রিগ্রেশন আপনার নির্ভরশীল ভেরিয়েবলের বিবিধ ফলাফলের জন্য বিভিন্ন সম্ভাবনা দেয় (অর্থাত্ আপনার প্রতিরোধের গুণাগুণ আপনাকে দেয় যে তারা কীভাবে আরও ভাল স্কোর দেওয়ার সম্ভাবনা বাড়িয়ে দেয়, স্কোরকে সীমা ছাড়িয়ে না নিয়ে)।


3
একাধিক আনর্ডার্ডযুক্ত বিভাগের জন্য বহুজাতিক বহু ভাল। সাধারণ লজিস্টিক (ওপ প্রশ্নে প্রস্তাব দেয়) একাধিক অর্ডারযুক্ত বিভাগের জন্য ভাল।
গ্রেগর

-1

আর একটি সম্ভাবনা র্যান্ডম ফরেস্ট ব্যবহার করা। এলোমেলো বনের নিচে ভেরিয়েবলের "গুরুত্ব" পরিমাপের দুটি উপায় রয়েছে:

  1. বিন্যাস : ইনপুট পরিবর্তনশীল গুরুত্ব এলোমেলোভাবে যে পরিবর্তনশীল অদলবদল দ্বারা ত্রুটি হার কারণ গড় বৃদ্ধি সমানুপাতিক। এলোমেলোভাবে হয়ে যাওয়া এবং এর সাথে অন্য সমস্ত এর সম্পর্ককে করে দেয় ।এক্সএক্সএক্সওয়াইএক্স
  2. নোড সমস্ত গাছ জুড়ে বিভক্ত হওয়ার কারণে ইনপুট ভেরিয়েবল এর গুরুত্ব নোড মোট হ্রাসের সাথে সমানুপাতিক ।এক্সএক্স

এলোমেলো বনগুলি "আংশিক নির্ভরতা প্লট" নামে পরিচিত এক ধরণের ডেটা ভিজ্যুয়ালাইজেশনের পক্ষেও উপযুক্ত। দেখুন এই গভীর টিউটোরিয়াল আরো বিস্তারিত জন্য।

আংশিক নির্ভরতা এবং ক্রম ছাড়নের গুরুত্ব র‌্যান্ডম ফরেস্ট মডেলগুলির জন্য সুনির্দিষ্ট নয় তবে র‌্যান্ডম ফরেস্ট মডেলগুলির জন্য তাদের গণনা করা কতটা দক্ষতার কারণে তাদের জনপ্রিয়তা র‌্যান্ডম অরণ্যের জনপ্রিয়তার সাথে বেড়েছে।


1
আমি জানি এটি কিছুটা স্পর্শকাতর উত্তর, তবে আমি কেন জানতে চেয়েছি এটি নিম্নচূর্ণিত। এটা কি ভুল?
ছায়াছবির
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.