আমি সংখ্যাসূচক / শ্রেণিবদ্ধ মান উভয়ের সাথে আর-র মধ্যে অর্ডিনাল লজিস্টিক রিগ্রেশন বিশ্লেষণ কীভাবে চালাব?


17

বেস ডেটা : আমার কাছে মূল্যায়নগুলি সহ ~ 1000 জন চিহ্নিত রয়েছে: '1,' [ভাল] '2,' [মাঝারি] বা '3' [খারাপ] - এই মানগুলি আমি ভবিষ্যতে মানুষের জন্য ভবিষ্যদ্বাণী করার চেষ্টা করছি । এছাড়াও, আমার কাছে কিছু জনসংখ্যার তথ্য আছে: লিঙ্গ (শ্রেণিবদ্ধ: এম / এফ), বয়স (সংখ্যাসূচক: 17-80), এবং জাতি (বিভাগীয়: কালো / ককেশীয় / ল্যাটিনো)।

আমার প্রধানত চারটি প্রশ্ন রয়েছে:

  1. আমি প্রথমে একাধিক রিগ্রেশন বিশ্লেষণ হিসাবে উপরে বর্ণিত ডেটাसेट চালানোর চেষ্টা করছিলাম। তবে আমি সম্প্রতি শিখেছি যেহেতু আমার নির্ভরশীল একটি অর্ডারযুক্ত ফ্যাক্টর এবং একটি অবিচ্ছিন্ন পরিবর্তনশীল নয়, তাই এরকম কোনও কিছুর জন্য আমার সাধারণ লজিস্টিক রিগ্রেশন ব্যবহার করা উচিত। আমি প্রথমে এমন কিছু ব্যবহার করছিলাম mod <- lm(assessment ~ age + gender + race, data = dataset), আমাকে কি কেউ সঠিক দিকে নির্দেশ করতে পারে?

  2. সেখান থেকে, আমি মনে করি যে আমি সহগগুলি পেয়েছি যার সাথে আমি স্বাচ্ছন্দ্য বোধ করছি, আমি বুঝতে পারছি কীভাবে x1, x2 ইত্যাদির জন্য সম্পূর্ণরূপে সংখ্যাসূচক মানগুলি প্লাগ করতে হবে - তবে আমি কীভাবে জাতিদের সাথে কাজ করব, উদাহরণস্বরূপ, যেখানে একাধিক প্রতিক্রিয়া রয়েছে: কালো / ককেশীয় / ল্যাটিনো? সুতরাং যদি এটি আমাকে বলে যে ককেশীয় গুণাগুণটি 0.289 এবং আমি যে কারও কাছে ভবিষ্যদ্বাণী করতে চেষ্টা করছি তা ককেশীয়, আমি কীভাবে এটি পিছনে আনব যেহেতু মানটি সংখ্যাসূচক নয়?

  3. আমার কাছে এলোমেলো মানগুলিও রয়েছে যা অনুপস্থিত - কিছু রেসের জন্য, কিছু লিঙ্গের জন্য ইত্যাদি I এগুলি কিছুই স্কাইং করছে না তা নিশ্চিত করার জন্য আমাকে কি অতিরিক্ত কিছু করতে হবে? (আমি লক্ষ্য করেছি যে যখন আমার ডেটাসেটটি আর-স্টুডিওতে লোড হয়ে যায়, যখন অনুপস্থিত ডেটা লোড হয়ে যায় তখন NAআর এর মতো কিছু বলে (162 observations deleted due to missingness)- তবে তারা ফাঁকা হিসাবে লোড হয়ে গেলে এটি কিছুই করে না))

  4. এই সমস্তটি কার্যকর হয়ে গেছে এবং আমি লিঙ্গ, বয়স, এবং বর্ণ নিয়ে নতুন ডেটা পেয়েছি যার বিষয়ে আমি পূর্বাভাস দিতে চাই - আর নতুন কোনও সহগের সাথে আমার সূত্রটি যে রূপান্তরিত হয়েছে তা থেকে আর কী তা চালানোর সহজ উপায় আছে, ম্যানুয়ালি না করে? (যদি এই প্রশ্নটি এখানে যথাযথ না হয় তবে আমি এটিকে আর ফোরামে ফিরিয়ে নিতে পারি))

উত্তর:


16

এখানে একটি সামান্য তথ্য যা আপনাকে সঠিক দিকে নির্দেশ করতে পারে।

আপনার ডেটা সম্পর্কিত, আপনার যা রয়েছে তা একাধিক বিভাগের সাথে একটি প্রতিক্রিয়া, এবং যে কোনও সময় আপনি কোনও প্রতিক্রিয়া মডেল করার চেষ্টা করছেন যা শ্রেণিবদ্ধ হয় আপনি কিছু ধরণের জেনারালাইজড লিনিয়ার মডেল (জিএলএম) ব্যবহার করার চেষ্টা করেন। আপনার ক্ষেত্রে আপনার অতিরিক্ত তথ্য রয়েছে যা আপনার প্রতিক্রিয়া সম্পর্কিত আপনাকে অবশ্যই বিবেচনায় নিতে হবে এবং তা হ'ল আপনার প্রতিক্রিয়া স্তরের একটি প্রাকৃতিক ক্রম ভাল> মাঝারি> খারাপ রয়েছে, লক্ষ্য করুন যে কোনও প্রতিক্রিয়ার মডেল দেওয়ার চেষ্টা করার চেয়ে এটি কীভাবে পৃথক, যেমন কোনও রঙের বেলুন (লাল / নীল / সবুজ) কেনার সম্ভাবনা রয়েছে, এই মানগুলির কোনও প্রাকৃতিক ক্রম নেই। অর্ডারযুক্ত প্রতিক্রিয়া সহ এই ধরণের মডেলটি করার সময় আপনি একটি আনুপাতিক প্রতিকূল মডেলটি বিবেচনা করতে পারেন।

http://en.wikipedia.org/wiki/Ordered_logit

আমি নিজে এটি ব্যবহার করি নি, তবে polr()এমএএসএস প্যাকেজটিতে ফাংশনটি কিছুটা ব্যবহারের হতে পারে, বিকল্পভাবে আমি lrm()একই ধরণের বিশ্লেষণ করতে rms প্যাকেজে ফাংশনটি ব্যবহার করেছি এবং এটি বেশ কার্যকর বলে মনে করেছি। আপনি যদি এই প্যাকেজগুলি লোড করেন তবে কেবল ব্যবহার করুন ?polrবা ?lrmফাংশন তথ্যের জন্য।

ঠিক আপনার পর্যায়ে ব্যাকগ্রাউন্ড:

  1. এটি উপরে আচ্ছাদিত করা উচিত, এই প্যাকেজগুলি / ফাংশনগুলি পরীক্ষা করে দেখুন এবং লডিকাল লজিস্টিক রিগ্রেশন এবং আনুপাতিক বৈষম্যের মডেলগুলি পড়ুন

  2. শ্রেণিবদ্ধ (রেস / লিঙ্গ / চুলের রঙ) যে কোনও সময় আপনার কোওরিয়েট থাকে আপনি উপযুক্তভাবে মডেল করার জন্য আপনার আর কোডিংয়ে এগুলিকে 'ফ্যাক্টর' হিসাবে বিবেচনা করতে চান। ফ্যাক্টর কী এবং কীভাবে তাদের সাথে চিকিত্সা করা হয় তা জানা গুরুত্বপূর্ণ, তবে মূলত আপনি প্রতিটি বিভাগকে আলাদা স্তর হিসাবে বিবেচনা করেন এবং তারপরে উপযুক্ত উপায়ে মডেল করেন model কেবলমাত্র মডেলগুলির কারণগুলি সম্পর্কে পড়ুন এবং আপনার যা চলছে তা আকাঙ্ক্ষিত করতে সক্ষম হওয়া উচিত। মনে রাখবেন যে শ্রেণীবদ্ধ ভেরিয়েবলকে কারণ হিসাবে চিকিত্সা করা গ্ল্যাম মডেল বা আনুপাতিক বৈষম্য মডেলগুলির পক্ষে অনন্য নয়, তবে সাধারণত সমস্ত মডেল শ্রেণীবদ্ধ ভেরিয়েবলগুলির সাথে কীভাবে আচরণ করে। http://www.stat.berkeley.edu/classes/s133/factors.html

  3. হারিয়ে যাওয়া মানগুলি কখনও কখনও মোকাবেলায় ঝামেলা হতে পারে তবে আপনি যদি মোটামুটি মৌলিক বিশ্লেষণ করেন তবে অনুপস্থিত মানগুলিতে থাকা ডাটা সারিগুলি সরিয়ে ফেলা সম্ভবত এটি নিরাপদ (এটি সর্বদা সত্য নয়, তবে আপনার বর্তমান অভিজ্ঞতার স্তরের ভিত্তিতে আমি করছি) অনুমান করা আপনার কখন অনুপস্থিত মানগুলির সাথে কীভাবে আচরণ করবেন তার সুনির্দিষ্টতার সাথে উদ্বিগ্ন হওয়ার দরকার নেই)। আসলে এটি আর কি করে তা অনেকটাই। আপনি যদি এমন কোনও ডেটা রাখেন যা আপনি মডেল হিসাবে ব্যবহার করছেন, আপনি যদি আপনার প্রতিক্রিয়াটির জন্য একটানা তথ্য হারিয়ে ফেলছেন বা মডেল আর এর কোনও কোভারিয়েট কেবল এই ডেটা বাদ দিতে চলেছে (এটি হ'ল সতর্কতাটি আপনার দেখায়)। স্পষ্টতই যদি আপনি নিখোঁজ হওয়ার কারণে আপনার ডেটার একটি বৃহত অংশকে বাদ দিচ্ছেন তবে আপনার ফলাফল পক্ষপাতদুষ্ট হতে পারে এবং কেন এত বেশি মূল্যবোধ রয়েছে তা সম্পর্কে আরও কিছু তথ্য পাওয়ার চেষ্টা করা ভাল তবে আপনি যদি ' 10,000 সারি ডেটাতে 162 টি পর্যবেক্ষণ মিস করছি আমি এটি খুব বেশি ঘাম করব না would আপনি যদি আরও কিছু সুনির্দিষ্ট বিষয়ে আগ্রহী হন তবে অনুপস্থিত ডেটা হ্যান্ডল করার পদ্ধতিগুলিতে গুগল আপ করতে পারেন।

  4. প্রায় সব আর মডেল বস্তু ( lm, glm, lrm, ...) একটি যুক্ত থাকবে predict()ফাংশন যা আপনি অন্য ডেটা সেটটি, যা তোমাদের জন্য একটি ফলাফল ভবিষ্যদ্বাণী করা করতে ইচ্ছুক আপনার বর্তমান মডেলিং ডেটা সেটটি জন্য আগাম অনুমান মান নির্ণয় এবং অতিরিক্ত করার অনুমতি দেবে। আপনি যে মডেল টাইপের সাথে কাজ করতে চান তার জন্য কেবল অনুসন্ধান করুন ?predict.glmবা ?predict.lmচেষ্টা করুন এবং আরও কিছু তথ্য পান। এটি এমন একটি সাধারণ জিনিস যা লোকেরা মডেলগুলির সাথে করতে চায় তাই নিশ্চিত হন যে কিছু ফাংশন এবং পদ্ধতিতে এমন কিছু নির্মিত যা অপেক্ষাকৃত সহজবোধ্য করা উচিত।

ভাগ্য সুপ্রসন্ন হোক!


2
  1. হ্যাঁ, অর্ডার করা লগইট বা প্রবিটটি যেখানে শুরু হবে। অর্ডারযুক্ত লগইটের একটি টিউটোরিয়াল যা আর ব্যবহার করে CV

  2. kk1caucasian

  3. নিখোঁজ ডেটা নিয়ে কাজ করা হাতের সমস্যার উপর নির্ভর করে এবং হ্যাঁ, আপনি কীভাবে নিখোঁজ হওয়া ডেটা নিয়ে কাজ করেন তা পক্ষপাতিত্বের পরিচয় দিতে পারে। এই বইয়ের অংশটি চারটি প্রক্রিয়া বিশদভাবে বর্ণনা করেছে যা অনুপস্থিত ডেটা তৈরি করতে পারে, যা আপনাকে নিজের সমস্যাটিতে সম্ভাব্য পক্ষপাত বিবেচনা করতে সহায়তা করবে। (বিশেষত, বিভাগ 25.1, পৃষ্ঠা 530.)

  4. অনেকগুলি মডেলিং প্যাকেজগুলির predictমধ্যে কোনও না কোনও ধরণের কাজ রয়েছে এবং প্রকৃতপক্ষে উপরের লিঙ্কযুক্ত প্রথম টিউটোরিয়ালটিতে একটি প্রদর্শন রয়েছে।


অনেক ধন্যবাদ! # 2 এ তাত্ক্ষণিক অনুসরণ: এটি আমার প্রাথমিক অনুমান ছিল - তবে কোডটি কী আরও দুটি ভেরিয়েবলের বেশি? উদাহরণস্বরূপ, ককেশিয়ান, কালো, ল্যাটিনো।
রায়ান

বেশ স্বাগত! এই উদাহরণে, আপনি অন্য দুটিটির জন্য ইন্টারসেপ্ট, বল latinoএবং ডামিগুলিতে সাবস্ক্রাইব করার জন্য একটি বিভাগ পছন্দ করবেন । caucasianডামির জন্য একটি 1 মান একটি ককেশীয় উত্তরদাতাকে নির্দেশ করে, এটি blackডামি ভেরিয়েবলের অনুরূপ । উভয়ের জন্য একটি 0 মান ল্যাটিনোর উত্তরদাতাকে নির্দেশ করে। ধারণা তৈরী কর?
শন ইস্টার

সুতরাং আমি কি কেবলমাত্র একাধিক প্রতিক্রিয়া ('কালো,' 'ককেশিয়ান,' এবং 'ল্যাটিনো') দিয়ে একটি কলাম থেকে ডেটাসেটটি 1s এবং 0 এর সাথে একটি 'কালো' কলামে, 1 এস এবং 0 এর সাথে একটি 'ককেশীয়' কলামে পরিবর্তন করতে পারি এবং একটি 'ল্যাটিনো' কলামটি 1 ও 0 এর সাথে আছে?
রায়ান

এটি এক পদ্ধতির যা ভাল কাজ করবে। দুটি কলাম ব্যবহার করা থেকে একমাত্র পার্থক্য হ'ল আপনি কীভাবে ইন্টারসেপ্টটি ব্যাখ্যা করেন। আপনি এটি ম্যানুয়ালি করতে পারেন, তবে আমি বিশ্বাস করি আর এর কারণগুলি আপনার পক্ষে এটি পরিচালনা করতে পারে। ব্যবহার করে দেখুন এই একটি অনুরূপ উদাহরণ কারণের ব্যবহার মাধ্যমে -এটা দিয়ে হেঁটে যাচ্ছে। চিয়ার্স!
শন ইস্টার

1
টিউটোরিয়ালটির লিঙ্কটি নষ্ট হয়ে গেছে। কেউ যদি এটি ঠিক করতে পারে, তবে দুর্দান্ত হবে!
ড্যান হিক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.