লগইট মডেলটিতে, প্রতিটি স্তরের জন্য ডামি ভেরিয়েবল ব্যবহার করার চেয়ে স্বতন্ত্র অর্ডিনাল ভেরিয়েবলের প্রভাব নির্ধারণের কোনও চতুর উপায় কী?
লগইট মডেলটিতে, প্রতিটি স্তরের জন্য ডামি ভেরিয়েবল ব্যবহার করার চেয়ে স্বতন্ত্র অর্ডিনাল ভেরিয়েবলের প্রভাব নির্ধারণের কোনও চতুর উপায় কী?
উত্তর:
@ Dmk38 এর প্রতিক্রিয়ায় যোগ করতে, "স্কোরের কোনও সেট বৈধ পরীক্ষা দেয় , যদি তারা পরীক্ষার ফলাফলের পরামর্শ নিয়েই তৈরি করা হয় score আদেশযুক্ত শ্রেণিবদ্ধকরণ, পরীক্ষা সংবেদনশীল হবে না therefore সুতরাং স্কোরগুলি শ্রেণীবদ্ধকরণটি কীভাবে নির্মিত এবং ব্যবহৃত হয়েছিল সে সম্পর্কে সর্বোত্তম অন্তর্দৃষ্টি উপলব্ধ করা উচিত "" (কোচরান, 1954, এগ্রেস্তি দ্বারা উদ্ধৃত, 2002, পৃষ্ঠা: 88-89) অন্য কথায়, একটি অর্ডারযুক্ত ফ্যাক্টরটিকে সংখ্যাসূচক স্কোর ভেরিয়েবল হিসাবে গণ্য করা কেবল একটি মডেলিংয়ের বিষয়। প্রদত্ত এটি বোঝা যায়, এটি কেবল আপনার ফলাফলটি ব্যাখ্যা করার পথে প্রভাব ফেলবে এবং কোনও সাধারণ ভেরিয়েবলের জন্য সর্বোত্তম উপস্থাপনা কীভাবে বেছে নেওয়া যায় তার কোনও থাম্বের কোনও নির্দিষ্ট নিয়ম নেই।
প্রসূতি অ্যালকোহল গ্রহণ এবং জন্মগত ত্রুটির উপস্থিতি বা অনুপস্থিতি সম্পর্কে নিম্নলিখিত উদাহরণটি বিবেচনা করুন (এগ্রেস্তি, শ্রেণিবদ্ধ ডেটা বিশ্লেষণ , টেবিল ৩.7 p.89):
0 <1 1-2 3-5 6+
Absent 17066 14464 788 126 37
Present 48 38 5 1 1
এই বিশেষ ক্ষেত্রে, আমরা লজিস্টিক রিগ্রেশন বা সাধারণ সমিতি টেবিল ব্যবহার করে ফলাফলটি মডেল করতে পারি model আরে এটি করা যাক:
tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
dimnames=list(c("Absent","Present"),
c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)
স্বাভাবিক (12.08, পি = 0.016751) অথবা এল আর (6.20, পি = 0.184562) পরিসংখ্যাত (4 df প্রয়োগ সঙ্গে) এলকোহল খরচ মধ্যে আদেশ স্তরের জন্য অ্যাকাউন্ট না।
উভয় ভেরিয়েবলকে সমানভাবে ব্যবধানযুক্ত স্কোরগুলির সাথে অরিডিনাল হিসাবে চিকিত্সা করা (এটির জন্য বাইনারি ভেরিয়েবলগুলির জন্য কোনও প্রভাব নেই, যেমন বিকৃতি হিসাবে আমরা বেসলাইনটি 0 = অনুপস্থিত হিসাবে বেছে নিই), আমরা লিনিয়ার সংস্থার দ্বারা লিনিয়ারের জন্য পরীক্ষা করতে পারি। আসুন প্রথমে এই সংঘাতের সারণির বিস্ফোরিত সংস্করণটি তৈরি করি:
library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1),
alcohol=gl(5,2,10,labels=colnames(tab3.7))),
c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check
তারপরে আমরা লিনিয়ার অ্যাসোসিয়েশন ব্যবহার করে পরীক্ষা করতে পারি
library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)
cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)
যেমন দেখা যায়, দুটি ভেরিয়েবলের মধ্যে সুস্পষ্ট মিলনের খুব বেশি প্রমাণ নেই। আগ্রেস্তি দ্বারা সম্পন্ন হিসাবে, আমরা যদি 0,0.5,1.5,4,7 as হিসাবে অ্যালকোহলের মাত্রাগুলি পুনরুদ্ধার করতে বেছে নিই, তবে এটি একটি অনুমান করা ধ্রুবক স্কেলের জন্য মধ্য-পরিসরের মানগুলি ব্যবহার করে যা শেষ স্কোরটি কিছুটা নির্বিচারে স্বেচ্ছাসেবী হয়ে থাকে, তবে আমরা উপসংহারে পৌঁছে যাব জন্মগত ত্রুটি-বিকাশের বিকাশে মাতৃত্বিক অ্যালকোহল সেবনের বৃহত্তর প্রভাবতে:
lbl_test(malform ~ alcohol, data=tab3.7.df,
scores=list(alcohol=c(0,0.5,1.5,4,7)))
0.01037 এর সম্পর্কিত পি-মান সহ 6.57 এর একটি পরীক্ষার পরিসংখ্যান পাওয়া যায়।
জিএলএম পদ্ধতির ব্যবহার করে আমরা নিম্নরূপে এগিয়ে চলব। তবে প্রথমে পরীক্ষা করুন যে অ্যালকোহল কীভাবে এন-এ এনকোড করা হয়েছে:
class(tab3.7.df$alcohol)
এটি একটি সাধারণ অর্ডারড ফ্যাক্টর ( "factor"
), সুতরাং নামমাত্র ভবিষ্যদ্বাণী। এখন, এখানে তিনটি মডেল হ'ল আমরা অ্যালকোহলকে নামমাত্র, নিয়মিত বা ক্রমাগত ভবিষ্যদ্বাণী হিসাবে বিবেচনা করি।
summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df,
family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df,
family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df,
family=binomial))
। ওয়াল্ড পরীক্ষাটি সাধারণ 5% স্তরে তাৎপর্যপূর্ণ নয়। এই ক্ষেত্রে, ডিজাইনের ম্যাট্রিক্সটিতে কেবল 2 টি কলাম রয়েছে: প্রথমটি হ'ল 1 টির একটি ধ্রুবক কলামটি ইন্টারসেপ্টের জন্য, দ্বিতীয়টি হ'ল প্রাক্কলনকারীটির সংখ্যাসূচক মান (1 থেকে 5), যেমন একটি সাধারণ লিনিয়ার রিগ্রেশন হিসাবে। সংক্ষেপে, এই মডেলটি ফলাফলের (লজিট স্কেলে) অ্যালকোহলের লিনিয়ার এফেক্টের জন্য পরীক্ষা করে।
তবে, অন্য দুটি ক্ষেত্রে ( mod1
এবং mod2
), আমরা আলাদা আউটপুট পাই কারণ প্রেডিক্টরকে মডেল করতে ব্যবহৃত নকশার ম্যাট্রিক্স পৃথক হয়, যা ব্যবহার করে পরীক্ষা করা যায়:
model.matrix(mod1)
model.matrix(mod2)
আমরা দেখতে পাই যে সম্পর্কিত ডিজাইনের ম্যাট্রিক্সের জন্যmod1
জন্য ডামি ভেরিয়েবল অন্তর্ভুক্ত রয়েছেmod2
mod1
mod2
অ্যালকোহলে নতুন স্কোর বরাদ্দ করার চেষ্টা করতে পারেন এবং দেখুন কীভাবে এটি কোনও ত্রুটির সম্ভাব্যতার উপর প্রভাব ফেলবে।
মাত্রাগুলি যদি নিয়মিত হয় তবে লগিট (বা ওএলএস) রিগ্রেশন মডেলটিতে শ্রেণিবদ্ধ ভবিষ্যদ্বাণী ব্যবহার করা পুরোপুরি ঠিক। তবে যদি আপনার প্রতিটি স্তরেরকে আলাদা হিসাবে বিবেচনা করার কারণ থাকে (বা যদি বাস্তবে আপনার শ্রেণিবদ্ধ পরিবর্তনশীল কেবল অর্ডিনালের পরিবর্তে নামমাত্র হয়), তবে ডামি কোডিংয়ের বিকল্প হিসাবে, আপনি অर्थোগোনাল কনট্রাস্ট কোডিংও ব্যবহার করতে পারেন। খুব সম্পূর্ণ এবং অ্যাক্সেসযোগ্য আলোচনার জন্য, জুড, সিএম, ম্যাকক্লেল্যান্ড, জিএইচ এবং রায়ান, সিএস ডেটা বিশ্লেষণ: মডেল তুলনা পদ্ধতির, এডন দেখুন। 2nd। (রাউটলেজ / টেলর এবং ফ্রান্সিস, নিউ ইয়র্ক, এনওয়াই; ২০০৮), বা কেবল গুগল "কনট্রাস্ট কোডিং"