লগইট মডেলটিতে, প্রতিটি স্তরের জন্য ডামি ভেরিয়েবল ব্যবহার করার চেয়ে স্বতন্ত্র অর্ডিনাল ভেরিয়েবলের প্রভাব নির্ধারণের কোনও চতুর উপায় কী?
লগইট মডেলটিতে, প্রতিটি স্তরের জন্য ডামি ভেরিয়েবল ব্যবহার করার চেয়ে স্বতন্ত্র অর্ডিনাল ভেরিয়েবলের প্রভাব নির্ধারণের কোনও চতুর উপায় কী?
উত্তর:
@ Dmk38 এর প্রতিক্রিয়ায় যোগ করতে, "স্কোরের কোনও সেট বৈধ পরীক্ষা দেয় , যদি তারা পরীক্ষার ফলাফলের পরামর্শ নিয়েই তৈরি করা হয় score আদেশযুক্ত শ্রেণিবদ্ধকরণ, পরীক্ষা সংবেদনশীল হবে না therefore সুতরাং স্কোরগুলি শ্রেণীবদ্ধকরণটি কীভাবে নির্মিত এবং ব্যবহৃত হয়েছিল সে সম্পর্কে সর্বোত্তম অন্তর্দৃষ্টি উপলব্ধ করা উচিত "" (কোচরান, 1954, এগ্রেস্তি দ্বারা উদ্ধৃত, 2002, পৃষ্ঠা: 88-89) অন্য কথায়, একটি অর্ডারযুক্ত ফ্যাক্টরটিকে সংখ্যাসূচক স্কোর ভেরিয়েবল হিসাবে গণ্য করা কেবল একটি মডেলিংয়ের বিষয়। প্রদত্ত এটি বোঝা যায়, এটি কেবল আপনার ফলাফলটি ব্যাখ্যা করার পথে প্রভাব ফেলবে এবং কোনও সাধারণ ভেরিয়েবলের জন্য সর্বোত্তম উপস্থাপনা কীভাবে বেছে নেওয়া যায় তার কোনও থাম্বের কোনও নির্দিষ্ট নিয়ম নেই।
প্রসূতি অ্যালকোহল গ্রহণ এবং জন্মগত ত্রুটির উপস্থিতি বা অনুপস্থিতি সম্পর্কে নিম্নলিখিত উদাহরণটি বিবেচনা করুন (এগ্রেস্তি, শ্রেণিবদ্ধ ডেটা বিশ্লেষণ , টেবিল ৩.7 p.89):
0 <1 1-2 3-5 6+
Absent 17066 14464 788 126 37
Present 48 38 5 1 1
এই বিশেষ ক্ষেত্রে, আমরা লজিস্টিক রিগ্রেশন বা সাধারণ সমিতি টেবিল ব্যবহার করে ফলাফলটি মডেল করতে পারি model আরে এটি করা যাক:
tab3.7 <- matrix(c(17066,48,14464,38,788,5,126,1,37,1), nr=2,
dimnames=list(c("Absent","Present"),
c("0","<1","1-2","3-5","6+")))
library(vcd)
assocstats(tab3.7)
স্বাভাবিক (12.08, পি = 0.016751) অথবা এল আর (6.20, পি = 0.184562) পরিসংখ্যাত (4 df প্রয়োগ সঙ্গে) এলকোহল খরচ মধ্যে আদেশ স্তরের জন্য অ্যাকাউন্ট না।
উভয় ভেরিয়েবলকে সমানভাবে ব্যবধানযুক্ত স্কোরগুলির সাথে অরিডিনাল হিসাবে চিকিত্সা করা (এটির জন্য বাইনারি ভেরিয়েবলগুলির জন্য কোনও প্রভাব নেই, যেমন বিকৃতি হিসাবে আমরা বেসলাইনটি 0 = অনুপস্থিত হিসাবে বেছে নিই), আমরা লিনিয়ার সংস্থার দ্বারা লিনিয়ারের জন্য পরীক্ষা করতে পারি। আসুন প্রথমে এই সংঘাতের সারণির বিস্ফোরিত সংস্করণটি তৈরি করি:
library(reshape)
tab3.7.df <- untable(data.frame(malform=gl(2,1,10,labels=0:1),
alcohol=gl(5,2,10,labels=colnames(tab3.7))),
c(tab3.7))
# xtabs(~malform+alcohol, tab3.7.df) # check
তারপরে আমরা লিনিয়ার অ্যাসোসিয়েশন ব্যবহার করে পরীক্ষা করতে পারি
library(coin)
#lbl_test(as.table(tab3.7))
lbl_test(malform ~ alcohol, data=tab3.7.df)
cor(sapply(tab3.7.df, as.numeric))[1,2]^2*(32574-1)
যেমন দেখা যায়, দুটি ভেরিয়েবলের মধ্যে সুস্পষ্ট মিলনের খুব বেশি প্রমাণ নেই। আগ্রেস্তি দ্বারা সম্পন্ন হিসাবে, আমরা যদি 0,0.5,1.5,4,7 as হিসাবে অ্যালকোহলের মাত্রাগুলি পুনরুদ্ধার করতে বেছে নিই, তবে এটি একটি অনুমান করা ধ্রুবক স্কেলের জন্য মধ্য-পরিসরের মানগুলি ব্যবহার করে যা শেষ স্কোরটি কিছুটা নির্বিচারে স্বেচ্ছাসেবী হয়ে থাকে, তবে আমরা উপসংহারে পৌঁছে যাব জন্মগত ত্রুটি-বিকাশের বিকাশে মাতৃত্বিক অ্যালকোহল সেবনের বৃহত্তর প্রভাবতে:
lbl_test(malform ~ alcohol, data=tab3.7.df,
scores=list(alcohol=c(0,0.5,1.5,4,7)))
0.01037 এর সম্পর্কিত পি-মান সহ 6.57 এর একটি পরীক্ষার পরিসংখ্যান পাওয়া যায়।
জিএলএম পদ্ধতির ব্যবহার করে আমরা নিম্নরূপে এগিয়ে চলব। তবে প্রথমে পরীক্ষা করুন যে অ্যালকোহল কীভাবে এন-এ এনকোড করা হয়েছে:
class(tab3.7.df$alcohol)
এটি একটি সাধারণ অর্ডারড ফ্যাক্টর ( "factor"), সুতরাং নামমাত্র ভবিষ্যদ্বাণী। এখন, এখানে তিনটি মডেল হ'ল আমরা অ্যালকোহলকে নামমাত্র, নিয়মিত বা ক্রমাগত ভবিষ্যদ্বাণী হিসাবে বিবেচনা করি।
summary(mod1 <- glm(malform ~ alcohol, data=tab3.7.df,
family=binomial))
summary(mod2 <- glm(malform ~ ordered(alcohol), data=tab3.7.df,
family=binomial))
summary(mod3 <- glm(malform ~ as.numeric(alcohol), data=tab3.7.df,
family=binomial))
। ওয়াল্ড পরীক্ষাটি সাধারণ 5% স্তরে তাৎপর্যপূর্ণ নয়। এই ক্ষেত্রে, ডিজাইনের ম্যাট্রিক্সটিতে কেবল 2 টি কলাম রয়েছে: প্রথমটি হ'ল 1 টির একটি ধ্রুবক কলামটি ইন্টারসেপ্টের জন্য, দ্বিতীয়টি হ'ল প্রাক্কলনকারীটির সংখ্যাসূচক মান (1 থেকে 5), যেমন একটি সাধারণ লিনিয়ার রিগ্রেশন হিসাবে। সংক্ষেপে, এই মডেলটি ফলাফলের (লজিট স্কেলে) অ্যালকোহলের লিনিয়ার এফেক্টের জন্য পরীক্ষা করে।
তবে, অন্য দুটি ক্ষেত্রে ( mod1এবং mod2), আমরা আলাদা আউটপুট পাই কারণ প্রেডিক্টরকে মডেল করতে ব্যবহৃত নকশার ম্যাট্রিক্স পৃথক হয়, যা ব্যবহার করে পরীক্ষা করা যায়:
model.matrix(mod1)
model.matrix(mod2)
আমরা দেখতে পাই যে সম্পর্কিত ডিজাইনের ম্যাট্রিক্সের জন্যmod1 জন্য ডামি ভেরিয়েবল অন্তর্ভুক্ত রয়েছেmod2mod1mod2
অ্যালকোহলে নতুন স্কোর বরাদ্দ করার চেষ্টা করতে পারেন এবং দেখুন কীভাবে এটি কোনও ত্রুটির সম্ভাব্যতার উপর প্রভাব ফেলবে।
মাত্রাগুলি যদি নিয়মিত হয় তবে লগিট (বা ওএলএস) রিগ্রেশন মডেলটিতে শ্রেণিবদ্ধ ভবিষ্যদ্বাণী ব্যবহার করা পুরোপুরি ঠিক। তবে যদি আপনার প্রতিটি স্তরেরকে আলাদা হিসাবে বিবেচনা করার কারণ থাকে (বা যদি বাস্তবে আপনার শ্রেণিবদ্ধ পরিবর্তনশীল কেবল অর্ডিনালের পরিবর্তে নামমাত্র হয়), তবে ডামি কোডিংয়ের বিকল্প হিসাবে, আপনি অर्थোগোনাল কনট্রাস্ট কোডিংও ব্যবহার করতে পারেন। খুব সম্পূর্ণ এবং অ্যাক্সেসযোগ্য আলোচনার জন্য, জুড, সিএম, ম্যাকক্লেল্যান্ড, জিএইচ এবং রায়ান, সিএস ডেটা বিশ্লেষণ: মডেল তুলনা পদ্ধতির, এডন দেখুন। 2nd। (রাউটলেজ / টেলর এবং ফ্রান্সিস, নিউ ইয়র্ক, এনওয়াই; ২০০৮), বা কেবল গুগল "কনট্রাস্ট কোডিং"