আমি এগ্রেস্তি (2007) পড়ছি, শ্রেণিবদ্ধ ডেটা বিশ্লেষণের পরিচিতি , ২ য়। সংস্করণ, এবং নিশ্চিত না যে আমি এই অনুচ্ছেদটি (p.106, 4.2.1) সঠিকভাবে বুঝতে পেরেছি (যদিও এটি সহজ হওয়া উচিত):
পূর্ববর্তী অধ্যায়ে স্নোরিং ও হৃদরোগ সম্পর্কিত সারণী 3.1-এ 254 টি বিষয় প্রতি রাতে শামুক খাওয়ার রিপোর্ট করেছে, যার মধ্যে 30 জনকে হৃদরোগ হয়েছে। যদি ডেটা ফাইলটিতে বাইনারি ডেটা গোষ্ঠী করা থাকে তবে ডেটা ফাইলের একটি লাইন 254 আকারের একটি নমুনা আকারের হার্ট ডিজিজের 30 টি হিসাবে এই তথ্যগুলিকে রিপোর্ট করে। পৃথক বিষয়, সুতরাং 30 লাইনে হৃদরোগের জন্য 1 এবং 224 লাইনে হৃদরোগের জন্য 0 রয়েছে contain উভয় প্রকারের ডেটা ফাইলের জন্য এমএল অনুমান এবং এসই মানগুলি একই।
অগোষ্ঠী ডেটা (1 নির্ভরশীল, 1 স্বতন্ত্র) একটি সেটকে রূপান্তর করতে সমস্ত তথ্য অন্তর্ভুক্ত করতে "লাইন" বেশি লাগবে !?
নিম্নলিখিত উদাহরণে একটি (অবাস্তব!) সাধারণ ডেটা সেট তৈরি করা হয় এবং একটি লজিস্টিক রিগ্রেশন মডেল তৈরি করা হয়।
গোষ্ঠীভুক্ত ডেটা আসলে কেমন হবে (ভেরিয়েবল ট্যাব?)? একই মডেলটি কীভাবে গ্রুপযুক্ত ডেটা ব্যবহার করে তৈরি করা যেতে পারে?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())