আপনি যা করেছেন তা লজিস্টিক রিগ্রেশন । এটি মূলত যে কোনও পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারে করা যেতে পারে এবং আউটপুটটি একই রকম হবে (অন্তত সামগ্রীতে, উপস্থাপনাটি ভিন্ন হতে পারে)। একটি নেই আর সঙ্গে পণ্য সরবরাহ সংশ্লেষণ গাইড ইউসিএলএ এর চমৎকার পরিসংখ্যান সাহায্যের ওয়েবসাইটে। আপনি যদি এটির সাথে অপরিচিত থাকেন তবে আমার উত্তর এখানে: লগইট এবং প্রবিট মডেলগুলির মধ্যে পার্থক্য , এলআর সম্পর্কে কী তা বুঝতে আপনাকে সহায়তা করতে পারে (যদিও এটি ভিন্ন প্রসঙ্গে লেখা হয়েছে)।
আপনি দুটি মডেল উপস্থাপন করেছেন বলে মনে হচ্ছে, আমি প্রাথমিকভাবে শীর্ষের দিকে মনোনিবেশ করব। এ ছাড়াও অনুলিপি এবং মডেল অথবা আউটপুট পেস্ট, তাই আমি অদলবদল হবে একটি ত্রুটি হয়েছে বলে মনে হয় leaves.presence
সঙ্গে Area
আউটপুটে এটা মডেল সঙ্গে সামঞ্জস্যপূর্ণ করতে। এখানে আমি যে মডেলটির কথা উল্লেখ করছি তা এখানে (লক্ষ্য করুন যে আমি যুক্ত করেছি (link="logit")
, যা দ্বারা বোঝানো হয়েছে family=binomial
; দেখুন ? গ্ল্যাম এবং পরিবার? ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
আসুন এই আউটপুটটি দিয়ে চলুন (লক্ষ্য করুন যে আমি নীচের দ্বিতীয় লাইনে চলকের নাম পরিবর্তন করেছি Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
লিনিয়ার (ওএলএস) রিগ্রেশনটিতে যেমন রেসিডুয়াল রয়েছে, তেমনি লজিস্টিক রিগ্রেশন এবং অন্যান্য জেনারালাইজড লিনিয়ার মডেলগুলিতে রেসিডুয়াল থাকতে পারে। প্রতিক্রিয়া পরিবর্তনশীল অবিচ্ছিন্ন না হলে এগুলি আরও জটিল হয়। জিএলআইএমগুলিতে পাঁচটি বিভিন্ন ধরণের অবশিষ্টাংশ থাকতে পারে তবে তালিকাভুক্ত মানটি হ'ল বিচ্যুতি অবশিষ্টাংশ id ( ডিভ্যান্স এবং ডিভ্যান্সের অবশিষ্টাংশগুলি আরও উন্নত, সুতরাং আমি এখানে সংক্ষিপ্ত থাকব; যদি এই আলোচনাটি অনুসরণ করা কিছুটা কঠিন হয় তবে আমি খুব বেশি চিন্তা করব না, আপনি এড়িয়ে যেতে পারেন):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
আপনার মডেলটিতে ব্যবহৃত প্রতিটি ডেটা পয়েন্টের জন্য, সেই বিন্দুর সাথে সম্পর্কিত বিচ্যুতি গণনা করা হয়। প্রতিটি পয়েন্টের জন্য এটি করার পরে, আপনার কাছে এই জাতীয় অবশিষ্টাংশগুলির একটি সেট রয়েছে এবং উপরের আউটপুটটি কেবল তাদের বিতরণের একটি প্যারামিমেট্রিক বিবরণ।
পরবর্তী আমরা covariates সম্পর্কিত তথ্য দেখতে পাই, যা সাধারণত লোকেরা সাধারণত আগ্রহী:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0।) পরবর্তী কলামে, আমরা এই অনুমানগুলির সাথে যুক্ত স্ট্যান্ডার্ড ত্রুটি দেখি see এটি হ'ল, এগুলি একটি অনুমান যে গড়পড়তাভাবে, এই অনুমানগুলি প্রায় অদ্যাবধি উত্সাহিত হবে যদি অধ্যয়নটি একইভাবে পুনরায় চালানো হত তবে নতুন ডেটা সহ, বারবার। (আপনি যদি কোনও স্ট্যান্ডার্ড ত্রুটির ধারণার সাথে খুব বেশি পরিচিত না হন তবে আমার উত্তরটি এখানে পড়তে আপনাকে সহায়তা করতে পারে: রৈখিক প্রতিরোধের সহগ মানের ত্রুটিগুলি কীভাবে ব্যাখ্যা করা যায় ।) আমরা যদি স্ট্যান্ডার্ড ত্রুটির দ্বারা অনুমানটি বিভক্ত করি তবে আমরা একটি ভাগফল পান যা সাধারণত পর্যাপ্ত পরিমাণে নমুনার সাথে বিতরণ করা হয় বলে ধরে নেওয়া হয়। এই মান অধীনে তালিকাভুক্ত করা হয় z value
। নীচে Pr(>|z|)
দুটি লেজযুক্ত পি-মান তালিকাভুক্ত করা হয়েছেযা একটি সাধারণ সাধারণ বিতরণে সেই জেড-মানগুলির সাথে সামঞ্জস্য। শেষ অবধি, প্রচলিত তাত্পর্যপূর্ণ তারা রয়েছে (এবং সহগের টেবিলের নীচে কীটি নোট করুন)।
Dispersion
লাইন GLiMs সঙ্গে ডিফল্টরূপে ছাপা হয়, কিন্তু এখানে অনেক তথ্য যোগ না (এটা গণনা মডেল, যেমন সঙ্গে আরো গুরুত্বপূর্ণ)। আমরা এটিকে উপেক্ষা করতে পারি।
শেষ পর্যন্ত, আমরা মডেল এবং এটির ফিটনের ভালতা সম্পর্কে তথ্য পাই:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
প্রায় লাইন missingness
প্রায়শই, উম, অনুপস্থিত। এখানে দেখায় কারণ আপনার, যার জন্য হয় 314 পর্যবেক্ষণ ছিল leaves.presence
, Area
বা উভয় অনুপস্থিত ছিল। এই আংশিক পর্যবেক্ষণগুলি মডেল ফিট করার জন্য ব্যবহৃত হয়নি।
Residual deviance
Null deviance
Estimate
Area
এফ
এআইসি হইয়া ধার্মিকতা আরেকটি পরিমাপ যে অ্যাকাউন্টে ডেটা মাপসই মডেল ক্ষমতা নেয়। দুটি মডেলের সাথে তুলনা করার সময় এটি খুব কার্যকর যেখানে কোনওটি আরও ভাল ফিট করতে পারে তবে সম্ভবত কেবল আরও নমনীয় হওয়ার কারণে এবং যে কোনও ডেটা মাপসই করতে সক্ষম। যেহেতু আপনার কেবলমাত্র একটি মডেল রয়েছে তাই এটি তথ্যহীন।
Fisher scoring iterations
মডেলটি কীভাবে অনুমান করা হয়েছিল তার সাথে রেফারেন্স করতে হবে। রৈখিক মডেল বন্ধ ফর্ম সমীকরণগুলি সমাধান করে ফিট করা যায়। দুর্ভাগ্যক্রমে, লজিস্টিক রিগ্রেশন সহ বেশিরভাগ জিএলআইএম দিয়ে এটি করা যায় না। পরিবর্তে, একটি পুনরাবৃত্তি পদ্ধতির ( ডিফল্টরূপে নিউটন-রাফসন অ্যালগরিদম ) ব্যবহৃত হয়। আলগাভাবে, মডেলগুলি অনুমানগুলি কী হতে পারে তার অনুমানের ভিত্তিতে ফিট। এরপরে অ্যালগরিদমটি চারপাশে তাকান যে পরিবর্তে বিভিন্ন প্রাক্কলন ব্যবহার করে ফিটের উন্নতি হবে কিনা to যদি তা হয় তবে এটি সেই দিকে চলে যায় (বলুন, অনুমানের জন্য একটি উচ্চতর মান ব্যবহার করে) এবং তারপরে আবার মডেলটিকে ফিট করে। অ্যালগরিদম থমকে যায় যখন বুঝতে পারে না যে আবার সরে যাওয়ার ফলে আরও অতিরিক্ত উন্নতি হবে। প্রক্রিয়াটি থামার আগে এবং ফলাফলগুলি আউটপুট দেওয়ার আগে এই লাইনটি আপনাকে জানায় যে কতগুলি পুনরাবৃত্তি ছিল।
আপনার তালিকাভুক্ত দ্বিতীয় মডেল এবং আউটপুট সম্পর্কিত, এটি ফলাফল প্রদর্শন করার এক অন্যরকম উপায়। বিশেষত, এগুলি
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
উপরে বর্ণিত একই ধরণের অনুমানগুলি (যদিও ভিন্ন মডেল থেকে কম পরিপূরক তথ্যের সাথে উপস্থাপিত হয়)।