লজিস্টিক রিগ্রেশন মডেল রূপান্তর করে না


39

আমি বিমান সংস্থাগুলি সম্পর্কিত ফ্লাইটগুলি সম্পর্কে কিছু তথ্য পেয়েছি (নামক একটি ডেটা ফ্রেমে flights) এবং আমি দেখতে চাই যে ফ্লাইটের সময়টি উল্লেখযোগ্যভাবে বিলম্বিত আগমনের সম্ভাব্যতার উপর প্রভাব ফেলে কিনা (অর্থাত 10 বা তার বেশি মিনিট)। আমি অনুমান করেছি যে আমি লজিস্টিক রিগ্রেশন ব্যবহার করব, সাথে সাথে ভবিষ্যদ্বাণী হিসাবে ফ্লাইটের সময় এবং প্রতিটি ফ্লাইট উল্লেখযোগ্যভাবে বিলম্বিত হয়েছিল কিনা (প্রতিক্রিয়া হিসাবে বার্নোলিসের একগুচ্ছ)। আমি নিম্নলিখিত কোড ব্যবহার করেছি ...

flights$BigDelay <- flights$ArrDelay >= 10
delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
summary(delay.model)

... তবে নিম্নলিখিত আউটপুট পেয়েছি।

> flights$BigDelay <- flights$ArrDelay >= 10
> delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit"))
Warning messages:
1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart,  :
  algorithm did not converge
2: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart,  :
  fitted probabilities numerically 0 or 1 occurred
> summary(delay.model)

Call:
glm(formula = BigDelay ~ ArrDelay, family = binomial(link = "logit"),
    data = flights)

Deviance Residuals:
       Min          1Q      Median          3Q         Max
-3.843e-04  -2.107e-08  -2.107e-08   2.107e-08   3.814e-04

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  -312.14     170.26  -1.833   0.0668 .
ArrDelay       32.86      17.92   1.833   0.0668 .
---
Signif. codes:  0 â***â 0.001 â**â 0.01 â*â 0.05 â.â 0.1 â â 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2.8375e+06  on 2291292  degrees of freedom
Residual deviance: 9.1675e-03  on 2291291  degrees of freedom
AIC: 4.0092

Number of Fisher Scoring iterations: 25

এর অর্থ কী যে অ্যালগরিদম রূপান্তরিত হয়নি? আমি ভেবেছিলাম এটা হতে কারণ BigDelayমান ছিল TRUEএবং FALSEপরিবর্তে 0এবং 1কিন্তু পরে আমি সবকিছু রূপান্তরিত আমি একই ভুল পেয়েছিলাম। কোন ধারনা?


প্রথম চিন্তা: নিখুঁত পৃথকীকরণ , যার অর্থ ভবিষ্যদ্বাণীকারী 'খুব ভাল', লগইটগুলি +/- অনন্তে চলে যায় এবং সমস্ত কিছু পড়ে যায়। দ্বিতীয় চিন্তা: কোডটি আপনার মনে হয় যা এটি করে তা কি করে? আপনার পরিবর্তনশীল নামগুলি আপনার বর্ণনার সাথে মেলে না বলে মনে হচ্ছে। আপনি সম্প্রসারিত পারে ডেটা আরো স্পষ্ট করে, কি, যেহেতু দেখে মনে হচ্ছে আপনি পারে নিজেই সঙ্গে কিছু ভবিষ্যদ্বাণী করা করার চেষ্টা করতে।
কনজুগেটপায়ার

1
নিশ্চিত না যে আমি "গ্রহণ" প্রাপ্য। @ কনজুগেট প্রাইর এর উত্তর ব্যাখ্যা করেছিল যে আপনার মডেলটিতে কী ভুল ছিল। আমি ভেবেছিলাম এটি অ্যালগরিদমের ক্ষেত্রে আপনি যে সতর্কতাটি উল্লেখ করেছেন তা ব্যাখ্যা করার উপযুক্ত ining
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

3
আপনার যদি সত্যিকারের বিলম্ব সময় হয় তবে আপনি বাইনারি ভেরিয়েবলকে হ্রাস না করে মডেলিংয়ের মাধ্যমে আরও ভাল তথ্য পেতে পারেন।
হোয়বার


আপনি glm1 () ফাংশন চেষ্টা করতে পারেন। এটি সমস্যার রূপান্তরটি কাটিয়ে উঠেছে

উত্তর:


33

glm()একটি পুনরাবৃত্ত পুনঃজনিত সর্বনিম্ন স্কোয়ার অ্যালগোরিদম ব্যবহার করে। সংকেত সংকেতের আগে অ্যালগরিদম অনুমোদিত সংখ্যার সর্বোচ্চ সংখ্যাকে আঘাত করে। ডিফল্ট, নথিতে ?glm.controlনথিযুক্ত 25. আপনি glmকলটিতে একটি তালিকা হিসাবে নিয়ন্ত্রণ পরামিতিগুলি পাস করেন :

delay.model <- glm(BigDelay ~ ArrDelay, data=flights, family=binomial,
                   control = list(maxit = 50))

@ কনজুগেট প্রাইরি যেমন বলেছে, মনে হচ্ছে আপনি এটি তৈরি করতে ব্যবহৃত ডেটা সহ প্রতিক্রিয়াটির পূর্বাভাস দিচ্ছেন। কোন আপনি সম্পূর্ণ বিচ্ছেদ আছে ArrDelay < 10ভবিষ্যদ্বাণী করা হবে FALSEএবং কোন ArrDelay >= 10ভবিষ্যদ্বাণী করা হবে TRUE। অন্যান্য সতর্কতা বার্তা আপনাকে বলে যে কিছু পর্যবেক্ষণের জন্য লাগানো সম্ভাব্যতা কার্যকরভাবে 0 বা 1 ছিল এবং এটি একটি ভাল সূচক যা আপনার মডেলটির সাথে কিছু ভুল wrong

দু'জনেই সতর্কবাণী একসাথে যেতে পারে। আপনার উদাহরণ হিসাবে যেমন কিছু বড় হয়ে যায় তখন সম্ভাবনা কার্যটি বেশ সমতল হতে পারে । আপনি যদি আরও পুনরাবৃত্তির অনুমতি দেন তবে আপনার বিচ্ছেদ সমস্যা থাকলে মডেল সহগগুলি আরও বিচ্যুত হবে।β^i


আপনি এখানে মডেল কনভার্জেশন বলতে আসলে কী বোঝাতে পারেন?
বাচ

1
রূপান্তর দ্বারা আমার অর্থ মডেলটিতে অনুমান করা পরামিতিগুলি পুনরাবৃত্তির মধ্যে পরিবর্তন হয় না (বা কেবল কিছু ছোট সহনশীলতার চেয়ে কম পরিবর্তন হয়)। পুনরাবৃত্তির সীমাবদ্ধতার কারণে এখানে প্যারামিটারগুলি ক্রমশ বড় হয়ে ওঠা এবং স্টপিং স্টপগুলি পেতে থাকে তবে প্যারামিটারের অনুমানগুলি পেনালিউমেট এবং শেষ পুনরাবৃত্তির মধ্যে এবং যেমন রূপান্তরিত হয় নি এর মধ্যে অনেক পরিবর্তন হয়েছিল।
মনিকা পুনরায় ইনস্টল করুন - জি। সিম্পসন

6

ফার্থের পক্ষপাতিত্ব হ্রাস আপনার ডেটাসেটের সাথে কাজ করে কিনা তা আপনি খতিয়ে দেখার চেষ্টা করতে পারেন। এটি একটি দন্ডিত সম্ভাবনা পদ্ধতির যা ডেটাসেটগুলির জন্য কার্যকর হতে পারে যা স্ট্যান্ডার্ড glmপ্যাকেজটি ব্যবহার করে ডাইভারজেন্স তৈরি করে । কখনও কখনও এটি সম্পূর্ণরূপে / প্রায় সম্পূর্ণ বিভাজন উত্পাদন করে যে পরিবর্তনশীল মুছে ফেলার পরিবর্তে ব্যবহার করা যেতে পারে।

পক্ষপাত হ্রাস গঠনের জন্য ( -সামান্য সম্ভাবনা অনুমানকারকের পক্ষপাতের অ্যাসিপটোটিক সম্প্রসারণের শর্তাবলী প্রেরণাদায়ক উদাহরণ হিসাবে শাস্ত্রীয় সংযোজন প্রসারণ ব্যবহার করে অপসারণ করা হয়) দয়া করে http: // বায়োমেট পরীক্ষা করুন । oxfordjournals.org/content/80/1/27.abstractO(n1)

জন্মের পক্ষপাত হ্রাস আর-প্যাকেজে কার্যকর করা হয়েছে logistf: http://cran.r-project.org/web/packages/logistf/logistf.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.