লজিস্টিক রিগ্রেশন নিখুঁত পৃথকীকরণ মোকাবেলা কিভাবে?


163

আপনার যদি এমন একটি ভেরিয়েবল থাকে যা শূন্যগুলি এবং টার্গেট ভেরিয়েবলগুলিকে পুরোপুরি পৃথক করে, আর নিম্নলিখিত নীচের "নিখুঁত বা কোটির নিখুঁত বিচ্ছেদ" সতর্কতা বার্তা দেবে:

Warning message:
glm.fit: fitted probabilities numerically 0 or 1 occurred 

আমরা এখনও মডেলটি পাই তবে সহগের অনুমানগুলি স্ফীত হয়।

বাস্তবে আপনি এটিকে কীভাবে মোকাবিলা করবেন?



1
নিয়মিতকরণ সম্পর্কিত সম্পর্কিত প্রশ্ন এবং ডেমো এখানে
হাইটাও ডু

উত্তর:


100

এর সমাধান হ'ল একপ্রকার দণ্ডিত রিগ্রেশনকে ব্যবহার করা। আসলে, এটিই মূল কারণ যাবতীয় দন্ডিত রিগ্রেশন ফর্মগুলি বিকাশ করা হয়েছিল (যদিও তাদের অন্যান্য আকর্ষণীয় বৈশিষ্ট্য রয়েছে বলে প্রমাণিত হয়েছে।

আর এ প্যাকেজ গ্ল্যামনেট ইনস্টল করুন এবং লোড করুন এবং আপনি বেশিরভাগ ক্ষেত্রে প্রস্তুত ready গ্ল্যামনেটের ব্যবহারকারী-বান্ধব দিকগুলির মধ্যে একটি হ'ল আপনি কেবল ম্যাট্রিককেই খাওয়াতে পারেন, আমাদের ব্যবহৃত সূত্রগুলি নয়। তবে আপনি মডেল.ম্যাট্রিক্স এবং একটি ডাটা.ফ্রেম এবং একটি সূত্র থেকে এই ম্যাট্রিক্সটি তৈরির মতো দেখতে পারেন ...

এখন, আপনি যখন আশা করেন যে এই নিখুঁত বিচ্ছেদটি কেবল আপনার নমুনার একটি উপজাত নয়, তবে জনসংখ্যায় সত্য হতে পারে, আপনি বিশেষভাবে এটি পরিচালনা করতে চান না : এই বিচ্ছিন্ন পরিবর্তনশীলটিকে কেবলমাত্র আপনার ফলাফলের একমাত্র ভবিষ্যদ্বাণী হিসাবে ব্যবহার করুন, না যে কোন ধরণের একটি মডেল নিয়োগ।


20
আপনি ক্যারেট প্যাকেজটির মাধ্যমে গ্ল্যামনেটের জন্য একটি সূত্র ইন্টারফেসও ব্যবহার করতে পারেন।
Zach

"এখন, আপনি যখন প্রত্যাশা করবেন ..." এ সম্পর্কিত প্রশ্ন। আমার একটি মামলা / নিয়ন্ত্রণ অধ্যয়ন আছে যা মাইক্রোবায়োমের সাথে সম্পর্কের দিকে তাকিয়ে আছে। আমাদের একটি চিকিত্সা রয়েছে যা প্রায় ক্ষেত্রেই পাওয়া যায়। তবে আমরা মনে করি চিকিত্সাটি মাইক্রোবায়োমেও প্রভাব ফেলতে পারে। এটি কি আপনার সতর্কতার উদাহরণ? হাইপোথিটিক্যালি আমরা গুচ্ছ আরও কিছু মামলা খুঁজে পেতে পারি যদি আমরা চেষ্টা করে চিকিত্সাটি ব্যবহার না করে তবে আমাদের যা আছে তা আমাদের কাছে রয়েছে।
abalter

142

আপনার কাছে বেশ কয়েকটি বিকল্প রয়েছে:

  1. কিছু পক্ষপাতদুষ্ট সরান।

    (ক) @ নিকের পরামর্শ অনুসারে সম্ভাবনাটিকে দণ্ডিত করে। আর এর মধ্যে প্যাকেজ লজিস্টফ বা এসএএসেরFIRTH বিকল্প রূপে PROC LOGISTICপ্রস্তাবিত পদ্ধতিটি প্রয়োগ করে (1993), "সর্বাধিক সম্ভাবনার অনুমানের বায়স হ্রাস", বায়োমেট্রিকা , ৮০ , ১; যা সর্বাধিক সম্ভাবনার প্রাক্কলন থেকে প্রথম-ক্রমের পক্ষপাতিত্ব সরিয়ে দেয়। ( এখানে @ গ্যাভিন brglmপ্যাকেজটির সুপারিশ করেছেন , যার সাথে আমি পরিচিত নই, তবে আমি সংগ্রহ করি এটি নন-লিওনাল লিঙ্ক ফাংশনগুলির জন্য অনুরূপ পদ্ধতির প্রয়োগ করে যেমন প্রবিট))

    (খ) সঠিক শর্তাধীন লজিস্টিক রিগ্রেশনটিতে মধ্য-পক্ষপাতহীন অনুমান ব্যবহার করে। আরে প্যাকেজ এলার্ম বা লজিস্টিক্স , বা EXACTএসএএস এর বিবৃতি PROC LOGISTIC

  2. ভবিষ্যদ্বাণীকারী বিভাগ বা মান সৃষ্টির বিচ্ছেদ ঘটে এমন ক্ষেত্রে বাদ দিন । এগুলি আপনার ক্ষেত্রের বাইরেও থাকতে পারে; বা আরও তদন্ত যোগ্য, তদন্ত। (আর প্যাকেজটি সেফবাইনারিআগ্রেশন সেগুলি সন্ধানের জন্য কার্যকর)

  3. মডেলটি পুনরায় কাস্ট করুন। সাধারণত এটি এমন কিছু যা আপনি যদি আগেই এটি সম্পর্কে ভাবতেন তবে আপনি এটি আগেই করতেন কারণ এটি আপনার নমুনা আকারের জন্য খুব জটিল।

    (ক) মডেল থেকে ভবিষ্যদ্বাণীকারী সরান । ডাইসি, @ সিমনের দেওয়া কারণে : "আপনি সেই ভবিষ্যদ্বাণীকে সরিয়ে দিচ্ছেন যা প্রতিক্রিয়াটিকে সর্বোত্তমভাবে ব্যাখ্যা করে"।

    (খ) ভবিষ্যদ্বাণীকারী বিভাগগুলি ভেঙে / ভবিষ্যদ্বাণীকের মানগুলিকে বিন্যস্ত করে। এটি যদি বোঝা যায় তবেই।

    (গ) পূর্বাভাসকারীকে মিথস্ক্রিয়া ছাড়াই দুটি (বা আরও) অতিক্রমকৃত উপাদান হিসাবে পুনরায় প্রকাশ করা । এটি যদি বোঝা যায় তবেই।

  4. @ মনোয়েলের পরামর্শ অনুসারে একটি বায়সিয়ান বিশ্লেষণ ব্যবহার করুন । যদিও এটি অসম্ভব বলে মনে হচ্ছে যে আপনি কেবল বিচ্ছেদের কারণে, তার অন্যান্য গুণাগুণ বিবেচনার জন্য উপযুক্ত। তিনি যে কাগজটি সুপারিশ করেছেন তিনি হলেন গেলম্যান এট আল (২০০৮), "লজিস্টিক এবং অন্যান্য রিগ্রেশন মডেলগুলির জন্য একটি দুর্বল তথ্যবহুল ডিফল্ট বিতরণ", আন । Appl। তাত্ক্ষণিকবাজার। , 2 , 4 : শূন্যের গড় এবং স্কেল সহ প্রতিটি গুণফলের জন্য প্রশ্নে ডিফল্ট হ'ল একটি স্বতন্ত্র কাউচির পূর্বে ; সমস্ত ক্রমাগত ভবিষ্যদ্বাণীকারীদের মান শূন্যের গড় এবং1 এরমানক বিচ্যুতি মানক করার পরে ব্যবহার করতে হবে52 । আপনি যদি দৃ strongly়ভাবে তথ্যবহুল প্রিয়ারদের ব্যাখ্যা করতে পারেন তবে আরও ভাল।12

  5. কিছু করনা. (তবে প্রোফাইল সম্ভাবনার উপর ভিত্তি করে আত্মবিশ্বাসের ব্যবধানগুলি গণনা করুন, যেমন স্ট্যান্ডার্ড ত্রুটির ওয়াল্ড অনুমানটি খারাপভাবে ভুল হবে)) একটি প্রায়শই ওভার-লুক অপশন। যদি মডেলটির উদ্দেশ্যটি কেবল ভবিষ্যদ্বাণীকারীদের এবং প্রতিক্রিয়াগুলির মধ্যে সম্পর্ক সম্পর্কে আপনি কী শিখেছেন তা বর্ণনা করার জন্য, 2.3 wardsর্ধ্বমুখী অনুপাতের প্রতিকূলতার জন্য একটি আত্মবিশ্বাসের ব্যবধানের উদ্ধৃতি দেওয়ার কোনও লজ্জা নেই। (আসলে নিরপেক্ষ অনুমানের ভিত্তিতে আত্মবিশ্বাসের ব্যবস্থাগুলি উদ্ধৃত করা মজাদার মনে হতে পারে যেগুলি ডেটা দ্বারা সমর্থিত প্রতিকূল অনুপাতগুলি বাদ দেয়)) আপনি যখন বিন্দু অনুমান ব্যবহার করে ভবিষ্যদ্বাণী করার চেষ্টা করছেন এবং যে ভবিষ্যদ্বাণীকারী পৃথকীকরণ ঘটে তা অন্যকে জলাঞ্জলি দেয় ble

  6. রাউসিউ ও ক্রাইস্টম্যান (2003), "লজিস্টিক রিগ্রেশনে বিচ্ছিন্নতা এবং বহিরাগতদের বিরুদ্ধে দৃ Rob়তা", গণনা সংক্রান্ত পরিসংখ্যান ও ডেটা অ্যানালাইসিস , 43 , 3 এবং বর্ণিত প্যাকেজ এইচএলআর-তে বাস্তবায়িত হিসাবে একটি লুকানো লজিস্টিক রিগ্রেশন মডেল ব্যবহার করুন । (@ ইউজার 603 এটি প্রস্তাব করে। ) আমি কাগজটি পড়িনি, তবে তারা বিমূর্তিতে বলেছে "আরও কিছু সাধারণ মডেল প্রস্তাব করা হয়েছে যার অধীনে পর্যবেক্ষিত প্রতিক্রিয়া দৃ strongly়ভাবে সম্পর্কিত তবে অলক্ষিত সত্য প্রতিক্রিয়ার সমান নয়", যা প্রস্তাব দেয় আমাকে যদি পদ্ধতিটি কল্পনাযোগ্য না মনে হয় তবে পদ্ধতিটি ব্যবহার করা ভাল ধারণা নাও।

  7. "সম্পূর্ণ বিচ্ছিন্নতা প্রদর্শনকারী ভেরিয়েবলগুলির মধ্যে 1 থেকে 0 বা 0 থেকে 1 পর্যন্ত কয়েকটি এলোমেলোভাবে নির্বাচিত পর্যবেক্ষণগুলি পরিবর্তন করুন": @ রবার্টএফ এর মন্তব্য । এই পরামর্শটি ডেটাতে তথ্যের অভাবের লক্ষণ না হয়ে সেচ্ছাকে পৃথকীকরণ সম্পর্কিত সমস্যা হিসাবে দেখা দিয়েছে বলে মনে হচ্ছে যা আপনাকে অন্যান্য সম্ভাব্যতাগুলি সর্বাধিক সম্ভাবনার প্রাক্কলনের তুলনায় পছন্দ করতে বা আপনি যেগুলি তৈরি করতে পারেন তার সাথে সীমাবদ্ধতা সীমাবদ্ধ করতে পারে might যুক্তিসঙ্গত নির্ভুলতা - এমন পদ্ধতির যাগুলির নিজস্ব গুণ রয়েছে এবং পৃথকীকরণের জন্য কেবল "স্থিরতা" নয়। ( একেবারে অবিশ্বাস্যরূপে এডহক হওয়া ছাড়াও , এটি বেশিরভাগের কাছেই অপ্রতিরোধ্য হয় যে বিশ্লেষকদের একই মুদ্রার একই প্রশ্ন জিজ্ঞাসা করা, একই অনুমান করা, একটি কয়েন টস বা যা-ই হোক না কেন ফলাফলের কারণে বিভিন্ন উত্তর দেওয়া উচিত।)


1
@ স্কার্টচি আরও একটি বিকল্প আছে (ধর্মীয়)) সম্পূর্ণ বিচ্ছিন্নতা প্রদর্শনকারী ভেরিয়েবলগুলির মধ্যে 1 থেকে 0 বা 0 থেকে 1 থেকে কয়েকটি এলোমেলোভাবে নির্বাচিত পর্যবেক্ষণগুলি পরিবর্তন সম্পর্কে কী?
রবার্টএফ

@ রবার্টএফ: ধন্যবাদ! আমি এটি সম্পর্কে ভাবিনি - আপনি যদি এর অভিনয় সম্পর্কে কোনও উল্লেখ করেন তবে আমি কৃতজ্ঞ হব be আপনি কি বাস্তবে এটি ব্যবহার করে লোক জুড়ে এসেছেন?
স্কর্চচি

@ স্কার্টচি - না, সম্পূর্ণ বিচ্ছেদ দূর করতে কৃত্রিম ডেটা যুক্ত গবেষকদের উল্লেখ রয়েছে, তবে ডেটা নির্বাচনী পরিবর্তন সম্পর্কে আমি কোনও নিবন্ধ পাইনি। এই পদ্ধতিটি কতটা কার্যকর হবে তা আমার কোনও ধারণা নেই।
রবার্টএফ

1
@ তাতামি: সমস্ত (বহু?) প্রোগ্রামগুলি সে প্রতি পার্থক্য সম্পর্কে সতর্ক করে, যা বেশ কয়েকটি ভেরিয়েবলের রৈখিক সংমিশ্রণে থাকলে তা স্পষ্ট করা মুশকিল হতে পারে, তবে রূপান্তর ব্যর্থতা এবং / অথবা ফিটেড মানগুলি অদূরে বা একের কাছাকাছি - আমি চাই সর্বদা এটি পরীক্ষা করুন।
স্কর্চচি

2
@ স্কার্টচি: আপনার উত্তরে খুব সুন্দর সংক্ষিপ্তসার। ব্যক্তিগতভাবে আমি Bayesian পদ্ধতির পক্ষপাতী কিন্তু এটি একটি frequentist পয়েন্ট অফ ভিউ থেকে সাধারণ ঘটনাটি সুন্দর বিশ্লেষণ কহতব্য এর projecteuclid.org/euclid.ejs/1239716414 । লেখক কিছু একতরফা আত্মবিশ্বাসের বিরতি সরবরাহ করে যা লজিস্টিক রিগ্রেশনটিতে সম্পূর্ণ বিচ্ছিন্নতার উপস্থিতিতেও ব্যবহার করা যেতে পারে।
সায়ান

55

এটি স্কর্চচি এবং মনোয়েলের উত্তরগুলির সম্প্রসারণ, তবে যেহেতু আপনি আরআই ব্যবহার করছেন বলে মনে হচ্ছে আমি কোনও কোড সরবরাহ করব। :)

আমি বিশ্বাস করি আপনার সমস্যার সবচেয়ে সহজ এবং সহজ সমাধান হ'ল গেলম্যান এট আল (২০০৮) এর প্রস্তাবিত অ-তথ্যমূলক পূর্ব অনুমান সহ একটি বয়েসীয় বিশ্লেষণ ব্যবহার করা। স্কোর্টচি যেমন উল্লেখ করেছেন, গেলম্যান সুপারিশ করেছেন মধ্যমা 0.0 এর আগে একটি কচিকে রাখুন এবং প্রতিটি গুণফলের (2.5 এর গড় গড় 0.0 এবং একটি 0.5 এর এসডি হওয়া স্বাভাবিক) স্কেল 2.5 করতে হবে। এটি সহগকে নিয়মিত করবে এবং এগুলিকে কিছুটা শূন্যের দিকে টানবে। এই ক্ষেত্রে এটি আপনি চান ঠিক কি। খুব প্রশস্ত লেজ থাকার কারণে কাচি এখনও গেলম্যান থেকে বৃহত সহগ (সংক্ষিপ্ত লেজযুক্ত সাধারণের বিপরীতে) এর জন্য অনুমতি দেয়:

এখানে চিত্র বর্ণনা লিখুন

কীভাবে এই বিশ্লেষণ চালানো যায়? আর্ম প্যাকেজেbayesglm ফাংশনটি ব্যবহার করুন যা এই বিশ্লেষণটি কার্যকর করে!

library(arm)

set.seed(123456)
# Faking some data where x1 is unrelated to y
# while x2 perfectly separates y.
d <- data.frame(y  =  c(0,0,0,0, 0, 1,1,1,1,1),
                x1 = rnorm(10),
                x2 = sort(rnorm(10)))

fit <- glm(y ~ x1 + x2, data=d, family="binomial")

## Warning message:
## glm.fit: fitted probabilities numerically 0 or 1 occurred 

summary(fit)
## Call:
## glm(formula = y ~ x1 + x2, family = "binomial", data = d)
##
## Deviance Residuals: 
##       Min          1Q      Median          3Q         Max  
## -1.114e-05  -2.110e-08   0.000e+00   2.110e-08   1.325e-05  
## 
## Coefficients:
##               Estimate Std. Error z value Pr(>|z|)
## (Intercept)    -18.528  75938.934       0        1
## x1              -4.837  76469.100       0        1
## x2              81.689 165617.221       0        1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1.3863e+01  on 9  degrees of freedom
## Residual deviance: 3.3646e-10  on 7  degrees of freedom
## AIC: 6
## 
## Number of Fisher Scoring iterations: 25

যে ভাল কাজ করে না ... এখন বায়েশিয়ান সংস্করণ:

fit <- bayesglm(y ~ x1 + x2, data=d, family="binomial")
display(fit)
## bayesglm(formula = y ~ x1 + x2, family = "binomial", data = d)
##             coef.est coef.se
## (Intercept) -1.10     1.37  
## x1          -0.05     0.79  
## x2           3.75     1.85  
## ---
## n = 10, k = 3
## residual deviance = 2.2, null deviance = 3.3 (difference = 1.1)

সুপার-সরল, না?

তথ্যসূত্র

গেলম্যান এট আল (২০০৮), "লজিস্টিক এবং অন্যান্য রিগ্রেশন মডেলগুলির জন্য দুর্বল তথ্যযুক্ত ডিফল্ট পূর্ব বিতরণ", আন। Appl। স্ট্যাটি।, 2, 4 http://projecteuclid.org/euclid.aoas/1231424214


6
নং খুব সহজ। আপনি সবেমাত্র কী করেছেন তা ব্যাখ্যা করতে পারবেন? এর আগে কী bayesglmব্যবহার হয়? যদি এমএল অনুমান একটি ফ্ল্যাট পূর্বে বায়েশিয়ান সমতুল্য হয়, অ-তথ্যমূলক প্রিরিয়াররা এখানে কীভাবে সহায়তা করবেন?
স্টাসকে

5
আরও কিছু তথ্য যুক্ত! পূর্বেরটি অস্পষ্ট তবে সমতল নয়। এর কিছুটা প্রভাব রয়েছে কারণ এটি অনুমানগুলি নিয়মিত করে এবং এগুলিকে 0.0 এর দিকে সামান্য টানায় যা আমি বিশ্বাস করি যে আপনি এই ক্ষেত্রে চান।
রাসমুস বুথ

> এম = বায়সগ্ল্যাম (ম্যাচ ~।, পরিবার = দ্বিপদী (লিঙ্ক = 'লজিট'), ডেটা = ডিএফ) সতর্কতা বার্তা: সংখ্যায় 0 বা 1 লাগানো সম্ভাব্যতা ভাল নয়!
ক্রিস

স্টার্টার হিসাবে, prior.dfকোনটি ডিফল্ট 1.0বা / বা হ্রাস prior.scaleকোন 2.5m=bayesglm(match ~. , family = binomial(link = 'logit'), data = df, prior.df=5)
ডিফল্টকে

1
আমরা মডেলটিতে pre.df বাড়ানোর সময় আমরা ঠিক কী করছি। আমরা কত উচ্চে যেতে চাই তার সীমা আছে? আমার বোধগম্যতা এটির ত্রুটির সঠিক অনুমানের সাথে সংযোগের জন্য মডেলকে বাধা দেয়?
হামিল্থজ

7

সর্বাধিক সম্ভাবনার ক্ষেত্রে "আধা-সম্পূর্ণ বিচ্ছেদ" ইস্যুগুলির সর্বাধিক গভীর ব্যাখ্যাগুলির মধ্যে একটি হ'ল পল অ্যালিসনের কাগজ। তিনি এসএএস সফ্টওয়্যার সম্পর্কে লিখছেন তবে তিনি যে বিষয়গুলি সম্বোধন করেছেন তা কোনও সফ্টওয়্যারেই সাধারণীকরণযোগ্য:

  • সম্পূর্ণ বিচ্ছেদ ঘটে যখনই x এর একটি লিনিয়ার ফাংশন y এর নিখুঁত পূর্বাভাস তৈরি করতে পারে

  • অর্ধ-সম্পূর্ণ বিচ্ছেদ ঘটে যখন (ক) সেখানে কিছু সংখ্যক ভেক্টর বি থাকে যেমন bxi ≥ 0 যখনই yi = 1 , এবং bxi ≤ 0 * যখনই ** yi = 0 এবং এই সমতাটি প্রতিটি বিভাগে কমপক্ষে একটি ক্ষেত্রে থাকে নির্ভরশীল পরিবর্তনশীল। সহজ কথায় অন্য কথায়, কোনও লজিস্টিক রিগ্রেশনে কোনও দ্বৈত স্বতন্ত্র পরিবর্তনশীলের জন্য, যদি সেই ভেরিয়েবল এবং নির্ভরশীল ভেরিয়েবল দ্বারা গঠিত 2 table 2 সারণিতে শূন্য থাকে, তবে রিগ্রেশন সহগের জন্য এমএল অনুমানের উপস্থিতি নেই।

অ্যালিসন ইতিমধ্যে সমস্যার সমাধানগুলি মুছে ফেলা, বিভাগগুলি ভেঙে ফেলা, কিছুই না করা, সঠিক লজিস্টিক রিগ্রেশন লাভ, বায়েসিয়ান অনুমান এবং সুনির্দিষ্ট সর্বাধিক সম্ভাবনার অনুমান সহ অনেকগুলি সমাধান আলোচনা করেছেন ।

http://www2.sas.com/proceedings/forum2008/360-2008.pdf


3

warning

লাইন বরাবর উত্পন্ন ডেটা সহ

x <- seq(-3, 3, by=0.1)
y <- x > 0
summary(glm(y ~ x, family=binomial))

সতর্কতা করা হয়:

Warning messages:
1: glm.fit: algorithm did not converge 
2: glm.fit: fitted probabilities numerically 0 or 1 occurred 

যা খুব স্পষ্টভাবে এই ডেটাগুলির মধ্যে নির্মিত নির্ভরতা প্রতিফলিত করে।

দ Wald, পরীক্ষা দিয়ে পাওয়া যায় summary.glmবা waldtestlmtestপ্যাকেজ। সম্ভাবনা অনুপাত পরীক্ষা দিয়ে সঞ্চালিত হয় anovaবা lrtestlmtestপ্যাকেজ। উভয় ক্ষেত্রেই, তথ্য ম্যাট্রিক্স অসীম মূল্যবান, এবং কোনও অনুমান পাওয়া যায় না। বরং, আর আউটপুট উত্পাদন করে তবে আপনি এটি বিশ্বাস করতে পারবেন না। এই ক্ষেত্রে আর যে অনুভূতিটি সাধারণত উত্পন্ন করে তার মধ্যে পি-মানগুলির খুব কাছাকাছি থাকে। এর কারণ হল ওআর মধ্যে নির্ভুলতার ক্ষতি হ্রাস মাত্রার অর্ডার যা ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সে যথার্থতার ক্ষতি হয়।

কিছু সমাধান এখানে বর্ণিত:

এক-পদক্ষেপের অনুমানকারী ব্যবহার করুন,

এক ধাপের অনুমানকারীগুলির নিম্ন পক্ষপাত, দক্ষতা এবং সাধারণকরণের পক্ষে অনেক তত্ত্ব রয়েছে। আর-তে কোনও এক-পদক্ষেপের অনুমানকারী নির্দিষ্ট করা সহজ এবং ফলাফলগুলি সাধারণত পূর্বাভাস এবং অনুমানের জন্য খুব অনুকূল। এবং এই মডেলটি কখনই বিচ্যুত হবে না, কারণ পুনরাবৃত্তকারী (নিউটন-রাফসন) কেবল এটি করার সুযোগ পায় না!

fit.1s <- glm(y ~ x, family=binomial, control=glm.control(maxit=1))
summary(fit.1s)

দেয়:

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -0.03987    0.29569  -0.135    0.893    
x            1.19604    0.16794   7.122 1.07e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

সুতরাং আপনি দেখতে পারেন ভবিষ্যদ্বাণীগুলি প্রবণতার দিককে প্রতিফলিত করে। এবং অনুমানগুলি হ'ল প্রবণতাগুলির প্রতি উচ্চতর পরামর্শদাতা যা আমরা সত্য বলে বিশ্বাস করি।

এখানে চিত্র বর্ণনা লিখুন

একটি স্কোর পরীক্ষা সঞ্চালন,

স্কোর (অথবা রাও) পরিসংখ্যাত সম্ভাবনা অনুপাত থেকে পৃথক ও পরিসংখ্যান Wald। বিকল্প অনুমানের অধীনে এর বৈকল্পিকতার মূল্যায়নের প্রয়োজন নেই। আমরা নাল নীচে মডেল ফিট:

mm <- model.matrix( ~ x)
fit0 <- glm(y ~ 1, family=binomial)
pred0 <- predict(fit0, type='response')
inf.null <- t(mm) %*% diag(binomial()$variance(mu=pred0)) %*% mm
sc.null <- t(mm) %*% c(y - pred0)
score.stat <- t(sc.null) %*% solve(inf.null) %*% sc.null ## compare to chisq
pchisq(score.stat, 1, lower.tail=F)

χ2

> pchisq(scstat, df=1, lower.tail=F)
             [,1]
[1,] 1.343494e-11

উভয় ক্ষেত্রেই আপনার অনন্তের একটি OR এর জন্য অনুমান রয়েছে।

, এবং একটি আত্মবিশ্বাসের ব্যবধানের জন্য মিডিয়ান নিরপেক্ষ অনুমান ব্যবহার করুন।

আপনি মধ্যম পক্ষপাতহীন প্রাক্কলন ব্যবহার করে অসীম প্রতিক্রিয়া অনুপাতের জন্য একটি মিডিয়ান নিরপেক্ষ, অ-একবচন 95% সিআই উত্পাদন করতে পারেন। আর এর প্যাকেজটি epitoolsএটি করতে পারে। এবং আমি এখানে এই অনুমানক বাস্তবায়নের একটি উদাহরণ দিচ্ছি: বার্নোল্লি নমুনা দেওয়ার জন্য আত্মবিশ্বাসের ব্যবধান


2
এটি দুর্দান্ত, তবে আমার কিছু বাটা রয়েছে অবশ্যই: (১) সম্ভাবনা-অনুপাত পরীক্ষা তথ্য ম্যাট্রিক্স ব্যবহার করে না; এটি কেবল ওয়াল্ড পরীক্ষা করে এবং এটি বিচ্ছেদের উপস্থিতিতে বিপর্যয়করভাবে ব্যর্থ হয়। (২) আমি এক-পদক্ষেপের অনুমানকারীর সাথে মোটেই পরিচিত নই, তবে এখানে slাল অনুমানটি অযৌক্তিকভাবে কম বলে মনে হচ্ছে। (3) একটি আত্মবিশ্বাসের ব্যবধান মধ্যম-পক্ষপাতহীন নয়। আপনি এই বিভাগে যা সংযোগ করছেন তা হ'ল মিড-পি আত্মবিশ্বাসের ব্যবধান। (4) আপনি এলআর বা স্কোর পরীক্ষা উল্টিয়ে আত্মবিশ্বাসের অন্তর পেতে পারেন। ...
স্কর্চচি

... (5) আপনি যুক্তি দিয়ে দ স্কোর পরীক্ষা সম্পাদন করতে পারবেন test="Rao"করারanova ফাংশনে । (আচ্ছা, গত দুই নোট, বিতর্কের অবকাশ নেই।)
Scortchi

আনোয়ার ডিফল্ট স্কোর টেস্ট রয়েছে জানলে @ স্কোর্টচি ভাল! হতে পারে হাত দ্বারা বাস্তবায়ন দরকারী। সিআই গুলো মিডিয়েন নিরপেক্ষ নয়, তবে মিডিয়ান নিরপেক্ষ অনুমানকারীর জন্য সিআইগুলি সীমানা পরামিতিগুলির জন্য সামঞ্জস্যপূর্ণ অনুক্রম সরবরাহ করে। মিড পি এরকম অনুমানকারী। পিটিকে বিজোড় অনুপাতের বি / সিতে রূপান্তরিত করা যায় এটি একে একে এক থেকে এক রূপান্তরিত করে। এলআর টেস্টটি কি সীমানা পরামিতিগুলির জন্য সামঞ্জস্যপূর্ণ?
আদমো

উইলসের উপপাদ্য প্রয়োগের জন্য কেবল নাল হাইপোথিসিসে প্যারামিটার থাকতে হবে না, যদিও স্কোর এবং এলআর পরীক্ষা সীমাবদ্ধ নমুনায় আনুমানিক।
স্কর্চচি

2

আর-এর এই সতর্কতা বার্তাটি সম্পর্কে সতর্কতা অবলম্বন করুন। অ্যান্ড্রু গেলম্যানের এই ব্লগ পোস্টটি একবার দেখুন এবং আপনি দেখতে পাবেন যে এটি সর্বদা নিখুঁত পৃথকীকরণের সমস্যা নয়, তবে কখনও কখনও একটি বাগও রয়েছে glm। দেখে মনে হচ্ছে যে যদি শুরুর মানগুলি সর্বাধিক সম্ভাবনার প্রাক্কলনের থেকে অনেক দূরে থাকে তবে এটি ফুরিয়ে যায়। সুতরাং, অন্যান্য সফ্টওয়্যার যেমন স্টাটার সাথে প্রথমে পরীক্ষা করুন।

আপনার যদি সত্যিই এই সমস্যা থাকে তবে আপনি বায়েশিয়ান মডেলিংটি তথ্যমূলক প্রিরিয়ার্স সহ ব্যবহার করার চেষ্টা করতে পারেন।

তবে অনুশীলনে আমি কেবল ভবিষ্যদ্বাণীকারীদের সমস্যার কারণ থেকে মুক্তি পেয়েছি, কারণ আমি কীভাবে কোনও তথ্যবহুল পছন্দ করব তা জানি না। তবে আমি অনুমান করি যে জেলম্যানের আগে যখন আপনার নিখুঁত পৃথকীকরণের সমস্যা হয় তখন তথ্যবহুল ব্যবহার সম্পর্কে একটি কাগজ রয়েছে। শুধু এটি গুগল। সম্ভবত আপনি এটি চেষ্টা করা উচিত।


8
ভবিষ্যদ্বাণীকারীদের অপসারণ করতে সমস্যা হ'ল আপনি সেই ভবিষ্যদ্বাণীটিকে সরিয়ে দিচ্ছেন যা প্রতিক্রিয়াটিকে সর্বোত্তমভাবে ব্যাখ্যা করে, যা সাধারণত আপনি যা করতে চেয়েছিলেন! আমি যুক্তি দিয়ে বলব যে আপনি কেবল নিজের মডেলকেই বেশি মানিয়ে নিচ্ছেন এটি উদাহরণস্বরূপ, উদাহরণস্বরূপ অনেক জটিল মিথস্ক্রিয়াকে ফিট করে।
সাইমন বাইর্ন

4
কোনও ত্রুটি নয়, তবে প্রাথমিক অনুমানগুলি এমএলই থেকে অনেক দূরে থাকার সমস্যা রয়েছে, যা আপনি নিজেই বেছে নেওয়ার চেষ্টা না করলে উত্থিত হবে না।
স্কর্চচি

আমি এটি বুঝতে পারি, তবে আমি মনে করি এটি অ্যালগোরিদমের একটি বাগ।
মনোয়েল গ্যালাদিনো

5
আচ্ছা আমি 'বাগ' এর সংজ্ঞাটি নিয়ে কাঁপতে চাই না। তবে আচরণটি বেজ আর তে অবিচ্ছেদ্য বা অনুপযুক্ত নয় - আপনাকে "অন্যান্য সফ্টওয়্যার দিয়ে পরীক্ষা করার দরকার নেই"। আপনি যদি অনেকগুলি অ-রূপান্তরিত সমস্যাগুলির সাথে স্বয়ংক্রিয়ভাবে মোকাবেলা করতে চান তবে glm2প্যাকেজটি একটি স্কোর প্রয়োগ করে যা প্রতিটি স্কোরিং ধাপে প্রকৃতপক্ষে বৃদ্ধি পাচ্ছে এবং যদি তা না হয় তবে ধাপের আকার অর্ধেক করে দেয়।
স্কর্চচি

3
সেখানে (সিআরএএন) আর প্যাকেজটি রয়েছে safeBinaryRegression যা এই জাতীয় সমস্যাগুলি নির্ণয় এবং সমাধানের জন্য ডিজাইন করা হয়েছে, সেকেকের জন্য অপ্টিমাইজেশন পদ্ধতি ব্যবহার করে নিশ্চিত হওয়া যায় যে সেখানে বিচ্ছেদ বা কোয়েসিসপারেশন রয়েছে কিনা। চেষ্টা করে দেখুন!
কেজেটিল বি হালওয়ারসেন

2

আমি নিশ্চিত নই যে আপনার প্রশ্নের বিবৃতিতে আমি একমত।

আমি মনে করি যে সতর্কতা বার্তার অর্থ আপনার ডেটাতে কিছু পর্যবেক্ষণ করা X স্তরের জন্য সংযুক্ত 0 বা 1 নম্বরযুক্ত সম্ভাব্যতা রয়েছে অন্য কথায়, রেজোলিউশনে এটি 0 বা 1 হিসাবে দেখায়।

আপনি চালাতে পারেন predict(yourmodel,yourdata,type='response')এবং আপনি সেখানে 0 বা / এবং 1 এর পূর্বাভাস সম্ভাব্যতা হিসাবে পাবেন।

ফলস্বরূপ, আমি মনে করি ঠিক ফলাফলগুলি ব্যবহার করা ঠিক।


-1

আমি বুঝতে পারি এটি একটি পুরানো পোস্ট, তবে আমি এর উত্তর দিয়ে এখনও এগিয়ে যাব কারণ এটির সাথে আমি অনেক দিন লড়াই করেছি এবং এটি অন্যকে সহায়তা করতে পারে।

আপনার নির্বাচিত ভেরিয়েবলগুলি মডেলের সাথে ফিট করার জন্য সম্পূর্ণ বিচ্ছেদ ঘটে যখন 0 এবং 1 এর মধ্যে হ্যাঁ এবং না এর মধ্যে খুব সঠিকভাবে পার্থক্য করতে পারে। আমাদের ডেটা সায়েন্সের সম্পূর্ণ পদ্ধতির সম্ভাবনা অনুমানের উপর ভিত্তি করে তবে এটি এক্ষেত্রে ব্যর্থ।

সংশোধন পদক্ষেপ: -

  1. ভেরিয়েবলের মধ্যে বৈকল্পিকতা কম হলে, গ্ল্যামের পরিবর্তে বায়সগ্ল্যাম () ব্যবহার করুন

  2. কখনও কখনও (ম্যাক্সিট = "কিছু সংখ্যাসূচক মান") বয়েসগ্ল্যাম সহ () সাহায্য করতে পারে

মডেল ফিটিংয়ের জন্য আপনার নির্বাচিত ভেরিয়েবলগুলির তৃতীয় এবং সবচেয়ে গুরুত্বপূর্ণ চেক, অবশ্যই একটি ভেরিয়েবল থাকতে হবে যার জন্য ওয়াই (আউটআউট) ভেরিয়েবলের সাথে একাধিক কোলাইনারিটি খুব বেশি, আপনার মডেল থেকে সেই পরিবর্তনশীলটি বাতিল করুন।

আমার ক্ষেত্রে যেমন বৈধতা ডেটা জন্য মন্থন পূর্বাভাস আমার কাছে একটি টেলিকম মথ ডেটা ছিল আমার আমার প্রশিক্ষণের ডেটাতে একটি পরিবর্তনশীল ছিল যা হ্যাঁ এবং না-এর মধ্যে খুব পার্থক্য করতে পারে। এটি নামানোর পরে আমি সঠিক মডেলটি পেতে পারি। আরও আপনার মডেল আরও নির্ভুল করতে আপনি পদক্ষেপ (ফিট) ব্যবহার করতে পারেন।


2
আমি দেখতে পাচ্ছি না যে এই উত্তরটি আলোচনায় অনেক যোগ করে। বায়েশিয়ান পদ্ধতির পূর্ববর্তী উত্তরে পুরোপুরি কভার করা হয়েছে, "সমস্যাযুক্ত" ভবিষ্যদ্বাণীদের অপসারণের বিষয়টি ইতিমধ্যে উল্লেখ করা হয়েছে (এবং নিরুৎসাহিতও)। আমি যতদূর জানি পদক্ষেপের পরিবর্তনশীল নির্বাচন খুব কমই দুর্দান্ত ধারণা।
einar
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.