লজিস্টিক রিগ্রেশন জন্য ওয়াল্ড পরীক্ষা


55

আমি যতদূর বুঝতে পারি লজিস্টিক রিগ্রেশন প্রসঙ্গে ওয়াল্ড পরীক্ষাটি কোনও নির্দিষ্ট পূর্বাভাসকারী ভেরিয়েবল গুরুত্বপূর্ণ কিনা তা নির্ধারণ করতে ব্যবহৃত হয় । এটি সংশ্লিষ্ট সহগের শূন্য হওয়ার নাল অনুমানকে প্রত্যাখ্যান করে।X

পরীক্ষায় সহগের মান স্ট্যান্ডার্ড ত্রুটি দ্বারা ভাগ করে ।σ

আমি যে সম্পর্কে বিভ্রান্ত হয়ে পড়েছি তা হল জেড স্কোর নামেও পরিচিত এবং ইঙ্গিত দেয় যে প্রদত্ত পর্যবেক্ষণটি স্বাভাবিক বন্টন (গড় শূন্য সহ) গঠন হওয়ার সম্ভাবনা রয়েছে।X/σ



2
সম্ভবত এটি যদিও অন্যভাবে হতে পারে, কারণ এইটির উত্তরটি আরও বিকাশযুক্ত।
ফায়ারব্যাগ

উত্তর:


86

সহগের অনুমান এবং লজিস্টিক রিগ্রেশন (এবং যে কোনও জিএলএম) এর বাধাগুলি সর্বাধিক সম্ভাবনার প্রাক্কলন (এমএলই) এর মাধ্যমে পাওয়া যায় । এই অনুমান পরামিতি উপর একটি টুপি, মত কিছু দিয়ে প্রকাশ করা হয় । আমাদের আগ্রহের প্যারামিটারটি হিসাবে চিহ্নিত করা হয় এবং এটি সাধারণত 0 হয় কারণ আমরা পরীক্ষা করতে চাই যে থেকে আলাদা হয় কি না। এমএলই-এর অ্যাসিপটোটিক তত্ত্ব থেকে, আমরা জানি যে এবং মধ্যে পার্থক্যটি প্রায় সাধারণত গড় 0 দিয়ে বিতরণ করা হবে (বিস্তারিত কোনও গাণিতিক পরিসংখ্যান বইতে পাওয়া যাবে যেমন ল্যারি ওয়াসারম্যানের সমস্ত পরিসংখ্যান ) । মনে রাখবেন যে স্ট্যান্ডার্ড ত্রুটিগুলি ছাড়া আর কিছুই নয়θ^θ0θ^θ0পরিসংখ্যানগুলির স্ট্যান্ডার্ড বিচ্যুতি (সোকাল এবং রোহল্ফ তাদের বই বায়োমেট্রিতে লিখেছেন : "একটি পরিসংখ্যান হ'ল বহু গণিত বা আনুমানিক পরিসংখ্যানের পরিমাণগুলির মধ্যে একটি", যেমন গড়, মধ্যম, মান বিচ্যুতি, পারস্পরিক সম্পর্ক সহগ, রিগ্রেশন সহগ, ...)। গড় 0 এবং স্ট্যান্ডার্ড বিচ্যুতি সাথে একটি সাধারণ বিতরণ ভাগ করে গড় 0 এবং স্ট্যান্ডার্ড বিচ্যুতি দ্বারা স্ট্যান্ডার্ড স্বাভাবিক বিতরণ পাওয়া যাবে 1. ওয়াল্ড পরিসংখ্যান হিসাবে সংজ্ঞায়িত করা হয়েছে (যেমন ওয়াসারম্যান (2006): পরিসংখ্যানের সমস্ত পৃষ্ঠা, পৃষ্ঠা 153, 214-215): বা σ

W=(β^β0)se^(β^)N(0,1)
W2=(β^β0)2Var^(β^)χ12
দ্বিতীয় ফর্মটি প্রমাণিত হয় যে একটি আদর্শ সাধারণ বিতরণের বর্গক্ষেত্রটি freedom -১ ডিগ্রি স্বাধীনতার ডিস্ট্রিবিউশন (দুটি স্কোয়ার স্ট্যান্ডার্ড সাধারণ বিতরণের যোগফল) এটি একটি i 2 ডিগ্রি স্বাধীনতা এবং এর মতো বিতরণ হবে)।χ12χ22

কারণ আগ্রহের প্যারামিটারটি সাধারণত 0 (যেমন ) হয়, ওয়াল্ড পরিসংখ্যান যা বর্ণনা করেছেন: তার মান ত্রুটির দ্বারা ভাগ করা সহগের অনুমান।β0=0

W=β^se^(β^)N(0,1)

কখন একটি এবং কখন একটি মান ব্যবহৃত হয়?zt

একটি মধ্যে পছন্দ -value বা -value কিভাবে কোফিসিয়েন্টস আদর্শ ত্রুটি হিসাব করে দেখা গেছে উপর নির্ভর করে। যেহেতু ওয়াল্ড পরিসংখ্যানটি সাধারণ মানের বিতরণ হিসাবে asympototically বিতরণ করা হয়েছে, আমরা ভ্যালু গণনা করতে -score ব্যবহার করতে পারি। যখন আমরা, সহগের পাশাপাশি, অবশিষ্টাংশগুলিও অনুমান করতে পারি, ভ্যালুয়ের পরিবর্তে একটি ভ্যালু ব্যবহৃত হয় । সাধারণ সর্বনিম্ন স্কোয়ারে (ওএলএস, সাধারণ লিনিয়ার রিগ্রেশন) সহগের ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্স হ'ল যেখানেztzptzVar[β^|X]=σ2(XX)1σ2অবশিষ্টাংশের বৈকল্পিকতা (যা অজানা এবং এটি ডেটা থেকে অনুমান করা উচিত) এবং হ'ল নকশা ম্যাট্রিক্সওএলএস-তে, সহগের মানক ত্রুটিগুলি হ'ল ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সের তির্যক উপাদানগুলির বর্গমূল। যেহেতু আমরা জানি না , আমাদের এটির অনুমান দ্বারা এটি প্রতিস্থাপন করতে হবে , সুতরাং:। এখন যে বিন্দু: যেহেতু আমরা অবশিষ্টাংশ ভ্যারিয়েন্স অনুমান করার জন্য কোফিসিয়েন্টস আদর্শ ত্রুটি নিরূপণ করা আছে, আমরা একটি ব্যবহার করতে হবে -value এবং -distribution।Xσ2σ^2=s2 টিটিse^(βj^)=s2(XX)jj1tt

লজিস্টিক (এবং পোইসন) রিগ্রেশন-এ, অবশিষ্টাংশগুলির বৈচিত্রটি গড়ের সাথে সম্পর্কিত। যদি হয় তবে এর এবং তাই বৈকল্পিক এবং গড়টি সম্পর্কিত। লজিস্টিক এবং পোয়েসন রিগ্রেশনে তবে গাউসীয় ত্রুটিগুলির সাথে সংক্ষেপে নয়, আমরা প্রত্যাশিত বৈচিত্রটি জানি এবং এটি আলাদাভাবে অনুমান করার দরকার নেই। প্রত্যাশা পরামিতি নির্দেশ করে যে যদি আমাদের প্রত্যাশিত বৈকল্পিকতার চেয়ে কম বা কম থাকে। যদি অর্থ আমরা প্রত্যাশিত পরিমাণের বৈকল্পিকতা পর্যবেক্ষণ করি, তবে অর্থ আমাদের প্রত্যাশিত বৈকল্পিক (আন্ডারডিস্পেরিয়ান নামে পরিচিত) এবং চেয়ে কম রয়েছেE ( Y ) = n p var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 জেডি টি পিYBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1এর অর্থ আমাদের প্রত্যাশিত ছাড়াই অতিরিক্ত বৈচিত্র রয়েছে (যাকে বলা হয় ওভারডিস্পেরেশন)। লজিস্টিক এবং পোয়েসন রিগ্রেশন-এর বিচ্ছুরণ প্যারামিটারটি 1 এ স্থির করা হয়েছে যার অর্থ আমরা স্কোর ব্যবহার করতে পারি। ছড়িয়ে দেওয়ার প্যারামিটার। অন্যান্য রেগ্রেশন ধরণের ক্ষেত্রে যেমন সাধারণ লিনিয়ার রিগ্রেশন, আমাদের অবশিষ্টাংশের প্রকরণটি অনুমান করতে হয় এবং এইভাবে মূল্যগুলি গণনা করার জন্য একটি ভ্যালু ব্যবহৃত হয় । ইন , এই দুটি উদাহরণ দেখুন:ztpR

পণ্য সরবরাহ সংশ্লেষণ

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

নোট করুন যে ছড়িয়ে পড়া প্যারামিটার 1 এ স্থির করা হয়েছে এবং এইভাবে, আমরা ভ্যালুগুলি পাই।z


সাধারণ লিনিয়ার রিগ্রেশন (ওএলএস)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

এখানে, আমাদের অবশিষ্টাংশগুলি অনুমান করতে হবে ("রেসিডুয়াল স্ট্যান্ডার্ড ত্রুটি" হিসাবে চিহ্নিত) এবং তাই আমরা ভ্যালুগুলির পরিবর্তে ভ্যালু ব্যবহার করি। অবশ্যই, বড় নমুনাগুলিতে, বিতরণটি সাধারণ বন্টনকে প্রায় অনুমান করে এবং তফাতটি কোনও বিষয় নয়।z ttzt

আরও একটি সম্পর্কিত পোস্ট এখানে পাওয়া যাবে


1
এই সুন্দর পোস্টের জন্য আপনাকে অনেক ধন্যবাদ যা আমার সমস্ত প্রশ্নের উত্তর দেয়।
ব্যবহারকারী 695652

1
সুতরাং, কার্যতঃ, আপনার দুর্দান্ত উত্তরের প্রথম অংশটি সম্পর্কে: যদি কোনও কারণে যদি আমার ফলাফলের পক্ষে প্রতিকূলতা এবং ওয়াল্ড স্ট্যাটিস্টিক থাকে তবে আমি এগুলি থেকে স্ট্যান্ডার্ড ত্রুটিটি গণনা করতে পারতাম না: এসি = (1 / ওয়াল্ড- পরিসংখ্যান) * ln (OR) এটি কি সঠিক? ধন্যবাদ!
স্যান্ডার ডাব্লু ভ্যান ডের লান

1
@ SanderW.venderLaan আপনার মন্তব্যের জন্য ধন্যবাদ। হ্যাঁ, আমি বিশ্বাস করি যে এটি সঠিক। আপনি যদি লজিস্টিক রিগ্রেশন করেন তবে ওয়াল্ড পরিসংখ্যানগুলি জেড-মান হবে।
COOLSerdash

2
এমন দুর্দান্ত উত্তর !!। আমার কিছু সংশোধন পরামর্শ আছে: আমি ব্যক্তিগতভাবে অনুভব করি যে এই উত্তরটি পাঞ্চ তালিকার সাথে বিশদগুলি মিশ্রিত করছে। আমি লিনিয়ার রিগ্রেশন কীভাবে রেসিডুয়ালিগুলির পৃথকীকরণগুলি পৃথক গ্রাফে ব্যবহার করে তা বিশদ রাখব।
হাইতাও ডু

1
এছাড়াও ছড়িয়ে পড়া প্যারামিটার এবং আর কোডের সাথে সংযোগের জন্য, হতে পারে আমরা অন্য কোনও বিভাগ বা বিচ্ছেদ লাইনটি খুলতে পারি।
হাইতাও ডু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.