ডিভ্যান্সেস কী? (বিশেষত কার্ট / আরপিআর্টে)


45

"ডিভায়েন্স," কীভাবে এটি গণনা করা হয়, এবং পরিসংখ্যানগুলিতে বিভিন্ন ক্ষেত্রে এর ব্যবহারগুলি কী?

বিশেষত, আমি ব্যক্তিগতভাবে কার্টে এর ব্যবহারগুলিতে আগ্রহী (এবং এটি আরপিতে বাস্তবায়ন)।

আমি এটি জিজ্ঞাসা করছি যেহেতু উইকি-নিবন্ধটিতে কিছুটা অভাব দেখা যাচ্ছে এবং আপনার অন্তর্দৃষ্টি সর্বাধিক স্বাগত জানানো হবে।

উত্তর:


48

ডিভায়েন্স এবং জিএলএম

সাধারণত, কেউ দুটি সম্ভাব্য মডেলের মধ্যে এক ধরণের দূরত্ব হিসাবে বিচ্যুতি দেখতে পারেন; জিএলএম প্রসঙ্গে, এটি দুটি নেস্টেড মডেলগুলির মধ্যে সম্ভাবনার লগ অনুপাতের যেখানে "ছোট" মডেল; এটি হ'ল, মডেল প্যারামিটারগুলিতে রৈখিক সীমাবদ্ধতা (সিএফ । নেইম্যান – পিয়ারসন লেমা ), যেমন @ সানসুলসু বলেছিলেন। যেমন, এটি মডেল তুলনা সম্পাদন করতে ব্যবহার করা যেতে পারে । এটিকে ওএলএস অনুমান (আনোভা, রিগ্রেশন) এ ব্যবহৃত আরএসএসের সাধারণীকরণ হিসাবেও দেখা যেতে পারে, কারণ এটি নাল মডেলের তুলনায় (কেবলমাত্র কেবলমাত্র বিরত থাকা) মডেলটির সদ্ব্যবহারের মানদণ্ড সরবরাহ করে। এটি এলএম এর সাথেও কাজ করে:1/00

> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)

অবশিষ্টাংশ এসএস (আরএসএস) হিসাবে গণনা করা হয় , যা সহজেই হিসাবে প্রাপ্ত হয়:ε^tε^

> t(residuals(lm.res))%*%residuals(lm.res)
         [,1]
[1,] 98.66754

বা (অযাচিত)R2

> summary(lm.res)

Call:
lm(formula = y ~ x)

(...)

Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175 
F-statistic: 71.97 on 1 and 98 DF,  p-value: 2.334e-13 

যেহেতু যেখানে the মোট বৈকল্পিক। নোট করুন যে এটি সরাসরি একটি আনোভা টেবিলে উপলব্ধR2=1RSS/TSSTSS

> summary.aov(lm.res)
            Df Sum Sq Mean Sq F value    Pr(>F)    
x            1 72.459  72.459  71.969 2.334e-13 ***
Residuals   98 98.668   1.007                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

এখন, বিচ্যুতি দেখুন:

> deviance(lm.res)
[1] 98.66754

প্রকৃতপক্ষে, লিনিয়ার মডেলগুলির জন্য বিচ্যুতি আরএসএসের সমান (আপনি মনে করতে পারেন যে ওএলএস এবং এমএল অনুমানগুলি এই জাতীয় ক্ষেত্রে একত্রে মিলছে)।

ডিভায়েন্স এবং কার্ট

আমরা ইতিমধ্যে লেবেলযুক্ত ব্যক্তিকে স্বেচ্ছাসেবক শ্রেণিতে বরাদ্দ করার একটি উপায় হিসাবে কার্ট দেখতে পারি (শ্রেণিবদ্ধের প্রসঙ্গে)। গাছগুলি পৃথক শ্রেণীর সদস্যতার জন্য সম্ভাব্যতা মডেল সরবরাহকারী হিসাবে দেখা যায়। সুতরাং, প্রতিটি নোডে , ক্লাসগুলির উপরে আমাদের সম্ভাবনা বন্টন রয়েছে । কি এখানে গুরুত্বপূর্ণ যে গাছের পাতা আমাদের একটি র্যান্ডম নমুনা দিতে হয় দ্বারা নির্দিষ্ট একটি MULTINOMIAL বন্টন থেকে । আমরা গাছের ডিভেনশনকে সমস্ত পাতার সমষ্টি হিসাবে সংজ্ঞায়িত করতে পারিnipiknikpikD

Di=2kniklog(pik),

ভেনেবলস এবং রিপলির স্বরলিপিগুলি অনুসরণ করে ( এমএএসএস , স্প্রিংগার 2002, চতুর্থ সংস্করণ)। যদি আপনার আর ব্যবহারকারীদের (আইএমএইচও) জন্য এই প্রয়োজনীয় রেফারেন্সের অ্যাক্সেস থাকে তবে আপনি নিজেই পরীক্ষা করে দেখতে পারেন যে কীভাবে এই পদ্ধতিটি নোডকে বিভক্ত করতে এবং পর্যবেক্ষণ করা ডেটাতে গাছ লাগানোর জন্য ব্যবহৃত হয় (পৃষ্ঠা 255 এফএফ।); মূলত, গাছটি কেটে, যেখানে গাছ নোডের সংখ্যা হ'ল ধারণাটি হ্রাস করা উচিত । এখানে আমরা ব্যয়-জটিলতা বাণিজ্য বন্ধ চিনতে । এখানে, নোড অপরিষ্কারের ধারণার সমতুল্য (অর্থাত্ প্রদত্ত নোডে বিতরণের বৈচিত্র্য) যা এনট্রপি বা তথ্য লাভের একটি পরিমাপের ভিত্তিতে বা সুপরিচিত গিনি সূচকে হিসাবে সংজ্ঞায়িত করা হয়েছেD+α#(T)#(T)TD1kpik2 (অজানা অনুপাত নোড অনুপাত থেকে অনুমান করা হয়)।

একটি রিগ্রেশন ট্রি সহ, ধারণাটি বেশ অনুরূপ, এবং আমরা দ্বারা ব্যক্তিদের জন্য সংজ্ঞায়িত স্কোয়ারের যোগফল হিসাবে ধারণাটি কল্পনা করতে পারিj

Di=j(yjμi)2,

সমস্ত পাতায় সারসংক্ষেপ। এখানে, প্রতিটি পাতার মধ্যে বিবেচনা করা হয় এমন সম্ভাব্যতা মডেলটি একটি গাউসিয়ান । ভেনেবলস এবং রিপলে (পৃষ্ঠা 256) এর উদ্ধৃতি দিয়ে, " গাউসী জিএলএমের জন্য সাধারণ আকারযুক্ত বিচ্যুতি However তবে গাছের অভ্যন্তরীণ নোডগুলিতে বিতরণটি তখন সাধারণ বিতরণের মিশ্রণ হয় এবং তাই কেবল পাতাগুলিতেই উপযুক্ত। গাছ-নির্মাণ প্রক্রিয়াটিকে সম্ভাব্যতা মডেলগুলির একটি শ্রেণিবিন্যাসিক পরিমার্জন হিসাবে দেখাতে হবে , এটি রিগ্রেশন-এ পরিবর্তনশীল নির্বাচনের সাথে সামঞ্জস্যপূর্ণ "" বিভাগ 9.2 বাস্তবায়ন সম্পর্কে আরও বিশদ তথ্য সরবরাহ করে , তবে আপনি ইতিমধ্যে এর জন্য ফাংশনটি দেখতে পারেনN(μi,σ2)DDirpartresiduals()rpart বস্তু, যেখানে "ডিভ্যান্স রেসিড্যুয়ালস" ফিটেড মডেলের লগারিদমের দ্বিগুণ বিয়োগের বর্গমূল হিসাবে গণনা করা হয়।

অ্যাটকিনসন এবং থের্নো- র rpart রুটিন ব্যবহার করে পুনরায় বিভাজন করার একটি ভূমিকাও একটি ভাল শুরু start আরও সাধারণ পর্যালোচনার জন্য (ব্যাগিং সহ), আমি সুপারিশ করব


1
+1 সুন্দর উত্তর chl, যা, আপনি যেমন বলেছিলেন, আমার পরিপূরক তাই কোনও সমস্যা নেই। খুব সুন্দর করে বললাম।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

একটি ছোটখাটো জিনিস - সম্ভবত lm.fitআপনার উদাহরণে ব্যবহার করা সবচেয়ে ভাল নয় , কারণ এটি পিছনের ওয়ার্কহর্সের নাম lm
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন

@ গ্যাভিন ওহ, হ্যাঁ, এটা ঠিক। আমাকে স্মরণ করিয়ে দেওয়ার জন্য
THX

3
কেবল একটি মন্তব্য: লিনিয়ার রিগ্রেশনের জন্য ডিভায়েন্স আরএসএসের সমান কারণ ত্রুটির স্বাভাবিকতা অনুমিতি বোঝায় যে আরএসএস এলআর পরীক্ষার পরিসংখ্যানের সমান যা আরও বোঝায় যে ডিভায়েন্স সাধারণত অ্যাসিমেটিকগুলি নির্বিশেষে বিতরণ করা হয় । এটি chl এর (আমার মনে হয়) ক্ষুদ্র মন্তব্যটির মাত্র একটি বিস্তৃতি।
সানকুলসু

@ সানকুলসু যদি এমএল এবং ওএলএস অনুমান সম্পর্কে আমার মন্তব্য সম্পর্কে হয় তবে হ্যাঁ আমার অর্থ (অর্থাত লিনিয়ার মডেলগুলিতে) "গাউসীয় বিতরণ অনুমান করা" । আপনার মন্তব্য স্বাগত। εi
chl

25

এটি পর্যালোচনা হিসাবে যতগুলি পরামিতি যেমন একটি নিখুঁত মডেল সম্পর্কে চিন্তা করি যে এটি প্রতিক্রিয়াটির সমস্ত প্রকারভেদ ব্যাখ্যা করে তবে এটি কিছুটা পরিষ্কার হতে পারে। এটি স্যাচুরেটেড মডেল। ডিভায়েন্স সহজেই কোনও প্রার্থী মডেলের "ফিট" এবং স্যাচুরেটেড মডেলের পার্থক্য পরিমাপ করে।

একটি রিগ্রেশন ট্রিতে, স্যাচুরেটেড মডেল এমন একটি হবে যা পর্যবেক্ষণ হিসাবে অনেক টার্মিনাল নোড (পাতাগুলি) রেখেছিল তাই এটি প্রতিক্রিয়াটিকে পুরোপুরি ফিট করবে। একটি সহজ মডেলের বিচ্যুতি সমস্ত নোডের উপরে যোগফলের নোডের অবশিষ্টাংশের পরিমাণ হিসাবে গণনা করা যেতে পারে। অন্য কথায়, পূর্বাভাস দেওয়া এবং পর্যবেক্ষণ করা মানের মধ্যে বর্গক্ষেত্রের পার্থক্যের যোগফল। এটি হ'ল একই ধরণের ত্রুটি (বা বিচ্যুতি) সর্বনিম্ন স্কোয়ার রিগ্রেশনে ব্যবহৃত হয়।

শ্রেণিবদ্ধ গাছের জন্য, স্কোয়ারের অবশিষ্টাংশগুলি উপযুক্ততার অভাবে সবচেয়ে উপযুক্ত পরিমাপ নয়। পরিবর্তে, বিচ্যুতির বিকল্প ব্যবস্থা রয়েছে, প্লাস গাছগুলি একটি এনট্রপি পরিমাপ বা গিনি সূচককে হ্রাস করে তৈরি করা যেতে পারে। আধুনিক ডিফল্ট rpart। গিনি সূচকটি হিসাবে গণনা করা হয়:

Di=1k=1Kpik2

যেখানে নোড ক্লাস অনুপাতযুক্ত অনুপাত । এই পরিমাপটি লাগানো গাছের মডেলের জন্য কোনও বিবর্তনে পৌঁছাতে গাছের সমস্ত টার্মিনাল নোডের সংমিশ্রণ ঘটে। k i ipikkii


(+1) দুঃখিত, আমার পোস্টটি পরে এসেছিল এবং আমি আপনার খেয়াল করিনি। যেহেতু আমি মনে করি তারা খুব বেশি ওভারল্যাপ করে না, আপনি কিছু মনে না করলে আমি আমার ছেড়ে চলে যাব।
chl

সুতরাং, ডিভ্যান্সেস হ'ল ধার্মিকতার একটি পরিমাপ, তাই না? আফাইক, রিগ্রেশনে, আমাদের কাছে কিছু পরিসংখ্যান রয়েছে (যেমন আরএসএস, ) গুডনি-অফ-ফিট মাপার জন্য; এবং শ্রেণিবদ্ধকরণে, আমরা ভুল সংশোধনী হার ব্যবহার করতে পারি। আমি কি সঠিক? R2
অ্যাভোকাডো

11

ডিভ্যান্স হ'ল নকল অনুমানের পরীক্ষার জন্য সম্ভাবনা-অনুপাতের পরিসংখ্যান যা মডেলটি আবার সাধারণ বিকল্পকে (যেমন, স্যাচুরেটেড মডেল) ধারণ করে। কিছু পোইসন এবং দ্বিপদী জিএলএমগুলির জন্য, পৃথক গণনা আকারে বৃদ্ধি পাওয়ায় পর্যবেক্ষণের সংখ্যা স্থির থাকে। তারপরে বিচ্যুতিটির একটি চি-স্কোয়ার অ্যাসিপটোটিক নাল বিতরণ হবে । স্বাধীনতার ডিগ্রি = এন - পি, যেখানে পি মডেল পরামিতিগুলির সংখ্যা; অর্থাত্, এটি স্যাচুরেটেড এবং অসম্পৃক্ত মডেলগুলিতে বিনামূল্যে পরামিতিগুলির সংখ্যার সমান। বিবর্তন তখন মডেল ফিটের জন্য একটি পরীক্ষা সরবরাহ করে।N

Deviance=2[L(μ^|y)L(y|y)]

যাইহোক, বেশিরভাগ সময়, আপনি কিছু ভেরিয়েবল বাদ দেওয়ার দরকার পরে পরীক্ষা করতে চান। দুই মডেল আছে বলুন এবং সঙ্গে এবং পরামিতি যথাক্রমে, এবং আপনি পরীক্ষা যা এই দুই উত্তম হবে। ধরে একটি বিশেষ ক্ষেত্রে দেখা যায় অর্থাত নেস্টেড মডেলের। M1M2p1p2M1M2

সেক্ষেত্রে বিচ্যুততার পার্থক্য নেওয়া হয়:

ΔDeviance=2[L(μ1^|y)L(μ2^|y)]

লক্ষ্য করুন যে স্যাচুরেটেড মডেলটির লগ সম্ভাবনা বাতিল হয়ে যায় এবং স্বাধীনতার ডিগ্রি পরিবর্তিত হয় । প্যারামিটারগুলির কিছু 0 হয় কি না তা পরীক্ষা করার দরকার হলে আমরা এটি প্রায়শই ব্যবহার করি। কিন্তু আপনি যখন মাপসই মধ্যে বক্রতা আউটপুট সম্পৃক্ত মডেল বনাম বর্তমান মডেল জন্য।পি 2 - পি 1ΔDeviancep2p1glmR

আপনি যদি আরও বিশদে পড়তে চান: সিএফ: অ্যালান আগ্রেস্তি দ্বারা শ্রেণিবদ্ধ ডেটা বিশ্লেষণ, পিপি 118।


@ টাল, আমি ব্যবহার করি না rpartএবং আমি এই ফোরামের আরও অভিজ্ঞ সদস্যদের উত্তরটি রেখে দেব।
সানকুলসু

আমি মনে করি আমি ধারণা পেয়েছি ... তবে rpart এমনকি রিগ্রেশন গাছের জন্যও বিচ্যুতি প্রিন্ট করে ওও
deps_stats

@ ডেপস_স্ট্যাটস যে ডিভ্যান্স গাছের টার্মিনাল নোডের উপরে যোগ করা বর্গাকার নোডের অবশিষ্টাংশের যোগফল।
মনিকা পুনরায় ইনস্টল করুন - জি সিম্পসন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.