ডিভায়েন্স এবং জিএলএম
সাধারণত, কেউ দুটি সম্ভাব্য মডেলের মধ্যে এক ধরণের দূরত্ব হিসাবে বিচ্যুতি দেখতে পারেন; জিএলএম প্রসঙ্গে, এটি দুটি নেস্টেড মডেলগুলির মধ্যে সম্ভাবনার লগ অনুপাতের যেখানে "ছোট" মডেল; এটি হ'ল, মডেল প্যারামিটারগুলিতে রৈখিক সীমাবদ্ধতা (সিএফ । নেইম্যান – পিয়ারসন লেমা ), যেমন @ সানসুলসু বলেছিলেন। যেমন, এটি মডেল তুলনা সম্পাদন করতে ব্যবহার করা যেতে পারে । এটিকে ওএলএস অনুমান (আনোভা, রিগ্রেশন) এ ব্যবহৃত আরএসএসের সাধারণীকরণ হিসাবেও দেখা যেতে পারে, কারণ এটি নাল মডেলের তুলনায় (কেবলমাত্র কেবলমাত্র বিরত থাকা) মডেলটির সদ্ব্যবহারের মানদণ্ড সরবরাহ করে। এটি এলএম এর সাথেও কাজ করে:ℓ1/ℓ0ℓ0
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
অবশিষ্টাংশ এসএস (আরএসএস) হিসাবে গণনা করা হয় , যা সহজেই হিসাবে প্রাপ্ত হয়:ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
বা (অযাচিত)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
যেহেতু যেখানে the মোট বৈকল্পিক। নোট করুন যে এটি সরাসরি একটি আনোভা টেবিলে উপলব্ধR2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
এখন, বিচ্যুতি দেখুন:
> deviance(lm.res)
[1] 98.66754
প্রকৃতপক্ষে, লিনিয়ার মডেলগুলির জন্য বিচ্যুতি আরএসএসের সমান (আপনি মনে করতে পারেন যে ওএলএস এবং এমএল অনুমানগুলি এই জাতীয় ক্ষেত্রে একত্রে মিলছে)।
ডিভায়েন্স এবং কার্ট
আমরা ইতিমধ্যে লেবেলযুক্ত ব্যক্তিকে স্বেচ্ছাসেবক শ্রেণিতে বরাদ্দ করার একটি উপায় হিসাবে কার্ট দেখতে পারি (শ্রেণিবদ্ধের প্রসঙ্গে)। গাছগুলি পৃথক শ্রেণীর সদস্যতার জন্য সম্ভাব্যতা মডেল সরবরাহকারী হিসাবে দেখা যায়। সুতরাং, প্রতিটি নোডে , ক্লাসগুলির উপরে আমাদের সম্ভাবনা বন্টন রয়েছে । কি এখানে গুরুত্বপূর্ণ যে গাছের পাতা আমাদের একটি র্যান্ডম নমুনা দিতে হয় দ্বারা নির্দিষ্ট একটি MULTINOMIAL বন্টন থেকে । আমরা গাছের ডিভেনশনকে সমস্ত পাতার সমষ্টি হিসাবে সংজ্ঞায়িত করতে পারিnipiknikpikD
Di=−2∑kniklog(pik),
ভেনেবলস এবং রিপলির স্বরলিপিগুলি অনুসরণ করে ( এমএএসএস , স্প্রিংগার 2002, চতুর্থ সংস্করণ)। যদি আপনার আর ব্যবহারকারীদের (আইএমএইচও) জন্য এই প্রয়োজনীয় রেফারেন্সের অ্যাক্সেস থাকে তবে আপনি নিজেই পরীক্ষা করে দেখতে পারেন যে কীভাবে এই পদ্ধতিটি নোডকে বিভক্ত করতে এবং পর্যবেক্ষণ করা ডেটাতে গাছ লাগানোর জন্য ব্যবহৃত হয় (পৃষ্ঠা 255 এফএফ।); মূলত, গাছটি কেটে, যেখানে গাছ নোডের সংখ্যা হ'ল ধারণাটি হ্রাস করা উচিত । এখানে আমরা ব্যয়-জটিলতা বাণিজ্য বন্ধ চিনতে । এখানে, নোড অপরিষ্কারের ধারণার সমতুল্য (অর্থাত্ প্রদত্ত নোডে বিতরণের বৈচিত্র্য) যা এনট্রপি বা তথ্য লাভের একটি পরিমাপের ভিত্তিতে বা সুপরিচিত গিনি সূচকে হিসাবে সংজ্ঞায়িত করা হয়েছেD+α#(T)#(T)TD1−∑kp2ik (অজানা অনুপাত নোড অনুপাত থেকে অনুমান করা হয়)।
একটি রিগ্রেশন ট্রি সহ, ধারণাটি বেশ অনুরূপ, এবং আমরা দ্বারা ব্যক্তিদের জন্য সংজ্ঞায়িত স্কোয়ারের যোগফল হিসাবে ধারণাটি কল্পনা করতে পারিj
Di=∑j(yj−μi)2,
সমস্ত পাতায় সারসংক্ষেপ। এখানে, প্রতিটি পাতার মধ্যে বিবেচনা করা হয় এমন সম্ভাব্যতা মডেলটি একটি গাউসিয়ান । ভেনেবলস এবং রিপলে (পৃষ্ঠা 256) এর উদ্ধৃতি দিয়ে, " গাউসী জিএলএমের জন্য সাধারণ আকারযুক্ত বিচ্যুতি However তবে গাছের অভ্যন্তরীণ নোডগুলিতে বিতরণটি তখন সাধারণ বিতরণের মিশ্রণ হয় এবং তাই কেবল পাতাগুলিতেই উপযুক্ত। গাছ-নির্মাণ প্রক্রিয়াটিকে সম্ভাব্যতা মডেলগুলির একটি শ্রেণিবিন্যাসিক পরিমার্জন হিসাবে দেখাতে হবে , এটি রিগ্রেশন-এ পরিবর্তনশীল নির্বাচনের সাথে সামঞ্জস্যপূর্ণ "" বিভাগ 9.2 বাস্তবায়ন সম্পর্কে আরও বিশদ তথ্য সরবরাহ করে , তবে আপনি ইতিমধ্যে এর জন্য ফাংশনটি দেখতে পারেনN(μi,σ2)DDirpart
residuals()
rpart
বস্তু, যেখানে "ডিভ্যান্স রেসিড্যুয়ালস" ফিটেড মডেলের লগারিদমের দ্বিগুণ বিয়োগের বর্গমূল হিসাবে গণনা করা হয়।
অ্যাটকিনসন এবং থের্নো- র rpart রুটিন ব্যবহার করে পুনরায় বিভাজন করার একটি ভূমিকাও একটি ভাল শুরু start আরও সাধারণ পর্যালোচনার জন্য (ব্যাগিং সহ), আমি সুপারিশ করব