যখন ত্রুটিগুলি সাধারণত বিতরণ করা হয় না তখন কেন রিগ্রেশন-এর সর্বনিম্ন-স্কোয়ারস এবং সর্বাধিক সম্ভাবনার পদ্ধতিগুলি সমতুল্য নয়?


10

শিরোনাম সব বলে। আমি বুঝতে পারি যে যদি মডেলের ত্রুটিগুলি সাধারণত বিতরণ করা হয় তবে কমপক্ষে স্কোয়ারগুলি এবং সর্বাধিক সম্ভাবনা রিগ্রেশন সহগগুলির জন্য একই ফল দেবে। তবে, ত্রুটিগুলি সাধারণত বিতরণ না করা হলে কী হবে? দুটি পদ্ধতি এখন আর সমান নয় কেন?


আপনি কি (ক) স্বাভাবিকতার অনুমানটি পূরণ না করে এমএলই ব্যবহার করছেন বা (খ) অ-গাউশিয়ান সম্ভাবনা ফাংশনটি ব্যবহার করছেন?
টিম

(ক), যখন স্বাভাবিকতার
অনুমানটি

এমনকি যখন অনুমানটি পূরণ করা হয় না (যেমন পর্যবেক্ষণকৃত মানগুলি গাউসিয়ান বিতরণ করা হয় না) ... আপনি যদি গাউসিয়ান সম্ভাবনা ফাংশনটি ব্যবহার করে এমএলই গণনা করেন তবে আপনি কমপক্ষে স্কোয়ার অপটিমাইজেশন হিসাবে একই করুন। অপ্টিমাইজেশন পদ্ধতিগুলি গাণিতিকভাবে সমতুল্য এবং স্বাভাবিকতার অনুমান সঠিক ছিল কিনা তা থেকে স্বাধীন।
সেক্সটাস এম্পেরিকাস

এমনকি সাধারণ বিতরণ সহ, সর্বনিম্ন-স্কোয়ারগুলি স্থির বৈকল্পিকতা আরোপ করে।
CodeInChaos

এই সম্পর্কিত প্রশ্নটিও দেখুন: stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

উত্তর:


16

সংক্ষিপ্ত উত্তর

একাধিক গাউসীয় বিতরিত ভেরিয়েবলের সম্ভাব্যতা ঘনত্ব , সাথে mean বর্গক্ষেত্রের সাথে সম্পর্কিত গড় এবং ভেরিয়েবলের মধ্যে দূরত্ব ( ), বা অন্য কথায় স্কোয়ারগুলির যোগফল।x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


দীর্ঘ উত্তর

আপনি যদি আপনার ত্রুটির জন্য একাধিক গাউসীয় বিতরণকে গুণিত করেন যেখানে আপনি সমান বিচ্যুতি অনুমান করেন, তবে আপনি বর্গাকার একটি যোগফল পাবেন।n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

বা সুবিধাজনক লগারিদমিক ফর্মে:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

সুতরাং স্কোয়ারের পরিমাণ কমিয়ে আনতে করা (লগ) সম্ভাবনা সর্বাধিক করার সমান (যেমন: একাধিক গাউসীয় বিতরণের পণ্য বা মাল্টিভারিয়েট গাউসিয়ান বিতরণ)।μ

এটি তাত্পর্যপূর্ণ কাঠামোর ভিতরে পার্থক্যের , এর নেস্টেড বর্গ , যা অন্য বিতরণগুলিতে নেই।(μx)exp[(xiμ)2]


পয়সন বিতরণের ক্ষেত্রে উদাহরণের সাথে তুলনা করুন

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

নিম্নলিখিতটি কমানোর সময় সর্বাধিক থাকে:

μjlog(μj)xij

যা আলাদা জন্তু।


অতিরিক্ত (ইতিহাস)

সাধারণ বিতরণের ইতিহাস (ডিওমাইভ্রে দ্বিপদী বিতরণের একটি সীমাবদ্ধতা হিসাবে এই বিতরণে পাওয়া উপেক্ষা করে) আসলে সেই বিতরণের আবিষ্কার হিসাবে এমএলইকে ন্যূনতম স্কোয়ার পদ্ধতির সাথে সামঞ্জস্য করে (স্বল্প স্কোয়ার পদ্ধতিটি একটি পদ্ধতির পরিবর্তে) এটি সাধারণ বিতরণের এমএলই প্রকাশ করতে পারে, প্রথমে সর্বনিম্ন স্কোয়ার পদ্ধতিটি এসেছে, দ্বিতীয়টি এসেছে গাউসীয় বিতরণ)

নোট করুন যে গৌস, 'সর্বোচ্চ সম্ভাবনার পদ্ধতিটি' 'ন্যূনতম স্কোয়ারের পদ্ধতির' সাথে সংযুক্ত করে 'গাউসীয় বিতরণ' নিয়ে এসেছিলেন, , ত্রুটিগুলির একমাত্র বিতরণ হিসাবে আমাদের দিকে নিয়ে যায় দুটি পদ্ধতির মধ্যে এই সংযোগ তৈরি করুন।ex2

চার্লস হেনরি ডেভিসের অনুবাদ থেকে (স্বর্গীয় দেহগুলির গতির তত্ত্ব তাত্ত্বিক অংশে সূর্যকে কেন্দ্র করে। গৌসের "থিওরিয়া মোটিস," একটি পরিশিষ্ট সহ একটি অনুবাদ) ...

গাউস সংজ্ঞা দেয়:

তদনুসারে, সম্ভাব্যতা প্রতিটি ত্রুটি সাথে সংযুক্ত করার উদ্দেশ্যে হবে একটি ফাংশন দ্বারা প্রকাশ করা যেতে যা আমরা দ্বারা বোঝাতে হইবে ।ΔΔψΔ

(ইটালাইজেশন আমার দ্বারা সম্পন্ন)

এবং অব্যাহত রয়েছে ( বিভাগ 177 পৃষ্ঠা 258 ):

... যেহেতু এটি সহজেই অনুমান করা হয় যে অবশ্যই একটি ধ্রুব পরিমাণ হতে হবে। যা আমরা দ্বারা বোঝাতে চাই । অতএব আমাদের কাছে হাইপারবোলিক লগারিদমের ভিত্তি ইয়ে দ্বারা চিহ্নিত করে এবংψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

শেষ হচ্ছে (স্বাভাবিককরণের পরে এবং উপলব্ধি করার পরে )k<0

ψΔ=hπehhΔΔ


লিখেছেন স্ট্যাকএক্সচেঞ্জ স্ট্রাইক


আপনি এই জ্ঞান কোথা থেকে পেয়েছেন মনে আছে? আপনি কি আপনার পোস্টে উত্স যুক্ত করতে আপত্তি করবেন? (আমার পাঠ্যপুস্তকটি খুঁজে পেতে খুব কষ্ট হচ্ছে যা এটি ভালভাবে ব্যাখ্যা করে))
জূয়ে

@ জুয়েই আমি গাউসের অনুবাদিত উদ্ধৃতিগুলির পাশাপাশি উত্সের শিরোনাম এবং অনেক অনলাইন উত্সের একটিতে একটি লিঙ্ক যুক্ত করেছি। এই মূল পাঠ্যটি ভারী, তবে সাধারণ বিতরণের ইতিহাসের কোনও বিবরণে আপনার হালকা চুক্তিগুলির মুখোমুখি হওয়া উচিত।
সেক্সটাস এম্পেরিকাস

সম্ভাবনা ফাংশন অনেক জায়গায় পপ আপ হয়। যদি আপনি এই 'জ্ঞান' কোথায় পেয়েছেন এমন উত্সগুলি সন্ধান করেন তবে আমি অনুমান করি যে পিয়ারসনের 1900 প্রবন্ধটি চি-স্কোয়ার পরীক্ষা সম্পর্কে বলতে পারেন যেখানে মাল্টিভারিয়েট স্বাভাবিক বন্টনকে জ্যামিতিকভাবে চিকিত্সা করা হয়। এছাড়াও ফিশার জ্যামিতিক উপস্থাপনাগুলি বেশ কয়েকবার ব্যবহার করেছিলেন (উদাহরণস্বরূপ, 20 এর দশকে এই একটি নিবন্ধটি রয়েছে যেখানে অনুমানের দক্ষতার বিষয়ে, যেখানে তিনি গড় বর্গাকার ত্রুটির তুলনা করেন এবং নিখুঁত ত্রুটি বোঝায় এবং যেখানে তিনি হাইপারস্পেসের পৃষ্ঠতল সম্পর্কে কথা বলেন)।
সেক্সটাস এম্পেরিকাস

@ জুয়ি আমি এখানে আগে এই ফিশার নিবন্ধটি একটি রেফারেন্স তৈরি করেছি । এবং আমার উত্তর এখানে জ্যামিতিক দৃষ্টিভঙ্গি ব্যবহার করে টি-বিতরণের কোনও সম্পত্তি ফিশারের সাথে সম্পর্কিতও রয়েছে (আমি নিবন্ধটি বিশ্বাস করি যেখানে তিনি গোসেটের টি-বিতরণ বা সম্ভবত কিছুটা পরে নিবন্ধের প্রমাণ দিয়েছেন)।
সেক্সটাস এম্পেরিকাস

5

কারণ এমএলই সাধারণভাবে বিতরণকৃত অনুমানের ধারণা থেকে উদ্ভূত হয়েছে।

মনে রাখবেন যে

minβ  Xβy2

আছে কোন সম্ভাব্য অর্থ : শুধু খুঁজে যে স্কোয়ারড ক্ষতি ফাংশন কমান। সমস্ত কিছুই নির্বিচারে এবং সেখানে কোনও এলোমেলো উপাদান নেই।β

সম্ভাবনা এবং সম্ভাবনা ধারণাটি যেখানে আসে, আমরা এটি ধরে নিই

y=Xβ+ϵ

যেখানে আমরা কে একটি এলোমেলো পরিবর্তনশীল হিসাবে বিবেচনা করছি এবং সাধারণত বিতরণ করা হয়।yϵ


@ ম্যাথিউ ড্রুরি ম্যাট্রিক্স স্বরলিপি পরিবর্তন করে যোগফলের চিহ্নটি যোগ করবেন কেন?
হাইটাও ডু

আমি বুঝতে পেরেছি এটি পরিষ্কার হয়ে যাবে, তবে যদি আপনার দাবি যে কোনও বিবৃতিটির ইতিবাচক অর্থ নেই, আপনি চিহ্নগুলির সাথে একটি অভিব্যক্তি ব্যবহার করতে পারবেন না যা এলোমেলো ভেরিয়েবল হিসাবে সর্বোত্তমভাবে ব্যাখ্যা করা যায়। আপনি যে অপটিমাইজেশন সমস্যাটি পুনরায় পরিশোধ করছেন তা স্থির ডেটার সাথে সম্পর্কিত, আমি তা স্পষ্ট করে দিয়েছি।
ম্যাথু ড্রুরি

5

সর্বনিম্ন স্কোয়ার এবং সর্বাধিক (গাউসিয়ান) সম্ভাব্য ফিটগুলি সর্বদা সমান। এটি হ'ল এগুলি একই সংখ্যার সহগ সহ সেট করা হয়।

ত্রুটিগুলির উপর অনুমান পরিবর্তন করা আপনার সম্ভাবনা ফাংশনকে বদলে দেয় (কোনও মডেলের সম্ভাবনা সর্বাধিকীকরণ ত্রুটি শর্তের সম্ভাবনা সর্বাধিক করার সমতুল্য), এবং সেইজন্য একই গুণফলকের সেট দ্বারা ফাংশনটি আর হ্রাস করা হবে না।

সুতরাং অনুশীলনে দুটি একই, তবে তত্ত্ব অনুসারে, আপনি যখন আলাদা সম্ভাবনা সর্বাধিকতর করেন, তখন আপনি কম-বর্গগুলির চেয়ে আলাদা উত্তর পেয়ে যাবেন


"বা সর্বদা সমতুল্য"?
nbro

0

একটি সুনির্দিষ্ট উদাহরণ: ধরুন আমরা একটি সাধারণ ত্রুটি পি (1) =। 9, পি (-9) = .10 গ্রহণ করি। আমরা যদি দুটি পয়েন্ট নিই, তবে এলএস কেবল তাদের মধ্য দিয়ে লাইন নিতে চলেছে। অন্যদিকে, এমএল ধরে নিচ্ছে যে উভয় পয়েন্ট একটি ইউনিট খুব বেশি, এবং এইভাবে ইউনিটে স্থানান্তরিত পয়েন্টগুলির মধ্য দিয়ে লাইনটি গ্রহণ করবে।


2
আপনার উদাহরণটি অস্পষ্ট; বিশেষত, আপনি কোন মডেলটি বর্ণনা করার চেষ্টা করছেন বা এমএল আপনার দাবির ফলাফল কেন প্রকাশ করবে তা দেখা মুশকিল। আপনি কি এই উত্তর আরও বিশদ বর্ণনা করতে পারেন?
whuber

মডেলটি হ'ল y = mx + b + ত্রুটি, যেখানে ত্রুটিটি +1 হওয়ার 90% সম্ভাবনা এবং -9 হওয়ার 10% সম্ভাবনা রয়েছে। যে কোনও পর্যবেক্ষণকৃত বিন্দু দেওয়া, সত্য পয়েন্টটির নীচে এক ইউনিট হওয়ার সম্ভাবনা 90% এবং উপরে নয় ইউনিট হওয়ার 10% সম্ভাবনা থাকে। সুতরাং, এমএল দেয় যে সত্য পয়েন্টটি নীচে এক ইউনিট। আপনি এই সম্পর্কে কি বুঝতে না?
সংগৃহীত

2
আপনার মন্তব্য সহায়ক, কিন্তু আপনার উত্তর এখনও কোনও স্পষ্ট বা বোধগম্যভাবে মডেলটির বর্ণনা দেয় না। আপনি কি উত্তরটি নিজেই সেই ব্যাখ্যাটি সংযুক্ত করতে পারবেন? এটি একটি দুর্দান্ত উদাহরণ।
শুক্র
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.