লিনিয়ার রিগ্রেশন-এ সাধারণ ধারণা কেন ass


15

আমার প্রশ্নটি খুব সহজ: আমরা ত্রুটি শব্দটি লিনিয়ার রিগ্রেশন অনুমানের অনুসরণ করে এমন বিতরণ হিসাবে কেন সাধারণকে বেছে নিই? কেন আমরা অন্যকে ইউনিফর্ম, টি বা যাই হোক না কেন পছন্দ করি না?


5
আমরা সাধারণ অনুমান বেছে নিই না। এটি কেবল ক্ষেত্রে ঘটে যায় যখন ত্রুটিটি স্বাভাবিক হয়, তখন মডেল সহগগুলি ঠিক একটি সাধারণ বিতরণ অনুসরণ করে এবং তাদের সম্পর্কে অনুমানগুলি পরীক্ষা করার জন্য একটি সঠিক এফ-টেস্ট ব্যবহার করা যেতে পারে।
অ্যাডামো

10
কারণ গণিতটি সহজেই সহজে কাজ করে যা আধুনিক কম্পিউটারগুলির আগে লোকেরা এটি ব্যবহার করতে পারে।
নাট

1
@ অ্যাডামো আমি বুঝতে পারি না; আমরা কেন এটি বেছে নেওয়ার কারণগুলি স্রেফ প্রকাশ করেছি।
জিকে

2
@ জিক যদি আমি বিতরণগুলি বেছে নিতে পারি তবে পরিসংখ্যানের কোনও প্রয়োজন হবে না। পুরো বিশ্ব সম্ভাবনা হতে হবে।
অ্যাডামো

1
@ অ্যাডামো আপনি যখন পরিসংখ্যানগত অনুমান করছেন তখন আপনি আপনার মডেলের জন্য অনুমানগুলি বেছে নিতে পারেন, সুতরাং আমি মনে করি না যে এর অর্থের কোনও পরিসংখ্যান নেই।
জাইকি

উত্তর:


29

আমরা অন্যান্য ত্রুটি বিতরণ পছন্দ করি না। আপনি অনেক ক্ষেত্রে মোটামুটি সহজেই করতে পারেন; আপনি যদি সর্বাধিক সম্ভাবনা অনুমান ব্যবহার করেন তবে এটি ক্ষতির কার্যকারিতা পরিবর্তন করবে। এটি অবশ্যই অনুশীলনে করা হয়।

ল্যাপ্লেস (ডাবল এক্সফোনেনশিয়াল ত্রুটি) সর্বনিম্ন নিখুঁত বিচ্যুতি রিগ্রেশন / এল 1 এর সাথে মিলL1 রিগ্রেশন (যা সাইটটিতে অসংখ্য পোস্ট আলোচনা করে) এর সাথে সম্পর্কিত। টি-ত্রুটিযুক্ত অঞ্চলগুলিতে মাঝে মধ্যে ব্যবহৃত হয় (কিছু ক্ষেত্রে তারা গুরুতর ত্রুটিগুলির তুলনায় আরও দৃust় হয়) তবে তাদের অসুবিধা হতে পারে - সম্ভাবনা (এবং ফলে ক্ষতির নেতিবাচক) একাধিক মোড থাকতে পারে।

ইউনিফর্ম ত্রুটিগুলি একটি এল ক্ষতির সাথে মিলিত হয় (সর্বাধিক বিচ্যুতি হ্রাস করুন); এই ধরনের নিপীড়নকে কখনও কখনও চেবিশেভ আনুমানিকতা বলা হয় (যদিও সাবধান থাকুন, যেহেতু একই নামের সাথে অন্য কোনও জিনিস রয়েছে)। আবার এটি কখনও কখনও করা হয় (সত্যিকারের সরল পেনশন এবং ছোট্ট ডেটা সেটগুলির জন্য ধ্রুবক স্প্রেডের সাথে সীমানাযুক্ত ত্রুটিযুক্ত ফিটগুলি হ'ল হাতের দ্বারা সরাসরি খুঁজে পাওয়া যথেষ্ট সহজ, সরাসরি একটি প্লটে, যদিও বাস্তবে আপনি লিনিয়ার প্রোগ্রামিং পদ্ধতি বা অন্যান্য অ্যালগরিদম ব্যবহার করতে পারেন ; প্রকৃতপক্ষে, এল এবং এল1 রিগ্রেশন সমস্যাগুলি একে অপরের দ্বৈত, যা কিছু সমস্যার জন্য কখনও কখনও সুবিধাজনক শর্টকাট নিয়ে যেতে পারে)।

আসলে, হাতে হাতে ডেটা লাগানো "ইউনিফর্ম ত্রুটি" মডেলের উদাহরণ এখানে:

হাত দিয়ে লাগানো এল-ইনফিনিটি রিগ্রেশন।  ডেটা পয়েন্টের স্ট্রিপের নীচে দুটি "সর্বনিম্ন" পয়েন্ট চিহ্নিত করা হয় এবং ডেটার স্ট্রিপের উপরে দুটি "সর্বোচ্চ" পয়েন্ট চিহ্নিত করা হয়।

এটি চিহ্নিত করা সহজ (ডেটার দিকে স্ট্রেইটজ স্লাইড করে) যে চারটি চিহ্নিত পয়েন্টই সক্রিয় সেটে থাকার একমাত্র প্রার্থী; তাদের মধ্যে তিনটি আসলে সক্রিয় সেট গঠন করবে (এবং শীঘ্রই একটি সামান্য চেকিং সনাক্ত করবে যা তিনটি সংকীর্ণ ব্যান্ডের দিকে নিয়ে যায় যা সমস্ত তথ্য পরিবেষ্টিত করে)। সেই ব্যান্ডের কেন্দ্রে অবস্থিত লাইনটি (লাল রঙে চিহ্নিত) এর পরে লাইনটির সর্বাধিক সম্ভাবনার অনুমান।

মডেলের অন্যান্য পছন্দগুলি সম্ভব এবং বেশ কয়েকটি ব্যবহারে ব্যবহার করা হয়েছে।

মনে রাখবেন আপনি ফর্ম একটি ঘনত্ব যুত, স্বাধীন, নির্দিষ্ট-বিস্তার ত্রুটি আছে যদি kexp(c.g(ε)) , সম্ভাবনা পূর্ণবিস্তার কমানোর মিলা হবেig(ei) , যেখানেei হয়i তম অবশিষ্ট।

তবে বিভিন্ন কারণ রয়েছে যে সর্বনিম্ন স্কোয়ারগুলি একটি জনপ্রিয় পছন্দ, যার মধ্যে অনেকগুলি স্বাভাবিকতার কোনও অনুমানের প্রয়োজন হয় না।


2
দুর্দান্ত উত্তর। আপনি কি কিছু লিঙ্ক যুক্ত করতে আপত্তি জানবেন যা এই পরিবর্তনগুলি বাস্তবে ব্যবহৃত হয় সে সম্পর্কে আরও বিশদ দেয়?
rgk

(+1) দুর্দান্ত উত্তর। আপনি ঝুলানো জন্য ব্যবহৃত r-কোড শেয়ারিং মনে করবে -Regression লাইন? L
COOLSerdash

1
আমি যেমন পাঠ্যটিতে ব্যাখ্যা করেছি, আমি হাতের সাথে এটি ফিট করেছিলাম, আমি বর্ণিত পদ্ধতির সাথে খুব অনুরূপ fashion যদিও কোডটি ব্যবহার করে এটি সহজেই করা যায়, আমি আক্ষরিকভাবে এমএস পেইন্টে প্লটটি খুললাম এবং সক্রিয় সেটটিতে তিনটি পয়েন্ট চিহ্নিত করলাম (যার দুটিতে theাল দেওয়া হয়েছিল) - এবং পরে তৃতীয় পয়েন্টটির দিকে রেখাটি অর্ধেক সরানো হয়েছে (পিক্সেলের উল্লম্ব দূরত্ব অর্ধেক করে এবং লাইনটিকে বহু পিক্সেল উপরে সরিয়ে দিয়ে) - বিষয়টি কতটা সহজ হতে পারে তা বোঝানোর জন্য পয়েন্টটি। একটি শিশু এটি করতে শেখানো যেতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি আসলে, আমি কিশোর ছিলাম যখন আমাকে নতুন পদার্থবিজ্ঞানের গবেষণাগারে ঠিক এটি করতে শেখানো হয়েছিল।
পিটার লিওপল্ড

9

সাধারণ / গাউসীয় অনুমানটি প্রায়শই ব্যবহৃত হয় কারণ এটি সর্বাধিক গণনীয় সুবিধাজনক পছন্দ। রিগ্রেশন সহগের সর্বাধিক সম্ভাবনা অনুমানের গণনা করা একটি চতুষ্কোণ ক্ষুদ্রায়ন সমস্যা, যা শুদ্ধ রৈখিক বীজগণিত ব্যবহার করে সমাধান করা যেতে পারে। শব্দ বিতরণের অন্যান্য পছন্দগুলি আরও জটিল অপটিমাইজেশন সমস্যা দেয় যা সাধারণত সংখ্যার সমাধান করতে হয়। বিশেষত, সমস্যাটি নন-উত্তল হতে পারে, অতিরিক্ত জটিলতা দেয়।

সাধারনত সাধারণভাবে একটি ভাল অনুমিতি হয় না। সাধারণ বিতরণে খুব হালকা লেজ থাকে এবং এটি রিগ্রেশন অনুমানটিকে বহিরাগতদের কাছে যথেষ্ট সংবেদনশীল করে তোলে। ল্যাপলেস বা শিক্ষার্থীর টি বিতরণের মতো বিকল্পগুলি প্রায়শই উচ্চতর হয় যদি পরিমাপের ডেটাতে বিদেশী থাকে।

আরও তথ্যের জন্য পিটার হুবারের আধ্যাত্মিক বই রবস্ট স্ট্যাটিস্টিকস দেখুন।


2

এই হাইপোথিসিসের সাথে কাজ করার সময়, স্কোয়ার-এরগুলি ভিত্তিক রিগ্রেশন এবং সর্বাধিক সম্ভাবনা আপনাকে একই সমাধান দেয়। আপনি গুণমানের তাৎপর্যের জন্য সাধারণ এফ-টেস্টগুলি পাওয়ার পাশাপাশি আপনার ভবিষ্যদ্বাণীগুলির জন্য আস্থা অন্তর অন্তর্ভুক্ত করতেও সক্ষম।

উপসংহারে, আমরা প্রায়শই সাধারণ বন্টন বেছে নেওয়ার কারণ হ'ল এর বৈশিষ্ট্য, যা প্রায়শই জিনিসগুলিকে সহজ করে তোলে। এটি খুব সীমাবদ্ধ ধারণাও নয়, কারণ অন্যান্য অনেক ধরণের ডেটা "সাধারণভাবে" আচরণ করবে

যাইহোক, পূর্বের উত্তরে উল্লিখিত হিসাবে, অন্যান্য বিতরণের জন্য রিগ্রেশন মডেলগুলি সংজ্ঞায়িত করার সম্ভাবনা রয়েছে। সাধারণটি সর্বাধিক পুনরাবৃত্তি হিসাবে ঘটে


2

গ্লেেন_বি সুন্দরভাবে ব্যাখ্যা করেছেন যে ওএলএসের রিগ্রেশন সাধারণীকরণ করা যেতে পারে (স্কোয়ারের পরিমাণ কমিয়ে দেওয়ার পরিবর্তে সম্ভাবনা সর্বাধিক করে তোলা) এবং আমরা কি অন্যান্য ডিস্ট্রিবিউশন চয়ন।

তবে কেন সাধারণ বিতরণটি তাই বেছে নেওয়া হয় ঘন ঘন ?

কারণটি হ'ল স্বাভাবিক বিতরণ প্রাকৃতিকভাবে অনেক জায়গায় ঘটে। এটি কিছুটা একইরকম আমরা প্রায়শই দেখি যে স্বর্ণের অনুপাত বা ফিবোনাচি সংখ্যাগুলি প্রকৃতির বিভিন্ন জায়গায় "স্বতঃস্ফূর্তভাবে" ঘটছে।

সাধারণ বন্টন হ'ল সীমাবদ্ধ বৈকল্পিকের সাথে সীমাবদ্ধ বিতরণ সীমাবদ্ধ বৈকল্পিক (বা কম কঠোর বিধিনিষেধগুলিও সম্ভব)। এবং, সীমা না নিয়ে, এটি সীমাবদ্ধ সংখ্যার ভেরিয়েবলের যোগফলের জন্যও একটি ভাল অনুমান। সুতরাং, যেহেতু অনেকগুলি পর্যবেক্ষণ করা ত্রুটিগুলি অনেকগুলি সামান্য সংরক্ষণযোগ্য ত্রুটির সমষ্টি হিসাবে দেখা দেয়, তাই সাধারণ বিতরণটি একটি ভাল আনুমানিক।

এখানেও দেখুন সাধারণ বিতরণের গুরুত্ব

যেখানে গ্যাল্টনের শিম মেশিনগুলি নীতিটি স্বজ্ঞাতভাবে দেখায়

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png


-1

কেন আমরা অন্যান্য বিতরণগুলি বেছে নিই না?

yiRxiRnxi

y^i=wxi.

আশ্চর্যজনক ক্ষতি সাধারণত সবচেয়ে বুদ্ধিমান ক্ষতি:

L=logP(yixi).

উপরের সমীকরণে স্থির বৈকল্পিকতা সহ একটি সাধারণ ঘনত্ব ব্যবহার হিসাবে আপনি লিনিয়ার রিগ্রেশনকে ভাবতে পারেন:

L=logP(yixi)(yiy^i)2.

এটি ওজন আপডেটের দিকে নিয়ে যায়:

wL=(y^iyi)xi


সাধারণভাবে, আপনি যদি অন্য তাত্পর্যপূর্ণ পরিবার বিতরণ ব্যবহার করেন তবে এই মডেলটিকে সাধারণীকরণীয় রৈখিক মডেল বলা হয় । বিভিন্ন বিতরণ একটি ভিন্ন ঘনত্বের সাথে মিলে যায় তবে ভবিষ্যদ্বাণী, ওজন এবং লক্ষ্য পরিবর্তন করে এটি আরও সহজেই আনুষ্ঠানিকভাবে তৈরি হতে পারে।

WRn×k

তোমার দর্শন লগ করা^আমি(ওয়াটএক্সআমি)

কোথায় :আরআরবলা হয় লিংক ফাংশন বা গ্রেডিয়েন্ট লগ-normalizer । এবং, লক্ষ্যYআমিপর্যাপ্ত পরিসংখ্যান নামক ভেক্টরে পরিবর্তিত হয় তোমার দর্শন লগ করাআমি=টি(Yআমি)আর

Each link function and sufficient statistics corresponds to a different distributional assumption, which is what your question is about. To see why, let's look at a continuous-valued exponential family's density function with natural parameters η:

f(z)=h(z)exp(ηT(z)g(η)).

Let the natural parameters η be wxi, and evaluate the density at the observed target z=yi. Then, the loss gradient is

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,
which has the same nice form as linear regression.


As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.


This is very short and too cryptic for our standards, please also explain surprisal.
kjetil b halvorsen

1
"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.
Sextus Empiricus

1
The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation f and a normalizing transformation g" I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.
Sextus Empiricus

1
Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.
Sextus Empiricus

1
@ নীল জি: আমি কি অলস? আপনি সহজেই মূল পোস্টে আশ্চর্যজনক অন্তর্ভুক্ত করতে পারতেন , হ্যাঁ? এছাড়াও, যখন আমি এই জাতীয় মন্তব্য করি তখন আমার নিজের চেয়ে সাইটের পক্ষে আরও বেশি। এই সাইটটি স্বনির্ভর থাকার কথা। আমি এর অর্থ অনুধাবন করতে / করতে পারি (যদিও এটি পরিসংখ্যানগুলিতে মানহীন পরিভাষা হলেও), আপনি এখানে
কেজেটিল বি হালওয়ারসেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.