কেন লিনিয়ার রিগ্রেশন অনুমান এবং ইনপুট ডেটার পয়েন্টের মধ্যে উল্লম্ব দূরত্বের ভিত্তিতে ব্যয় ফাংশন ব্যবহার করে?


14

ধরা যাক আমাদের ইনপুট (প্রেডিকটার) এবং আউটপুট (প্রতিক্রিয়া) ডেটা পয়েন্ট এ, বি, সি, ডি, ই রয়েছে এবং আমরা পয়েন্টগুলির মধ্যে একটি লাইন ফিট করতে চাই। প্রশ্নটি চিত্রিত করার জন্য এটি একটি সাধারণ সমস্যা, তবে উচ্চতর মাত্রায়ও বাড়ানো যেতে পারে।

সমস্যা বিবৃতি

এখানে চিত্র বর্ণনা লিখুন

বর্তমানের সেরা ফিট বা অনুমানটি উপরের কৃষ্ণাঙ্গ রেখা দ্বারা প্রতিনিধিত্ব করা হয় । নীল তীর ( ) বিন্দু থেকে লাইনটি ছেদ না করা অবধি লম্বালম্বী রেখাঙ্কন করে ডেটা পয়েন্ট এবং বর্তমান সেরা ফিটের মধ্যে উল্লম্ব দূরত্বকে উপস্থাপন করে।

সবুজ তীরটি ( ) এমনভাবে টানা হয় যে এটি ছেদ বিন্দুতে বর্তমান অনুমানের লম্ব হয় এবং এভাবে ডেটা পয়েন্ট এবং বর্তমান অনুমানের মধ্যে সর্বনিম্ন দূরত্বকে উপস্থাপন করে। A এবং B বিন্দুগুলির জন্য, একটি রেখাটি এমনভাবে আঁকা যে এটি বর্তমান সেরা অনুমানের সাথে উল্লম্ব এবং এটি একটি অক্ষরের মতো যা এক্স অক্ষের সাথে উল্লম্ব। এই দুটি পয়েন্টের জন্য, নীল এবং সবুজ রেখাগুলি ওভারল্যাপ করে তবে তারা সি, ডি এবং ই পয়েন্টগুলির জন্য নয়

ন্যূনতম স্কোয়ারের নীতিটি কোনও নির্দিষ্ট প্রশিক্ষণ চক্রের উপাত্তের অনুমান ( ) থেকে ডেটা পয়েন্টগুলি (এ, বি, সি, ডি বা ই) মাধ্যমে উল্লম্ব রেখা অঙ্কন করে লিনিয়ার রিগ্রেশনের জন্য ব্যয় কার্যকারিতা সংজ্ঞায়িত করে এবং প্রতিনিধিত্ব করে

Cosটিএফতোমার দর্শন লগ করাএনটিআমিএন=Σআমি=1এন(Yআমি-θ(এক্সআমি))2

এখানে ডেটা পয়েন্টগুলি উপস্থাপন করে এবং h θ ( x i ) সেরা ফিটকে উপস্থাপন করে।(এক্সআমি,Yআমি)θ(এক্সআমি)

একটি বিন্দুর মধ্যে সর্বনিম্ন দূরত্ব (A, B, C, D বা E) সেই বিন্দু থেকে বর্তমান সেরা অনুমানের (সবুজ তীর) দিকে আঁকা লম্ব লাইন দ্বারা প্রতিনিধিত্ব করা হয়।

সর্বনিম্ন বর্গক্ষেত্রের লক্ষ্য হ'ল একটি উদ্দেশ্যমূলক ক্রিয়াকে সংজ্ঞায়িত করা হয় যা হ্রাস করা হলে অনুমান এবং সংযুক্ত সমস্ত পয়েন্টের মধ্যে নূন্যতম দূরত্বকে জন্ম দেয়, তবে অনুমান এবং একক ইনপুট পয়েন্টের মধ্যে অগত্যা দূরত্বকে হ্রাস করবে না।

** প্রশ্ন **

ইনপুট ডেটাপয়িন দিয়ে ( ) প্রদত্ত ইনপুট ডেটা পয়েন্ট এবং অনুমানের (অনুমানের একটি লম্ব লম্ব দ্বারা সংজ্ঞায়িত) মধ্যে অন্তত দূরত্ব হিসাবে আমরা লিনিয়ার রিগ্রেশনের জন্য ব্যয় কার্যকারিতাটি কেন সংজ্ঞায়িত করি না ?


5
সাধারণ লিনিয়ার রিগ্রেশন ধরে নেয় যে পর্যবেক্ষণগুলির এক্স-কো-অর্ডিনেটের মানগুলিতে কোনও ত্রুটি নেই (উদাহরণস্বরূপ যে তারা পরীক্ষামূলক ম্যানিপুলেশন) ulations এক্স-অক্ষের মধ্যে ত্রুটি থাকলে আপনার প্রস্তাবিতের মতো ব্যয় ফাংশন হ্রাস করে যে কেউ তাদের জন্য অ্যাকাউন্ট করতে পারে; এর জন্য এক্স এবং y অক্ষের ত্রুটির বৈচিত্রের মধ্যে অনুপাত নির্ধারণ করতে হবে। যদি অনুপাত , এটি পয়েন্ট এবং লাইনের (অরথোগোনাল রিগ্রেশন) এর মধ্যে লম্ব দূরত্বকে হ্রাস করার পরিমাণ। অনুপাত যদি 1 এটা বলা হয় Deeming রিগ্রেশন=11
Matteo

পিসিএ এই পোস্টটি দেখুন: cerebralmastication.com/2010/09/…
জেমস

উত্তর:


13

আপনি যখন নির্ভরশীল ভেরিয়েবল (উল্লম্ব ত্রুটি) এবং স্বতন্ত্র ভেরিয়েবল (অনুভূমিক ত্রুটি) উভয়টিতে শব্দ করেন, তখন এই অনুভূমিক ত্রুটিগুলি অন্তর্ভুক্ত করতে সর্বনিম্ন স্কোয়ারজ অবজেক্টিভ ফাংশনটি পরিবর্তন করা যেতে পারে। এই দুটি ধরণের ত্রুটি কীভাবে ওজন করা যায় তা নিয়ে সমস্যা। এই ওজনটি সাধারণত দুটি ত্রুটির পরিবর্তনের অনুপাতের উপর নির্ভর করে:

  1. যদি উলম্ব ত্রুটির বৈকল্পিক অনুভূমিক ত্রুটির পরিবর্তনের তুলনায় অত্যন্ত বড় হয়, তবে ওএলএস সঠিক is
  2. অনুভূমিক ত্রুটি ভ্যারিয়েন্স উল্লম্ব ত্রুটি ভ্যারিয়েন্স অত্যন্ত বড় আত্মীয় লিস্ট স্কোয়ার বিপরীত (যেখানে হয়, তাহলে উপর regressed হয় Y এবং জন্য সহগ হিসাব বিপরীত Y হিসেব হিসাবে ব্যবহার করা হয় β ) উপযুক্ত।এক্সYYβ
  3. অনুভূমিক ত্রুটির পরিবর্তনের অনুভূমিকটি যদি অনুভূমিক ত্রুটির বৈকল্পিকের সাথে নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলের পরিবর্তনের অনুপাতের সমান হয়, তবে আমাদের কাছে "তির্যক" রিগ্রেশনের ক্ষেত্রে আছে, যেখানে একটি সামঞ্জস্যপূর্ণ অনুমান পরিণত হয় ওএলএসের জ্যামিতিক গড় এবং বিপরীততম সর্বনিম্ন বর্গাকার অনুমানকারী হন।
  4. যদি এই ত্রুটিটির বৈকল্পিকগুলির অনুপাত এক হয়, তবে আমাদের "অরথোগোনাল" রিগ্রেশনের কেস রয়েছে, যেখানে অনুমানের রেখার লম্বের লম্ব বরাবর পরিমাপ করা স্কোয়ার ত্রুটির যোগফল হ্রাস করা হয়। এটি আপনার মনে ছিল।

অনুশীলনে, এই পদ্ধতির দুর্দান্ত ত্রুটিটি হ'ল ত্রুটির পরিবর্তনের অনুপাতটি সাধারণত জানা যায় না এবং সাধারণত অনুমান করা যায় না, সুতরাং এগিয়ে যাওয়ার পথটি পরিষ্কার নয়।


আমি প্রথম বাক্যে "নির্ভরশীল" কে "স্বতন্ত্র" হিসাবে পরিবর্তন করতে সম্পাদনা করার চেষ্টা করেছি তবে সম্পাদনাগুলি অবশ্যই 6 টি অক্ষর হতে হবে। টাইপো ঠিক করতে উত্তর আপডেট করবেন?
রায়ান স্টাউট

@ রায়ানস্টাউট ধন্যবাদ, এবং সম্পন্ন হয়েছে। আমি মনে করি স্পেসগুলি সন্নিবেশ করানো আপনার চারপাশে পাবেন।
দিমিত্রি ভি। মাস্টারভ 21

এখন আমি কিছুটা বিভ্রান্ত হয়েছি: উল্লম্ব ত্রুটিগুলি নির্ভরশীল ভেরিয়েবলের (y) ত্রুটিগুলি এবং স্বাধীন ভেরিয়েবল (এক্স) এর অনুভূমিক ত্রুটিগুলি না?
রায়ান স্টাউট

@ রায়ানস্টাউট আমি আবার এলোমেলো করে দিয়েছি
দিমিত্রি ভি। মাস্টারভ

9

এর একটি কারণ হ'ল তুলনামূলকভাবে তুলনা করা এবং অনুকূলকরণ করা সহজ, যখন প্রস্তাবিত ব্যয় N i = 1 মিনিট x , y [ ( y i - h θ ( x ) ) 2 + ( x আমি - এক্স ) 2 ]

Σআমি=1এন(Yআমি-θ(এক্সআমি))2
Σআমি=1এনসর্বনিম্নএক্স,Y[(Yআমি-θ(এক্স))2+ +(এক্সআমি-এক্স)2]
θ(এক্স)

এটা একটা ভাল দিক. আমি ভাবছিলাম যে কীভাবে সাধারণভাবে ফাংশন গণনা করা যায়।
alpha_989

আমি বিন্দু এবং একটি অ-রৈখিক সমতল / পৃষ্ঠের মধ্যবর্তী দূরত্বকে কীভাবে মূল্যায়ন করব তা নিশ্চিতভাবে আমি নিশ্চিত নই, তবে একটি বিন্দু এবং রৈখিক পৃষ্ঠ / বিমানের মধ্যবর্তী দূরত্বটি মূল্যায়নের জন্য আমাদের নেস্টেড মিনিমাইজেশন প্রয়োজন হতে পারে না: mathinsight.org/distance_Point_plane
alpha_989

দ্বিতীয়ত, যখন আমরা রিগ্রেশন ব্যবহার করি, তখন আমাদের লক্ষ্য হ'ল সর্বোত্তম ফিট খুঁজে পাওয়ার জন্য ওজনগুলি মূল্যায়ন করা। আমি যা বুঝতে পারি তা থেকে, প্রকৃত গণনার সময়, আমরা খুব কমই ব্যয়টির ফাংশনটি মূল্যায়ন করি, তবে ব্যয় ফাংশনের কিছু ডেরাইভেটিভ?
alpha_989

1
@whuber। আমি দেখি. একবার আমরা এই দুটি শর্তের জন্য এই অর্থগুলি স্থাপন করলে, আমি সম্মত হই যে সমস্যাগুলির সমাধান করা সমস্যাগুলি ভিন্ন (সেখানে রয়েছে বা এক্সে ত্রুটি হওয়ার সম্ভাবনা নেই)। আমি মনে করি না যে আপনি এই পদগুলির অর্থ সম্পর্কে জ্ঞানী ব্যক্তিদের কাছ থেকে বিস্তৃত চুক্তি পাবেন, তবে এটি একটি দিকের বিষয়।
stochastic

1
@ স্টোস্টাস্টিক আমি সম্মত হলাম "বক্ররেখার ফিটিং" ধারণাটি সম্পর্কে অস্পষ্টতা থাকতে পারে তবে আমি যে প্রতিরোধের আবেদন করছি তা সেরা কর্তৃপক্ষের লেখায় প্রকাশিত হয়েছে।
whuber

2

ওভারসিম্প্লিফাইড সংস্করণটি হ'ল এক্স এর কোনও ত্রুটি নেই বলে ধরে নেওয়া হয়েছে। সুতরাং আপনি উদাহরণস্বরূপ যদি আপনার প্লটের E বিন্দুতে লক্ষ্য করেন তবে এটি ধরে নেওয়া হয় যে এর এক্স স্থানাঙ্কটি যথাযথভাবে সঠিক। সাধারণত যখন আমরা এক্সকে নিয়ন্ত্রণ করতে পারি অন্য কথায় আমরা যখন এটি একটি নির্দিষ্ট মানতে সেট করতে পারি তখন সাধারণত এটি হয়। সেক্ষেত্রে কেবলমাত্র ত্রুটি যে উপস্থিত হতে পারে তা হল ওয়াই দিকনির্দেশক, এবং এ কারণেই ত্রুটি / ব্যয় কার্যকারিতাটি কেবল ওয়াই দিকটি অন্তর্ভুক্ত করে।

যখনই এটি হয় না, যখনই আমরা এক্স এবং এক্স নিয়ন্ত্রণ না করি ত্রুটি থাকতে পারে, লোকেরা ত্রুটি ফাংশনটিতে টাইপ II বা মডেল II রিগ্রেশন এবং এর বিভিন্ন রূপগুলিতে এক্স দিকটি সংযুক্ত করে। এক্স এবং ওয়াইয়ের বিভিন্ন স্কেল যদি এটি করা খুব জটিল হয় তবে আপনার স্বাভাবিককরণ এবং এরকম সম্পর্কে ভাবতে হবে।


1

প্রসাইক হওয়ার ঝুঁকিতে, ত্রুটি ফাংশনটির কারণ হ'ল স্ট্যান্ডার্ড ব্যাখ্যাটি হ'ল এক্স দেওয়া হয় এবং y এর উপাদানটি সর্বোত্তমভাবে বর্ণনা করার (বা ভবিষ্যদ্বাণী করা) চেষ্টা করা হয়। সুতরাং 'x' তে কোনও ত্রুটি নেই। উদাহরণস্বরূপ আপনি আজকের সমাপনী দামের ভিত্তিতে আগামীকাল একটি স্টকের সমাপনী মূল্য চেষ্টা করতে এবং বুঝতে (বা ভবিষ্যদ্বাণী) করতে পারেন। একইভাবে একজন আজকের গড় তাপমাত্রার দিক থেকে আগামীকাল গড় তাপমাত্রাকে বোঝার চেষ্টা করতে পারে। স্পষ্টতই এই উদাহরণগুলি সহজ মনের, তবে সেটাই ধারণা। প্রসঙ্গত, বেশিরভাগ লোকেরা কিছু বুঝতে পারে না, তবে আমি আপনার উদাহরণগুলি থেকে স্পষ্ট মনে করি, যদি কেউ x এর বিরুদ্ধে y প্রতিরোধ করে তবে রেজিস্ট্রেশন লাইনের y এর বিরুদ্ধে x এর রিগ্রেশনগুলির সাথে কোনও বিশেষ সাদৃশ্য থাকতে হবে না। অরথোগোনাল রিগ্রেশন হ'ল রিগ্রেশনের শব্দটি যেখানে কেউ একটি রেখা খুঁজে পাওয়ার চেষ্টা করে যা একটি রেখা থেকে পয়েন্টের দূরত্বকে হ্রাস করে। উদাহরণস্বরূপ, যদি কেউ আইবিএম স্টকের দাম এবং এএপিএল স্টকের দামের মধ্যে সম্পর্ক বোঝার চেষ্টা করে, তবে এটি উপযুক্ত পদ্ধতি হবে।


1

আপনি ঠিক বলেছেন যে, পয়েন্টগুলির মাধ্যমে একটি লাইন ফিটিং করার সময়, অर्थোগোনাল দূরত্ব সর্বাধিক প্রাকৃতিক ক্ষতি ফাংশন যা স্বেচ্ছাচারী রেখাগুলিতে প্রয়োগ করা যেতে পারে (দ্রষ্টব্য যে এক্স-অক্ষের সাথে লম্ব লম্বের জন্য y- দূরত্ব অর্থহীন হয়ে পড়ে)। এই সমস্যাটি বেশ কয়েকটি নামে পরিচিত, যেমন "অরথোগোনাল রিগ্রেশন", বা (সর্বাধিক ব্যবহৃত শব্দ, এএফএআইকে) "অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ" (পিসিএ)। নির্বিচারে ডাইমেনশনে এই সমস্যাটির আলোচনার জন্য দেখুন

স্পথ: "অরথোগোনাল সর্বনিম্ন স্কোয়ারগুলি রৈখিক ম্যানিফোল্ডগুলির সাথে মানানসই।" নিউমারিশে ম্যাথাম্যাটিক 48, পৃষ্ঠা 441–445, 1986

যেমন @aginensky ইতিমধ্যে চিহ্নিত করেছে, লিনিয়ার রিগ্রেশন পেছনের ধারণাটি পয়েন্টগুলির মাধ্যমে একটি লাইনের সাথে মানানসই নয়, প্রদত্ত এক্স-মানগুলির জন্য y- মানগুলির পূর্বাভাস । এ কারণেই কেবল y এর দূরত্ব ব্যবহার করা হয় যা পূর্বাভাসের যথার্থতা।

এক্স(টি)পিআমিআমি=1...এনটি

ওয়াং, পটম্যান, লিউ: "বক্ররেখা-ভিত্তিক স্কোয়ার দূরত্বের মিনিমাইজেশন দ্বারা মেঘকে নির্দেশ করতে ফিটিং বি-স্প্লাইন বক্ররেখা।" গ্রাফিক্সের এসিএম লেনদেনগুলি 25.2, পৃষ্ঠা 214-238, 2006

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.