যখন আমরা লিনিয়ার রিগ্রেশনটি সমাধান করি তখন কি একাধিক স্থানীয় সর্বোত্তম সমাধান হতে পারে?


19

আমি একটি পুরানো সত্য / মিথ্যা পরীক্ষায় এই বিবৃতিটি পড়েছি:

গ্রেডিয়েন্ট ডেসেন্ট ব্যবহার করে স্কোয়ারড ত্রুটির যোগফলকে হ্রাস করে যদি আমরা লিনিয়ার রিগ্রেশন সমস্যার সমাধান করি তবে আমরা একাধিক স্থানীয় সর্বোত্তম সমাধান পেতে পারি।

সমাধান: মিথ্যা

আমার প্রশ্ন, এই প্রশ্নের কোন অংশটি ভুল? কেন এই বিবৃতি মিথ্যা?

উত্তর:


8

এই প্রশ্নটি আকর্ষণীয় ইনফোফার কারণ এটি অপ্টিমাইজেশন তত্ত্ব, অপ্টিমাইজেশন পদ্ধতি এবং পরিসংখ্যানগত পদ্ধতিগুলির মধ্যে কিছু সংযোগ প্রকাশ করে যা পরিসংখ্যানগুলির যে কোনও সক্ষম ব্যবহারকারীর বুঝতে হবে। যদিও এই সংযোগগুলি সহজ এবং সহজেই শিখেছে তবে সেগুলি সূক্ষ্ম এবং প্রায়শই উপেক্ষা করা হয়।

অন্যান্য প্রত্যুত্তরের মন্তব্য থেকে কিছু ধারণা সংক্ষিপ্ত করতে, আমি এখানে উল্লেখ করতে চাই যে "লিনিয়ার রিগ্রেশন" অ-অনন্য সমাধান তৈরি করতে পারে - কেবল তাত্ত্বিকভাবে নয়, বাস্তবে নয়।

সনাক্তকরণের অভাব

প্রথমটি যখন মডেলটি সনাক্তযোগ্য নয়। এটি এক উত্তল তৈরি করে তবে কঠোরভাবে উত্তল উদ্দেশ্যমূলক ফাংশন তৈরি করে না যার একাধিক সমাধান রয়েছে।

উদাহরণস্বরূপ, ডেটা ) এর জন্য এবং বিপরীতে (এক ইন্টারসেপ্ট সহ) । একটি সমাধান হ'ল । অন্যটি হ'ল । একাধিক সমাধান থাকতে হবে তা দেখতে, তিনটি বাস্তব পরামিতি এবং ফর্মটিতে একটি ত্রুটি শব্দ term দিয়ে মডেলটিকে প্যারামিটারাইজ করুনএক্স Y ( এক্স , Y , z- র ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) z- র = 1 + + Y z- র = 1 - এক্স ( λ , μ , ν ) εzxy(x,y,z)(1,1,0),(2,2,1),(3,3,2)z^=1+yz^=1x(λ,μ,ν)ε

z=1+μ+(λ+ν1)x+(λν)y+ε.

অবশিষ্টাংশের বর্গের যোগফলকে সরল করে

SSR=3μ2+24μν+56ν2.

(এটি বাস্তবে উত্থাপিত অবজেক্টিভ ফাংশনগুলির একটি সীমাবদ্ধ ঘটনা, যেমন কোনও এম-এসিমেটরের অভিজ্ঞতামূলক হেসিয়ান কি অনির্দিষ্টকালীন হতে পারে? যেখানে আপনি বিশদ বিশ্লেষণগুলি পড়তে পারেন এবং ফাংশনের প্লটগুলি দেখতে পারেন।)

কারণ স্কোয়ারের সহগগুলি ( এবং ) ধনাত্মক এবং নির্ধারক ধনাত্মক, এটি in এ একটি ইতিবাচক-অর্ধ-চতুর্ভূজ চতুর্ভুজ আকার) । হলে এটি হ্রাস করা হয় , তবে যে কোনও মান থাকতে পারে। যেহেতু অবজেক্টিভ ফাংশন নির্ভর করে না , তেমনি এর গ্রেডিয়েন্ট (বা অন্য কোনও ডেরাইভেটিভস )ও করে না। অতএব, কোনও গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদম - যদি এটি দিকের কিছু স্বেচ্ছাসেবী পরিবর্তন না করে সমাধানের মানটি শুরু মান হিসাবে যাই হোক না কেন সেট করে ।56 3 × 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3563×56(24/2)2=24(μ,ν,λ)μ=ν=0λSSRλλ

গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার না করা হলেও, সমাধানটি বিভিন্ন হতে পারে। ইন Rহিসাবে:, উদাহরণস্বরূপ, দুটি সহজ, সমতুল্য এই মডেল নির্দিষ্ট করার উপায় আছে z ~ x + yবা z ~ y + x। প্রথমটি দেয় তবে দ্বিতীয়টি । z- র =1+ +Yz^=1xz^=1+y

> x <- 1:3
> y <- -x
> z <- y+1

> lm(z ~ x + y)
Coefficients:
(Intercept)            x            y  
          1           -1           NA  


> lm(z ~ y + x)
Coefficients:
(Intercept)            y            x  
          1            1           NA 

( NAমানগুলি শূন্য হিসাবে ব্যাখ্যা করা উচিত, তবে এক সতর্কতার সাথে যে একাধিক সমাধান বিদ্যমান The সতর্কবার্তাটি সম্ভব হয়েছিল কারণ Rএর সমাধান পদ্ধতির থেকে পৃথক পৃথক বিশ্লেষণের কারণে সম্পন্ন হয়েছিল A গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি সম্ভবত একাধিক সমাধানের সম্ভাবনা সনাক্ত করতে পারে না, যদিও একজন ভাল আপনাকে কিছুটা অনিশ্চয়তা সম্পর্কে সতর্ক করবে যে এটি সর্বোত্তম সময়ে এসেছিল))

প্যারামিটার সীমাবদ্ধতা

কঠোর উত্তলতা একটি অনন্য বৈশ্বিক সর্বোত্তম গ্যারান্টি দেয়, প্রদত্ত প্যারামিটারগুলির ডোমেন উত্তল হয়। প্যারামিটার বিধিনিষেধগুলি নন-উত্তল ডোমেন তৈরি করতে পারে, একাধিক বিশ্বব্যাপী সমাধানের দিকে নিয়ে যায়।

একটি খুব সাধারণ উদাহরণ উপাত্তের জন্য "গড়" অনুমান করার সমস্যা দ্বারা সরবরাহ করা হয় সীমাবদ্ধতার সাপেক্ষে । এই মডেলগুলির এমন একটি পরিস্থিতি যা নিয়মিতকরণ পদ্ধতির বিপরীতে যেমন রিজ রিগ্রেশন, লাসো বা ইলাস্টিক নেট: এটি একটি জোর দিয়ে চলেছে যে কোনও মডেল প্যারামিটার খুব ছোট না হয়। (এই জাতীয় প্যারামিটার সীমাবদ্ধতায় রিগ্রেশন সমস্যাগুলি কীভাবে সমাধান করা যায় তা জিজ্ঞাসা করে যে তারা বাস্তবে উত্থাপিত হয় তা বিভিন্ন প্রশ্ন জিজ্ঞাসা করে)- 1 , 1 | μ | 1 / 2μ1,1|μ|1/2

এই উদাহরণে দুটি স্বল্প-বর্গ সমাধান রয়েছে, উভয়ই সমানভাবে ভাল। এগুলি সীমাবদ্ধ করে সীমাবদ্ধ করে পাওয়া যায় । দুটি সমাধান আছে । একাধিক সমাধান দেখা দিতে পারে কারণ প্যারামিটার সীমাবদ্ধতা ডোমেনটিকে domain ননকনভেক্স করে তোলে :| μ | 1 / 2 μ = ± 1 / 2 μ ( - , - 1 / 2 ] [ 1 / 2 , )(1μ)2+(1μ)2|μ|1/2μ=±1/2μ(,1/2][1/2,)

$ \ Mu against এর বিপরীতে বর্গাকার যোগফলের প্লট $

প্যারাবোলা একটি (কঠোরভাবে) উত্তল ক্রিয়াকলাপের গ্রাফ। ঘন লাল অংশটি এর ডোমেনের মধ্যে সীমাবদ্ধ অংশ : এটির দুটি সর্বনিম্ন পয়েন্ট রয়েছে , যেখানে যোগফল । বাকী প্যারাবোলা (বিন্দু দেখানো) সীমাবদ্ধতা দ্বারা মুছে ফেলা হয়, যার ফলে বিবেচনা থেকে এটির অনন্য ন্যূনতম অপসারণ হয়।μ = ± 1 / 2 5 / 2μμ=±1/25/2

একটি গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি, যদি না এটি বড় লাফালাফি নিতে ইচ্ছুক থাকে তবে সম্ভবত "অনন্য" সমাধানটি পাওয়া যাবে ইতিবাচক মান দিয়ে শুরু করার সময় এবং অন্যথায় এটি "অনন্য" সমাধান খুঁজে পেতে পারে যখন একটি নেতিবাচক মান দিয়ে শুরু করা হয়।μ = - 1 / 2μ=1/2μ=1/2

বৃহত্তর ডেটাসেট এবং উচ্চ মাত্রায় (যা আরও বেশি রিগ্রেশন পরামিতি ফিট করতে পারে) একই পরিস্থিতি দেখা দিতে পারে।


1
উত্তল ক্রিয়াকলাপের একটি খুব সাধারণ উদাহরণ যা কঠোরভাবে উত্তল নয় এবং অসীম অনেকগুলি মিনিমা । রেখার যে কোনও বিন্দু একটি ন্যূনতম বিন্দু। y = xf(x,y)=(xy)2y=x
কেজেটিল বি হালওয়ারসেন

1
@ কেজেটিল আপনাকে ধন্যবাদ, এটি সত্য। এখানে কৌশলটি দেখানো হচ্ছে যে এই জাতীয় ফাংশনগুলি রিগ্রেশন পরিস্থিতিতে আসলে কীভাবে উত্থিত হয়। আপনার ফাংশনটি হ'ল আমি যে প্রথম উদাহরণটি দিয়েছি তার জন্য অনুপ্রেরণা।
হোবার

একটি চাক্ষুষ উদাহরণ stats.stackexchange.com/a/151351/171583
আয়রগো

2

আমি আশঙ্কা করছি আপনার প্রশ্নের কোনও দ্বিপাক্ষিক উত্তর নেই। যদি লিনিয়ার রিগ্রেশন কঠোরভাবে উত্তল হয় (সহগের উপর কোনও বাধা নেই, কোনও নিয়ন্ত্রক ইত্যাদি নেই ), তবে গ্রেডিয়েন্ট বংশদ্ভুতের একটি অনন্য সমাধান হবে এবং এটি বৈশ্বিক সর্বোত্তম হবে। গ্রেডিয়েন্ট বংশদ্ভুত হতে পারে এবং যদি আপনার একটি উত্তম-উত্তল সমস্যা থাকে তবে একাধিক সমাধান ফিরে আসতে পারে।

যদিও ওপি একটি লিনিয়ার রিগ্রেশন চেয়েছে, নীচের উদাহরণটিতে সর্বনিম্ন বর্গক্ষেত্র হ্রাস দেখা যায় যদিও ননলাইনার (বনাম লিনিয়ার রিগ্রেশন যা ওপি চায়) একাধিক সমাধান থাকতে পারে এবং গ্রেডিয়েন্ট বংশোদ্ভূত বিভিন্ন সমাধান দিতে পারে।

আমি একটি সাধারণ উদাহরণ ব্যবহার করে অনুভবের সাথে দেখাতে পারি

  1. স্কোয়ার ত্রুটির যোগফল কিছু সময় নন-উত্তল হতে পারে, সুতরাং একাধিক সমাধান থাকতে পারে
  2. গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতি একাধিক সমাধান সরবরাহ করতে পারে।

নিম্নলিখিত সমস্যার জন্য আপনি যেখানে সর্বনিম্ন বর্গক্ষেত্রকে ছোট করার চেষ্টা করছেন সেই উদাহরণটি বিবেচনা করুন:

এখানে চিত্র বর্ণনা লিখুন

যেখানে তোমার জন্য সমাধান করার চেষ্টা করছেন উদ্দেশ্য ফাংশন কমানোর দ্বারা। উপরের মজাদারটি পার্থক্যযুক্ত যদিও নন-উত্তল এবং এর একাধিক সমাধান হতে পারে। জন্য প্রকৃত মান বদলে নিচে দেখুন।wa

a12=9,a13=1/9,a23=9,a31=1/9

minimize (9w1w2)2+(19w1w3)2+(19w2w1)2+(9w2w3)2+(9w3w1)2+(19w3w2)2

উপরের সমস্যাটির 3 টি পৃথক সমাধান রয়েছে এবং সেগুলি নিম্নরূপ:

w=(0.670,0.242,0.080),obj=165.2

w=(0.080,0.242,0.670),obj=165.2

w=(0.242,0.670,0.080),obj=165.2

নিম্নোক্ত স্কোয়ারগুলির উপরে উল্লিখিত হিসাবে সমস্যাটি ননকনভেক্স হতে পারে এবং এর একাধিক সমাধান হতে পারে। তারপরে উপরের সমস্যাটি মাইক্রোসফ্ট এক্সেল সলভারের মতো গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি ব্যবহার করে সমাধান করা যেতে পারে এবং আমরা যতবার রান করি ততবার আমরা আলাদা সমাধান পেয়ে শেষ করি। যেহেতু গ্রেডিয়েন্ট বংশোদ্ভূত একটি স্থানীয় অপ্টিমাইজার এবং স্থানীয় সমাধানে আটকে যেতে পারে আমাদের সত্যিকারের বৈশ্বিক অপটিমা পেতে বিভিন্ন প্রারম্ভিক মান ব্যবহার করা দরকার। এই জাতীয় সমস্যা শুরু মানগুলির উপর নির্ভরশীল।


2
আমি মনে করি না এটি এই ওপির প্রশ্নের জবাব দেয় কারণ ওপি বিশেষত লিনিয়ার রিগ্রেশন সম্পর্কে জিজ্ঞাসা করে , সাধারণভাবে অপ্টিমাইজেশন নয়।
সাইকোরাক্স মনিকাকে

1
না এটি হয় না, তবে কেবলমাত্র অনুকূলিতকরণের সাথে সমস্যাগুলির বিষয়ে একটি বিন্দু তৈরি করার চেষ্টা করা সতর্কীকরণগুলির সাথে আপডেট হবে
পূর্বাভাসকারী

@ ব্যবহারকারী 77777 আপনি ঠিক বলেছেন। এটি এমআইটি থেকে পুরানো পরীক্ষার একটি খুব কার্যকর প্রশ্ন। আমি নিশ্চিত উত্তরটি মিথ্যা, পূর্বাভাসের জন্য ধন্যবাদ।
আঞ্জেলা মিনয়েউ

তুমি কি নিশ্চিত যে আমি ঠিক আছি?
আঞ্জেলা মিনয়েউ

@ আঞ্জেলামিনয়েউ, আমি আমার প্রতিক্রিয়া আপডেট করেছি।
পূর্বাভাসকারী

1

এটি হ'ল কারণ আপনি যে উদ্দেশ্যমূলক ফাংশনটি হ্রাস করছেন তা উত্তল, কেবল একটি মিনিমা / ম্যাক্সিমা রয়েছে। সুতরাং, স্থানীয় সর্বোত্তমটিও একটি বৈশ্বিক অনুকূল। গ্রেডিয়েন্ট বংশদ্ভুত সমাধানটি শেষ পর্যন্ত খুঁজে পাবেন।

কেন এই উদ্দেশ্য ফাংশন উত্তল? এটি হ্রাস করার জন্য স্কোয়ার ত্রুটি ব্যবহার করার সৌন্দর্য। শূন্যের উত্স এবং সাম্যতা সুন্দরভাবে দেখায় যে কেন এটি হয়। এটি একটি পাঠ্যপুস্তকের সমস্যা এবং প্রায় সর্বত্র আচ্ছাদিত।


4
উত্তেজক একটি অনন্য সর্বনিম্ন বোঝায় না। সাধারণত আপনার উত্তল ডোমেনে সংজ্ঞায়িত কোনও উদ্দেশ্য ফাংশনের কঠোর উত্তোলনের আবেদন করতে হবে এছাড়াও এখানে একটি ইস্যুটি ভাসমান পয়েন্ট গণিত ব্যবহার করে গ্রেডিয়েন্ট বংশদ্ভুতের জন্য সমাপ্তির মানদণ্ড রয়েছে: এমনকি যখন উদ্দেশ্য ফাংশনটি কঠোরভাবে উত্তল, তখনও অ্যালগরিদম বিভিন্ন সমাধান (প্রাথমিক মানগুলির উপর নির্ভর করে) খুঁজে পেতে পারে যখন ফাংশনটি তার সর্বনিম্নের নিকটে প্রায় সমতল হয়।
whuber

@ আপনি কি দয়া করে আমার জন্য এটি সহজ এবং পরিষ্কার করে তুলবেন?
আঞ্জেলা মিনয়েউ

@ যাকে আমি মনে করি প্রথম সংখ্যাটি হল পরিভাষা ব্যবহার। দ্বিতীয়ত, উত্তলতা একটি অনন্য ন্যূনতম বোঝায়। আমি একটি পার্থক্যযুক্ত অবতল ফাংশন দেখতে পাচ্ছি না যার একটি ন্যূনতম / সর্বোচ্চ নেই। : প্রমাণ এখানে দেখুন planetmath.org/localminimumofconvexfunctionisnecessarilyglobal
Vladislavs Dovgalecs

3
আমি প্রুফটি পড়তে বিরক্ত করিনি, কারণ এটি অবশ্যই সঠিক হওয়ার জন্য কঠোর উত্তেজনা প্রার্থনা করবে । অজ্ঞাতনামাফিক সহগগুলির সাথে একটি সর্বনিম্ন-স্কোয়ার সমস্যা উত্তল হবে তবে কঠোরভাবে উত্তল নয়, এবং এর মাধ্যমে (অসীম) অনেকগুলি সমাধান হবে। তবে এটি গ্রেডিয়েন্ট বংশোদ্ভূত সম্পর্কিত পুরোপুরি প্রাসঙ্গিক নয়, যার নিজস্ব সমস্যা রয়েছে - যার কয়েকটি স্পষ্টভাবে উইকিপিডিয়া নিবন্ধে আলোচনা করা হয়েছে । সুতরাং, তাত্ত্বিক এবং ব্যবহারিক উভয় অর্থেই প্রশ্নের সঠিক উত্তরটি সত্য : গ্রেডিয়েন্ট বংশোদ্ভূত হতে পারে - এবং করবে - একাধিক সমাধান দিতে পারে।
হোবল

@ হু হ্যাঁ, প্রমাণটি কঠোর জড়তার পক্ষে আবেদন করে।
ভ্লাদিস্লাভস ডভগ্লেলেকস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.