রিজ রিগ্রেশনতে "ম্যাট্রিক্স ইনভার্সনের সংখ্যার স্থিতিশীলতা" এবং ওভারফিট হ্রাসে এর ভূমিকার জন্য লুসিড ব্যাখ্যা


10

আমি বুঝতে পারি যে আমরা কমপক্ষে স্কোয়ার রিগ্রেশন সমস্যায় নিয়মিতকরণ নিয়োগ করতে পারি

w=argminw[(yXw)T(yXw)+λw2]

এবং এই সমস্যাটির একটি বদ্ধ-ফর্ম সমাধান রয়েছে যেমন:

w^=(XTX+λI)1XTy.

আমরা দেখতে পাই যে ২ য় সমীকরণে নিয়মিতকরণ কেবল \ বোল্ডসিম্বল {এক্স} টি \ বোল্ডসিম্বল {এক্স the এর তির্যকে λ করছে যা ম্যাট্রিক্স বিপরীতে সংখ্যার স্থায়িত্ব উন্নত করার জন্য করা হয়।XTX

সংখ্যার স্থায়িত্ব সম্পর্কে আমার বর্তমান 'অপরিশোধিত' বোঝাটি হ'ল কোনও ফাংশন যদি আরও 'সংখ্যাসূচকভাবে স্থিতিশীল' হয়ে যায় তবে এর আউটপুটটি এর ইনপুটগুলির আওয়াজ দ্বারা কম উল্লেখযোগ্যভাবে প্রভাবিত হবে। ওভারফিটিংয়ের সমস্যাটি কীভাবে এড়ানো / হ্রাস করে তার বৃহত্তর চিত্রের সাথে উন্নত সংখ্যার স্থায়িত্বের এই ধারণাটি সম্পর্কে আমার অসুবিধা হচ্ছে।

আমি উইকিপিডিয়া এবং কয়েকটি অন্যান্য ওয়েবসাইট দেখার চেষ্টা করেছি , তবে কেন এটি এমন তা ব্যাখ্যা করার ক্ষেত্রে তারা গভীরভাবে যায় না।


রিজ রিগ্রেশন মনে আসে। লিঙ্ক
EngrStudent

1
আপনি বীজগণিতের তুলনায় (বেশিরভাগ বর্ণনামূলক / স্বজ্ঞাত) আলোচনায় কিছু মান খুঁজে পেতে পারেন কেন তির্যকটিতে একটি ধ্রুবক যুক্ত করে রিজ প্রাক্কলনটি ওএলএসের চেয়ে ভাল হয়ে যায়?
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


2

রৈখিক মডেল , শূন্য এবং সাথে সম্পূর্ণ কলাম র‌্যাঙ্কযুক্ত অসচ্ছিন্ন ত্রুটিগুলি ধরে নিয়ে , সর্বনিম্ন স্কোয়ারের অনুমানকারী প্যারামিটারের জন্য একটি নিরপেক্ষ অনুমানক । তবে এই অনুমানকারীটির উচ্চতর বৈকল্পিকতা থাকতে পারে। উদাহরণস্বরূপ, এর দুটি কলাম যখন খুব বেশি সংযুক্ত থাকে।Y=Xβ+ϵX(XTX)1XTYβX

শাস্তি প্যারামিটার তোলে একটি পক্ষপাতদুষ্ট মূল্নির্ধারক , কিন্তু এটা তার ভ্যারিয়েন্স হ্রাস পায়। এছাড়াও, এর অবর প্রত্যাশা একটি সঙ্গে একটি Bayesian রিগ্রেশনে উপর পূর্বে । সেই অর্থে, আমরা বিশ্লেষণে কিছু তথ্য অন্তর্ভুক্ত করি যা বলে যে উপাদানগুলি শূন্য থেকে খুব বেশি দূরে হওয়া উচিত নয়। আবার এটি আমাদের পক্ষপাতিত্বমূলক বিন্দুর অনুমানের দিকে নিয়ে যায় তবে অনুমানের বৈচিত্রকে হ্রাস করে।λw^βw^βN(0,1λI)βββ

এমন এক সেটিংয়ে যেখানে উচ্চ মাত্রিক, , সর্বনিম্ন স্কোয়ারগুলি ফিট করে ডেটা প্রায় পুরোপুরি মেলে। পক্ষপাতহীন হলেও, এই অনুমানটি ডেটাতে ওঠানামার জন্য অত্যন্ত সংবেদনশীল হবে কারণ এই জাতীয় উচ্চ মাত্রায় উচ্চ লিভারেজ সহ অনেকগুলি পয়েন্ট থাকবে। এই জাতীয় পরিস্থিতিতে some এর কয়েকটি উপাদানগুলির চিহ্ন একটি একক পর্যবেক্ষণ দ্বারা নির্ধারণ করা যেতে পারে। জরিমানার শর্তে এই অনুমানগুলিকে শূন্যের দিকে সঙ্কুচিত করার প্রভাব রয়েছে, যা ভেরিয়েন্স হ্রাস করে অনুমানের এমএসই হ্রাস করতে পারে।XNpβ^

সম্পাদনা: আমার প্রাথমিক প্রতিক্রিয়ায় আমি একটি প্রাসঙ্গিক কাগজে একটি লিঙ্ক সরবরাহ করেছি এবং তাড়াহুড়োয় আমি এটি সরিয়ে দিয়েছি। এটি এখানে: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
এর বর্তমান ফর্মে এটি আসলে একটি মন্তব্য বেশি; আপনি কি মনে করেন যে আপনি এটির কোনও উত্তরের উত্তর দিতে পারেন?
সিলভারফিশ

পি এর নীচে। 5 ডান / পি এর শীর্ষ চিত্র 3 এর সাথে সম্পর্কিত 6 টি বামে এই পোস্টে জিজ্ঞাসিত প্রশ্নের মূল আলোচনা রয়েছে।
মার্ক এল স্টোন

এটি সমস্ত সঠিক, তবে আমি নিশ্চিত নই যে এটি অপের প্রশ্নের জবাব দিয়েছে।
অ্যামিবা

অ্যামিবা, উপরের আমার মন্তব্যটি দেখুন, যা সেই লিঙ্কটিকে বোঝায় যা পরবর্তীতে এরিক মিটম্যানের উত্তর, জারাড.মে / স্ট্যাট 15১15 / পেপারস / রিজ_রেগশন_ইন_প্যাক্টিস.পিডিএফ থেকে সম্পাদিত হয়েছে ।
মার্ক এল স্টোন

1

সংখ্যার স্থিতিশীলতা এবং ওভারফিটিং কিছু অর্থে সম্পর্কিত তবে বিভিন্ন ইস্যুতে।

ক্লাসিক ওএলএস সমস্যা:

ক্লাসিক সর্বনিম্ন স্কোয়ার সমস্যা বিবেচনা করুন:

minimize(over b)(yXb)T(yXb)

সমাধানটি ক্লাসিক । একটি ধারণাটি হ'ল বিপুল সংখ্যক আইন দ্বারা:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

সুতরাং ওএলএস অনুমান th এছাড়াও । (লিনিয়ার বীজগণিতের শর্তাবলী এ, র্যান্ডম ভেরিয়েবল এর লিনিয়ার স্প্যানের উপর র্যান্ডম ভেরিয়েবল এর রৈখিক প্রক্ষেপণ ))b^E[xx]1E[xy]yx1,x2,,xk

সমস্যা?

যান্ত্রিকভাবে, কী ভুল হতে পারে? সম্ভাব্য সমস্যাগুলি কী কী?

  1. ছোট নমুনাগুলির জন্য, আমাদের sample এবং নমুনা অনুমানগুলি দরিদ্র beE[xx]E[xy]
  2. যদি এর কলামগুলি কলিনারি হয় (হয় সহজাত কলিনারিটি বা ছোট নমুনার আকারের কারণে), সমস্যার সমাধানটির ধারাবাহিকতা থাকবে! সমাধানটি অনন্য হতে পারে না। X
    • এটি ঘটে যদি র‌্যাঙ্কের ঘাটতি থাকে।E[xx]
    • এটি যদি ঘটে থাকে তবে সমস্যার সংখ্যার তুলনায় ক্ষুদ্র নমুনার আকারের কারণে যদি র‍্যাঙ্কের ঘাটতি রয়েছে।XX

সমস্যা (1) অনুমান হিসাবে fit over over হিসাবে ওভারফিট করতে পারে যে অন্তর্নিহিত জনগোষ্ঠীর মধ্যে নেই এমন নমুনার মধ্যে নিদর্শনগুলি প্রতিবিম্বিত করা শুরু করে। অনুমানটি এবং patterns তে নিদর্শনগুলি প্রতিফলিত করতে পারে যা আসলে এবংb^1nXX1nXyE[xx]E[xy]

সমস্যা (২) এর অর্থ কোনও সমাধান অনন্য নয়। কল্পনা করুন আমরা পৃথক জুতোর দাম অনুমান করার চেষ্টা করছি তবে জুতাগুলির জোড়া সর্বদা একসাথে বিক্রি হয়। এটি একটি অসুস্থ সমস্যা, তবে ধরা যাক আমরা যাইহোক এটি করছি। আমরা বিশ্বাস করতে পারি যে বাম জুতার দামের সাথে ডান জুতোর দাম $ 50 সমান , তবে আমরা কীভাবে আলাদা আলাদা মূল্য নিয়ে আসতে পারি? জুতার দাম বামে কী সেট করা এবং ডান জুতার দাম ঠিক আছে? কীভাবে আমরা সমস্ত সম্ভাবনা থেকে বেছে নিতে পারি?pl=45pr=5

জরিমানা উপস্থাপন করা হচ্ছে :L2

এখন বিবেচনা করুন:

minimize(over b)(yXb)T(yXb)+λb2

এটি আমাদের উভয় প্রকারের সমস্যায় সহায়তা করতে পারে। শাস্তি আমাদের অনুমান পাহাড় জমে শূন্য দিকে। যে সহগ মান উপর বন্টন চারপাশে কেন্দ্রীভূত হয় কার্যকরভাবে একটি Bayesian পূর্বে যেমন এই ফাংশন । এটি ওভারফিটিংয়ে সহায়তা করে। আমাদের অনুমানটি ডেটা এবং আমাদের প্রাথমিক বিশ্বাস উভয়কেই প্রতিফলিত করবে যে zero শূন্যের কাছাকাছি।L2b0b

L2 সমস্যাগুলির একটি অনন্য সমাধান নিয়মিতকরণও সর্বদা আমাদের। আমরা বাম এবং ডান জুতা মূল্যের জানেন তাহলে সমষ্টি হয় , সমাধান যে ছোট আদর্শ পছন্দ করে নিন করা হয় ।$50L2pl=pr=25

এই যাদু কি? না। নিয়মিতকরণ ডেটা যুক্ত করার মতো নয় যা আসলে আমাদের প্রশ্নের উত্তর দেওয়ার অনুমতি দেয়। কিছুটা ক্ষেত্রে নিয়মিতকরণ এই দৃষ্টিভঙ্গি গ্রহণ করে যে আপনার যদি ডেটার অভাব হয় তবে টির কাছাকাছি অনুমানগুলি চয়ন করুন ।L20

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.