কেন ডিগ্রি কমার পরিবর্তে বহুবর্ষীয় রিগ্রেশনে নিয়মিতকরণ ব্যবহার করবেন?


32

রিগ্রেশন করার সময়, উদাহরণস্বরূপ, দুটি হাইপার প্যারামিটারগুলি বেছে নিতে হ'ল প্রায়শই ফাংশনটির ক্ষমতা (যেমন: বহুত্বের বৃহত্তম ব্যয়কারী) এবং নিয়মিতকরণের পরিমাণ। আমি যা সম্পর্কে বিভ্রান্ত হয়েছি, তা কেন কেবলমাত্র একটি কম ক্ষমতার ফাংশনটি বেছে নিচ্ছেন না এবং তারপরে কোনও নিয়মিতকরণ উপেক্ষা করবেন না? এইভাবে, এটি উপকারী হবে না। নিয়মিতকরণের সাথে যদি আমার উচ্চ ক্ষমতা সম্পন্ন ফাংশন থাকে তবে এটি কেবল কম ক্ষমতার ফাংশন এবং নিয়মিতকরণের মতো নয়?

উত্তর:


49

আমি সম্প্রতি ব্রাউজার অ্যাপে কিছুটা তৈরি করেছি যা আপনি এই ধারণাগুলি নিয়ে খেলতে পারেন: স্ক্যাটারপ্ল্লট স্মুথার্স (*)।

স্বল্প ডিগ্রি বহুতোষ ফিট সহ আমি তৈরি কিছু তথ্য এখানে

চতুর্ভুজ ফিট

0.60.850.85

পক্ষপাত থেকে নিজেকে মুক্ত করতে, আমরা বক্ররেখার ডিগ্রিটি তিনটিতে বাড়িয়ে তুলতে পারি, তবে সমস্যাটি রয়ে গেছে, কিউবিক বক্ররেখাটি এখনও খুব কঠোর

কিউবিক ফিট

সুতরাং আমরা ডিগ্রি বৃদ্ধি অবিরত, কিন্তু এখন আমরা বিপরীত সমস্যা উত্পন্ন

টেন ডিগ্রি ফিট

এই বক্ররেখা ডেটাটিকে খুব ঘনিষ্ঠভাবে ট্র্যাক করে , এবং তথ্যের সাধারণ নিদর্শনগুলির দ্বারা এত ভালভাবে উত্পন্ন না করা দিকগুলিতে উড়ে যাওয়ার প্রবণতা রয়েছে। এটিই নিয়মিতকরণ আসে the একই ডিগ্রি বক্রতার সাথে (দশ) এবং কিছু ভালভাবে নির্বাচিত নিয়মিতকরণ

ডিগ্রি টেন রেগুলারিজ্যাটন

আমরা একটি সত্যিই সুন্দর ফিট!

এটি উপরে ভালভাবে বেছে নেওয়া একটি দিকের দিকে একটু মনোযোগ দেওয়ার মতো । আপনি যখন ডেটাতে বহুভুজ ফিটিং করছেন আপনি ডিগ্রি জন্য পছন্দ একটি পৃথক সেট আছে। যদি কোনও ডিগ্রি তিনটি বক্রতা অন্তর্নির্মিত হয় এবং একটি ডিগ্রি চারটি বক্ররেখা বেশি হয় তবে আপনার মাঝখানে যাওয়ার আর কোথাও নেই। নিয়মিতকরণ এই সমস্যাটি সমাধান করে, কারণ এটি আপনাকে খেলতে জটিল ক্রমাগত পরামিতিগুলির একটানা পরিসীমা দেয়।

কীভাবে আপনি দাবি করেন "আমরা একটি খুব সুন্দর ফিট পাই!"। আমার জন্য তারা সকলেই একরকম দেখতে পায়, যথা অনির্দিষ্ট। একটি সুন্দর এবং খারাপ ফিট কি তা সিদ্ধান্ত নিতে আপনি কোন যুক্তিবাদী ব্যবহার করছেন?

ন্যায্য বিন্দু.

আমি এখানে অনুমান করছি যে একটি উপযুক্ত ফিটের মডেলটির অবশিষ্টাংশগুলিতে কোনও বিবেচনাযোগ্য প্যাটার্ন থাকা উচিত নয়। এখন, আমি অবশিষ্টাংশগুলি প্লট করছি না, সুতরাং ছবিগুলি দেখার সময় আপনাকে কিছুটা কাজ করতে হবে, তবে আপনার কল্পনাটি ব্যবহার করতে সক্ষম হওয়া উচিত।

প্রথম ছবিতে, চতুষ্কোণ বক্ররেখার সাথে ডেটা মাপসই, আমি অবশিষ্ট পাতাগুলিতে নিম্নলিখিত প্যাটার্নটি দেখতে পাচ্ছি

  • ০.০ থেকে ০.০ পর্যন্ত এগুলি বক্ররেখার উপরে এবং নীচে সমানভাবে স্থাপন করা হয়।
  • 0.3 থেকে প্রায় 0.55 পর্যন্ত সমস্ত ডেটা পয়েন্টগুলি বক্ররেখার উপরে থাকে।
  • 0.55 থেকে প্রায় 0.85 পর্যন্ত সমস্ত ডেটা পয়েন্টগুলি বক্ররেখার নীচে।
  • 0.85 থেকে, এগুলি আবার সমস্ত বক্ররেখার উপরে above

আমি এই আচরণগুলিকে স্থানীয় পক্ষপাত হিসাবে উল্লেখ করব , এমন অঞ্চল রয়েছে যেখানে বক্ররেখা তথ্যের শর্তসাপেক্ষিক গড়ের সান্নিধ্য হয় না।

কিউবিক স্প্লাইন সহ এটি শেষ ফিটের সাথে তুলনা করুন। আমি চোখের দ্বারা এমন কোনও অঞ্চল বাছাই করতে পারছি না যেখানে ফিট পয়েন্টগুলি ডেটা পয়েন্টের ভর কেন্দ্রের মধ্য দিয়ে সুনির্দিষ্টভাবে চলছে বলে মনে হচ্ছে না। এটি সাধারণত (অপ্রত্যাশিত হলেও) একটি ভাল ফিট বলতে যা বোঝায়।


2

  • আপনার ডেটার সীমানায় তাদের আচরণ খুব বিশৃঙ্খল হতে পারে এমনকি নিয়মিতকরণের সাথেও।
  • এগুলি কোনও দিক থেকে স্থানীয় নয়। আপনার ডেটা এক জায়গায় পরিবর্তন করা খুব আলাদা জায়গায় ফিটকে উল্লেখযোগ্যভাবে প্রভাবিত করতে পারে।

আমি পরিবর্তে, আপনার বর্ণনার মতো পরিস্থিতিতে নিয়মিতকরণের সাথে প্রাকৃতিক ঘন স্প্লিক্স ব্যবহার করে পুনরায় আয় করুন যা নমনীয়তা এবং স্থায়িত্বের মধ্যে সেরা সমঝোতা দেয়। আপনি অ্যাপ্লিকেশন কিছু স্প্লিট ফিট করে নিজের জন্য দেখতে পারেন।

প্রাকৃতিক কিউবিক স্প্লাইন

(*) আমি বিশ্বাস করি যে এটি আমার আধুনিক কয়েকটি জাভাস্ক্রিপ্ট বৈশিষ্ট্যগুলি ব্যবহারের কারণে (এবং এটি সাফারিতে স্থির করার জন্য সামগ্রিক অলসতা এবং ie) ক্রোম এবং ফায়ারফক্সে কাজ করে। আপনি যদি আগ্রহী হন তবে উত্স কোডটি এখানে


3
ধন্যবাদ, এবং আপনার ব্রাউজারের সরঞ্জামটি দুর্দান্ত - আমি তার মতো সামান্য ইন্টারেক্টিভ ডেমো পছন্দ করি!
কর্নিবাউরাস

@ কর্নিবাউরাস ধন্যবাদ, আমি সাহায্য করতে পেরে আনন্দিত। হাতিয়ারটি তৈরি করতে মজাদার ছিল, আমি জাভাস্ক্রিপ্ট লিখতে পছন্দ করি:)
ম্যাথু ড্র্যারি

3
+6। ভাল কাজ এই সরঞ্জাম লেখার! থ্রেডটি পুরানো হওয়ার পরে আপনি আমার কাছ থেকে একটি অনুগ্রহ পাবেন।
অ্যামিবা বলছেন মনিকাকে

4
+1 এটি একটি সত্যিই ভাল উত্তর। উচ্চ ডিগ্রি পলিনোমিয়াল ফিটের অস্থিরতা দেখানোর একটি উপায় হ'ল প্রতিটি পয়েন্টের জন্য একটি ডেটা পয়েন্ট মুছে ফেলা দিয়ে হাই-অর্ডার রিগ্রেশন প্লট করা এবং আরসিএস সমাধানের সাথে এর বিপরীতে।
সাইকোরাক্স মনিকাকে

1
@ ম্যাথেজড্রুরি "সীমাবদ্ধ কিউবিক স্প্লিন" - এর জন্য দুঃখিত।
সাইকোরাক্স বলছেন মনিকা পুনরায়

4

না, এটি এক নয়। উদাহরণস্বরূপ, চতুর্থ-আদেশের বহুবর্ষের সাথে নিয়মিতকরণ ছাড়াই দ্বিতীয়-আদেশের বহুবর্ষের সাথে তুলনা করুন। পরবর্তীকালে তৃতীয় এবং চতুর্থ শক্তির জন্য বৃহত্তর সহগুণ স্থাপন করতে পারে যতক্ষণ না এটি নিয়মিতকরণ পদ্ধতির (সম্ভবত ক্রস-বৈধকরণ) দণ্ডের আকার বাছাইয়ের জন্য যে পদ্ধতি ব্যবহার করা হয় তা অনুসারে, ভবিষ্যদ্বাণীমূলক যথার্থতা বাড়িয়ে তোলে। এটি দেখায় যে নিয়মিতকরণের অন্যতম সুবিধা হ'ল এটি আপনাকে ওভারফিটিং এবং আন্ডারফাইটিংয়ের মধ্যে ভারসাম্য রক্ষার জন্য স্বয়ংক্রিয়ভাবে মডেল জটিলতা সামঞ্জস্য করতে দেয়।


তবে আপনি যদি চতুর্থ ক্রমের বহুবচনকে নিয়মিতকরণ যোগ করেন তবে এটি তার প্রকাশের সম্পূর্ণ ব্যাপ্তি ব্যবহার করে এটি প্রতিরোধ করে। সুতরাং পর্যাপ্ত নিয়মিতকরণের সাথে, ভাব প্রকাশের মাত্রা হ্রাস পাবে যেখানে এটি দ্বিতীয় আদেশের বহুপদী হিসাবে মত প্রকাশযোগ্য। কোন?
কর্নিভাইরাস

1
সম্ভবত আপনি যদি আগে থেকে আপনার জরিমানার আকার স্থির করে থাকেন তবে এর মধ্যে কী বোঝার? পেনাল্টি আকারের উপর ভিত্তি করে নির্বাচন করা উচিত।
কোডিওলজিস্ট

4

বহুবর্ষের জন্য সহগের ছোট ছোট পরিবর্তনগুলি উচ্চ ক্ষয়কারীদের জন্যও পার্থক্য আনতে পারে।

এল2


2

সমস্ত উত্তর দুর্দান্ত এবং আমি নিয়মিতকরণ সহ জটিল মডেলটি সাধারণ মডেলের চেয়ে কেন সাধারণত ভাল তা দেখানোর জন্য আপনাকে আরেকটি উদাহরণ দেওয়ার জন্য ম্যাটের সাথে আমার অনুরূপ সিমুলেশন রয়েছে ।

স্বজ্ঞাত ব্যাখ্যা দেওয়ার জন্য আমি একটি উপমা তৈরি করেছি।

  • কেস 1 আপনার কেবলমাত্র সীমিত জ্ঞান সহ একটি উচ্চ বিদ্যালয়ের শিক্ষার্থী রয়েছে (নিয়মিতকরণ ছাড়াই একটি সহজ মডেল)
  • কেস ২ আপনার স্নাতক ছাত্র রয়েছে তবে কেবলমাত্র সমস্যাগুলি সমাধানের জন্য তাকে উচ্চ বিদ্যালয়ের জ্ঞান ব্যবহার করতে সীমাবদ্ধ রাখুন। (নিয়মিতকরণ সহ জটিল মডেল)

যদি দু'জন ব্যক্তি একই সমস্যা সমাধান করে তবে সাধারণত স্নাতক শিক্ষার্থীরা আরও ভাল সমাধান করতে পারে, কারণ অভিজ্ঞতা এবং জ্ঞান সম্পর্কে অন্তর্দৃষ্টি।

চিত্র 1 একই ডেটাতে 4 টি ফিটিং দেখাচ্ছে। 4 টি ফিটিংগুলি লাইন, প্যারাবোলা, 3 য় অর্ডার মডেল এবং 5 তম অর্ডার মডেল। আপনি 5 তম অর্ডার মডেলটি পর্যবেক্ষণ করতে পারেন ওভারফিটিং সমস্যা হতে পারে।

এখানে চিত্র বর্ণনা লিখুন

অন্যদিকে, দ্বিতীয় পরীক্ষায়, আমরা নিয়মিতকরণের বিভিন্ন স্তরের সাথে 5 তম অর্ডার মডেলটি ব্যবহার করব। দ্বিতীয় অর্ডার মডেলের সাথে সর্বশেষের সাথে তুলনা করুন। (দুটি মডেল হাইলাইট করা হয়) আপনি দেখতে পাবেন যে শেষটি প্যারোবোলার সাথে একই (প্রায় একই মডেলের জটিলতা রয়েছে) তবে তথ্যের সাথে কিছুটা আরও নমনীয়।

এখানে চিত্র বর্ণনা লিখুন


1
"প্রায় একই মডেলের জটিলতা আছে" ... এটি দৃশ্যত "সুস্পষ্ট" তুলনা, এটি পরিমাপ করার কোনও গাণিতিক উপায় আছে কি?
সিলভারফিশ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.