মাল্টিকোল্লাইনারি বিবেচনা করা রিগ্রেশন বিশ্লেষণে গুরুত্বপূর্ণ কারণ, এক্সট্রিমায় এটি আপনার সহগুণগুলি ডেটাতে স্বতন্ত্রভাবে চিহ্নিত কিনা তা নিয়ে এটি সরাসরি বহন করে। কম গুরুতর ক্ষেত্রে এটি এখনও আপনার গুণাগুণ অনুমানের সাথে জগাখিচুড়ি করতে পারে; অনুমানের জন্য ব্যবহৃত ডেটাগুলিতে ছোট পরিবর্তনগুলি আনুমানিক সহগগুলিতে বন্য সুইংয়ের কারণ হতে পারে। এগুলি অনুমানমূলক অবস্থান থেকে সমস্যাযুক্ত হতে পারে: দুটি ভেরিয়েবল যদি খুব বেশি সম্পর্কযুক্ত হয় তবে একটিতে বৃদ্ধি অন্যটিতে হ্রাস পেয়ে অফসেট হতে পারে তাই সম্মিলিত প্রভাব একে অপরকে অবজ্ঞা করা। দুটিরও বেশি ভেরিয়েবলের সাথে প্রভাব আরও সূক্ষ্ম হতে পারে তবে ভবিষ্যদ্বাণীগুলি স্থিতিশীল থাকলে এটি প্রায়শই মেশিন লার্নিং অ্যাপ্লিকেশনগুলির পক্ষে যথেষ্ট।
আমরা কেন কোনও রিগ্রেশন প্রসঙ্গে নিয়মিত করি তা বিবেচনা করুন: আমাদের মডেলটিকে খুব নমনীয় হতে বাধা দেওয়ার প্রয়োজন। নিয়মিতকরণের সঠিক পরিমাণ প্রয়োগ করা বৈকল্পিকতায় আরও বড় হ্রাসের পক্ষপাতটি সামান্য বাড়িয়ে তুলবে। এর সর্বোত্তম উদাহরণটি একটি রিগ্রেশনটিতে বহুপদী শর্তাদি এবং মিথস্ক্রিয়া প্রভাব যুক্ত করছে: অধঃপতন ক্ষেত্রে, পূর্বাভাস সমীকরণ ডেটা পয়েন্টগুলিকে বিভক্ত করবে, তবে অদৃশ্য ডেটা পয়েন্টগুলির মানগুলির পূর্বাভাস দেওয়ার চেষ্টা করার সময় সম্ভবত ভয়াবহ হতে পারে। এই গুণাগুণগুলি সঙ্কুচিত করা সম্ভবত এই কয়েকটি সহগকে হ্রাস করবে বা সম্পূর্ণভাবে মুছে ফেলবে এবং সাধারণীকরণ উন্নত করবে।
এলোমেলো বন, তবে প্রতিটি বিভাজনে নমুনাযুক্ত ভেরিয়েবলের সংখ্যার মাধ্যমে নিয়মিতকরণের প্যারামিটারটি দেখা যায়: আপনি mtry
আরও বৃহত্তর বিভক্ত হয়ে উঠুন (যেগুলি বেছে নেওয়ার জন্য আরও বৈশিষ্ট্যগুলি রয়েছে; তাদের মধ্যে কিছু অন্যদের চেয়ে ভাল) তবে এটিও প্রতিটি গাছকে একে অপরের গাছের সাথে আরও বেশি সংযুক্ত করে তোলে, কিছু জায়গায় প্রথমে একাধিক গাছের অনুমানের বিবিধ প্রভাবকে প্রশমিত করে। এই দ্বিধাটি সাধারণত ক্রস-বৈধতা ব্যবহার করে অর্জন করা সঠিক ভারসাম্য খুঁজতে বাধ্য করে achieved গুরুত্বপূর্ণভাবে, এবং একটি রিগ্রেশন বিশ্লেষণের বিপরীতে, এলোমেলো বন মডেলের কোনও অংশই অত্যন্ত কোলাইনারি ভেরিয়েবল দ্বারা ক্ষতিগ্রস্থ হয় না: এমনকি যদি দুটি ভেরিয়েবল একই সন্তানের নোড বিশুদ্ধতা সরবরাহ করে তবে আপনি ফলাফলের গুণমানকে হ্রাস না করে কেবল একটি বেছে নিতে পারেন।
তেমনি, এসভিএম এর মতো কোনও কিছুর জন্য আপনি বৈশিষ্ট্যগুলির চেয়ে আরও বেশি ভবিষ্যদ্বাণীকারীকে অন্তর্ভুক্ত করতে পারেন কারণ কার্নেল ট্রিক আপনাকে সেই বৈশিষ্ট্য ভেক্টরের অভ্যন্তরীণ পণ্যটিতে সম্পূর্ণ পরিচালনা করতে দেয়। পর্যবেক্ষণের চেয়ে বেশি বৈশিষ্ট্য থাকা রিগ্রেশনগুলিতে সমস্যা হতে পারে তবে কার্নেল ট্রিকের অর্থ আমরা কেবলমাত্র প্রতিটি অনুকরণকারীর জন্য একটি গুণফলের অনুমান করি, যখন নিয়মিতকরণ পরামিতি সমাধানের নমনীয়তা হ্রাস করে - যা প্যারামিটারগুলি অনুমান করার পরে স্থিরভাবে একটি ভাল জিনিস decided জন্যসিএনএনসীমিত আকারে পর্যবেক্ষণগুলি সর্বদা পরীক্ষার ডেটাতে একটি নিখুঁত মডেল তৈরি করে - এবং আমরা পুরো বৃত্তে ফিরে আসি, রিজ / ল্যাসো / ইলাস্টিক নেট রিগ্রেশন দৃশ্যে ফিরে আসি যেখানে আমাদের অত্যধিক আশাবাদী মডেলের বিরুদ্ধে চেক হিসাবে মডেল নমনীয়তা বাধা দেয়। এসভিএম সমস্যার কেকেটি অবস্থার একটি পর্যালোচনা প্রকাশিত করে যে এসভিএম সমাধানটি অনন্য, সুতরাং আমরা রিগ্রেশন ক্ষেত্রে উদ্বেগজনিত সমস্যাগুলির বিষয়ে চিন্তার দরকার নেই case
অবশেষে, বহুবিধ লাইনটির প্রকৃত প্রভাব বিবেচনা করুন । এটি মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি পরিবর্তন করে না (কমপক্ষে, প্রশিক্ষণের ডেটাতে) তবে এটি আমাদের সহগ অনুমানের সাথে স্ক্রু করে না। বেশিরভাগ এমএল অ্যাপ্লিকেশনগুলিতে আমরা নিজেরা সহগের বিষয়ে চিন্তা করি না, কেবলমাত্র আমাদের মডেল পূর্বাভাসের ক্ষতি, সুতরাং সেই অর্থে, ভিআইএফ চেক করা আসলে কোনও ফলস্বরূপ প্রশ্নের উত্তর দেয় না। (তবে যদি ডেটাগুলিতে সামান্য পরিবর্তন সহগের মধ্যে একটি বহু প্রকারের ওঠানামা সৃষ্টি করে [বহুবিশ্লেষের একটি সর্বোত্তম লক্ষণ], এটি ভবিষ্যদ্বাণীগুলিকেও পরিবর্তন করতে পারে, এক্ষেত্রে আমরা যত্ন নিই - তবে এই সমস্ত [আমরা আশা করি!] যখন আমরা বৈশিষ্ট্যযুক্ত তখনই হয় ক্রস-বৈধকরণ সম্পাদন করুন, যা যাইহোক মডেলিং প্রক্রিয়াটির একটি অংশ)) একটি রিগ্রেশন আরও সহজে ব্যাখ্যা করা হয়, তবে কিছু কাজের জন্য ব্যাখ্যাটি সবচেয়ে গুরুত্বপূর্ণ লক্ষ্য নাও হতে পারে।