আধুনিক পরিসংখ্যান / মেশিন লার্নিংয়ে মাল্টিকোলাইনারিটি কেন পরীক্ষা করা হয় না


44

Traditionalতিহ্যগত পরিসংখ্যানগুলিতে, একটি মডেল তৈরি করার সময়, আমরা বৈকল্পিক মূল্যস্ফীতি ফ্যাক্টর (ভিআইএফ) এর প্রাক্কলন হিসাবে পদ্ধতি ব্যবহার করে বহুবিধ লাইনটি পরীক্ষা করে দেখি, তবে মেশিন লার্নিংয়ে আমরা পরিবর্তে বৈশিষ্ট্য নির্বাচনের জন্য নিয়মিতকরণ ব্যবহার করি এবং বৈশিষ্ট্যগুলি পরস্পর সম্পর্কিত কিনা তা পরীক্ষা করে দেখে মনে হয় না features মোটেই আমরা কেন ওটা করি।

উত্তর:


51

মাল্টিকোল্লাইনারি বিবেচনা করা রিগ্রেশন বিশ্লেষণে গুরুত্বপূর্ণ কারণ, এক্সট্রিমায় এটি আপনার সহগুণগুলি ডেটাতে স্বতন্ত্রভাবে চিহ্নিত কিনা তা নিয়ে এটি সরাসরি বহন করে। কম গুরুতর ক্ষেত্রে এটি এখনও আপনার গুণাগুণ অনুমানের সাথে জগাখিচুড়ি করতে পারে; অনুমানের জন্য ব্যবহৃত ডেটাগুলিতে ছোট পরিবর্তনগুলি আনুমানিক সহগগুলিতে বন্য সুইংয়ের কারণ হতে পারে। এগুলি অনুমানমূলক অবস্থান থেকে সমস্যাযুক্ত হতে পারে: দুটি ভেরিয়েবল যদি খুব বেশি সম্পর্কযুক্ত হয় তবে একটিতে বৃদ্ধি অন্যটিতে হ্রাস পেয়ে অফসেট হতে পারে তাই সম্মিলিত প্রভাব একে অপরকে অবজ্ঞা করা। দুটিরও বেশি ভেরিয়েবলের সাথে প্রভাব আরও সূক্ষ্ম হতে পারে তবে ভবিষ্যদ্বাণীগুলি স্থিতিশীল থাকলে এটি প্রায়শই মেশিন লার্নিং অ্যাপ্লিকেশনগুলির পক্ষে যথেষ্ট।

আমরা কেন কোনও রিগ্রেশন প্রসঙ্গে নিয়মিত করি তা বিবেচনা করুন: আমাদের মডেলটিকে খুব নমনীয় হতে বাধা দেওয়ার প্রয়োজন। নিয়মিতকরণের সঠিক পরিমাণ প্রয়োগ করা বৈকল্পিকতায় আরও বড় হ্রাসের পক্ষপাতটি সামান্য বাড়িয়ে তুলবে। এর সর্বোত্তম উদাহরণটি একটি রিগ্রেশনটিতে বহুপদী শর্তাদি এবং মিথস্ক্রিয়া প্রভাব যুক্ত করছে: অধঃপতন ক্ষেত্রে, পূর্বাভাস সমীকরণ ডেটা পয়েন্টগুলিকে বিভক্ত করবে, তবে অদৃশ্য ডেটা পয়েন্টগুলির মানগুলির পূর্বাভাস দেওয়ার চেষ্টা করার সময় সম্ভবত ভয়াবহ হতে পারে। এই গুণাগুণগুলি সঙ্কুচিত করা সম্ভবত এই কয়েকটি সহগকে হ্রাস করবে বা সম্পূর্ণভাবে মুছে ফেলবে এবং সাধারণীকরণ উন্নত করবে।

এলোমেলো বন, তবে প্রতিটি বিভাজনে নমুনাযুক্ত ভেরিয়েবলের সংখ্যার মাধ্যমে নিয়মিতকরণের প্যারামিটারটি দেখা যায়: আপনি mtryআরও বৃহত্তর বিভক্ত হয়ে উঠুন (যেগুলি বেছে নেওয়ার জন্য আরও বৈশিষ্ট্যগুলি রয়েছে; তাদের মধ্যে কিছু অন্যদের চেয়ে ভাল) তবে এটিও প্রতিটি গাছকে একে অপরের গাছের সাথে আরও বেশি সংযুক্ত করে তোলে, কিছু জায়গায় প্রথমে একাধিক গাছের অনুমানের বিবিধ প্রভাবকে প্রশমিত করে। এই দ্বিধাটি সাধারণত ক্রস-বৈধতা ব্যবহার করে অর্জন করা সঠিক ভারসাম্য খুঁজতে বাধ্য করে achieved গুরুত্বপূর্ণভাবে, এবং একটি রিগ্রেশন বিশ্লেষণের বিপরীতে, এলোমেলো বন মডেলের কোনও অংশই অত্যন্ত কোলাইনারি ভেরিয়েবল দ্বারা ক্ষতিগ্রস্থ হয় না: এমনকি যদি দুটি ভেরিয়েবল একই সন্তানের নোড বিশুদ্ধতা সরবরাহ করে তবে আপনি ফলাফলের গুণমানকে হ্রাস না করে কেবল একটি বেছে নিতে পারেন।

তেমনি, এসভিএম এর মতো কোনও কিছুর জন্য আপনি বৈশিষ্ট্যগুলির চেয়ে আরও বেশি ভবিষ্যদ্বাণীকারীকে অন্তর্ভুক্ত করতে পারেন কারণ কার্নেল ট্রিক আপনাকে সেই বৈশিষ্ট্য ভেক্টরের অভ্যন্তরীণ পণ্যটিতে সম্পূর্ণ পরিচালনা করতে দেয়। পর্যবেক্ষণের চেয়ে বেশি বৈশিষ্ট্য থাকা রিগ্রেশনগুলিতে সমস্যা হতে পারে তবে কার্নেল ট্রিকের অর্থ আমরা কেবলমাত্র প্রতিটি অনুকরণকারীর জন্য একটি গুণফলের অনুমান করি, যখন নিয়মিতকরণ পরামিতি সমাধানের নমনীয়তা হ্রাস করে - যা প্যারামিটারগুলি অনুমান করার পরে স্থিরভাবে একটি ভাল জিনিস decided জন্যCNNসীমিত আকারে পর্যবেক্ষণগুলি সর্বদা পরীক্ষার ডেটাতে একটি নিখুঁত মডেল তৈরি করে - এবং আমরা পুরো বৃত্তে ফিরে আসি, রিজ / ল্যাসো / ইলাস্টিক নেট রিগ্রেশন দৃশ্যে ফিরে আসি যেখানে আমাদের অত্যধিক আশাবাদী মডেলের বিরুদ্ধে চেক হিসাবে মডেল নমনীয়তা বাধা দেয়। এসভিএম সমস্যার কেকেটি অবস্থার একটি পর্যালোচনা প্রকাশিত করে যে এসভিএম সমাধানটি অনন্য, সুতরাং আমরা রিগ্রেশন ক্ষেত্রে উদ্বেগজনিত সমস্যাগুলির বিষয়ে চিন্তার দরকার নেই case

অবশেষে, বহুবিধ লাইনটির প্রকৃত প্রভাব বিবেচনা করুন । এটি মডেলের ভবিষ্যদ্বাণীপূর্ণ শক্তি পরিবর্তন করে না (কমপক্ষে, প্রশিক্ষণের ডেটাতে) তবে এটি আমাদের সহগ অনুমানের সাথে স্ক্রু করে না। বেশিরভাগ এমএল অ্যাপ্লিকেশনগুলিতে আমরা নিজেরা সহগের বিষয়ে চিন্তা করি না, কেবলমাত্র আমাদের মডেল পূর্বাভাসের ক্ষতি, সুতরাং সেই অর্থে, ভিআইএফ চেক করা আসলে কোনও ফলস্বরূপ প্রশ্নের উত্তর দেয় না। (তবে যদি ডেটাগুলিতে সামান্য পরিবর্তন সহগের মধ্যে একটি বহু প্রকারের ওঠানামা সৃষ্টি করে [বহুবিশ্লেষের একটি সর্বোত্তম লক্ষণ], এটি ভবিষ্যদ্বাণীগুলিকেও পরিবর্তন করতে পারে, এক্ষেত্রে আমরা যত্ন নিই - তবে এই সমস্ত [আমরা আশা করি!] যখন আমরা বৈশিষ্ট্যযুক্ত তখনই হয় ক্রস-বৈধকরণ সম্পাদন করুন, যা যাইহোক মডেলিং প্রক্রিয়াটির একটি অংশ)) একটি রিগ্রেশন আরও সহজে ব্যাখ্যা করা হয়, তবে কিছু কাজের জন্য ব্যাখ্যাটি সবচেয়ে গুরুত্বপূর্ণ লক্ষ্য নাও হতে পারে।


1
কার্যকারিতা সংক্রান্ত মডেলিংয়ের জন্য, প্রপেনসিটি স্কোরিং বা রিগ্রেশন অ্যাডজাস্টমেন্টের মতো কৌশল ব্যবহার করে, কোলাইনারিটি এমনকি ভবিষ্যদ্বাণী করার জন্যও সমস্যা হতে পারে, কারণ সাধারণত লক্ষ্যটি হয় কোনও মডেলকে নিয়ন্ত্রণ বা অব্যক্ত গ্রুপে একচেটিয়াভাবে ফিট করা এবং তারপরে পরীক্ষামূলকভাবে সেই মডেলটি ব্যবহার করে ফলাফলগুলি অনুমান করা যায় to গোষ্ঠী বা অন্য দুটি গ্রুপকে একত্রিত করুন তবে পরীক্ষামূলক গোষ্ঠীতে থাকা, অন্যান্য কারণগুলির জন্য নিয়ন্ত্রণ, প্রভাব পরিমাপ করতে একটি সূচক পরিবর্তনশীল ব্যবহার করুন।
এলী

1
যদি কোলাইনারিটিটি সহগগুলিতে ত্রুটি সৃষ্টি করে, তবে পরীক্ষামূলক গোষ্ঠীতে বর্ধিত রিগ্রেশন কাজ করবে না। তেমনি, চিকিত্সা প্রাপ্তির সূচক ভেরিয়েবলের সহগের অনুমানটি ফেলে দেওয়া যেতে পারে, যদি উভয় উপ-নমুনা জুড়ে একক প্রতিরোধ কাজ করে। আধুনিক মেশিন লার্নিং কৌশলগুলি সাধারণত এই ধরণের কার্যকারিতা সমস্যা বিশ্লেষণ করতে ব্যবহৃত হয় না এবং তাই এটির জন্য অ্যাকাউন্টিংয়ের প্রয়োজনের জন্য কাউকেই মুখোমুখি হতে হয় নি।
এলী

@ ইলি, আপনার প্রথম উদাহরণে, কোলিনারিটি (কোভেরিয়েটদের মধ্যে, চিকিত্সা নয়) কোনও সমস্যা সৃষ্টি করে না, কারণ আবার লক্ষ্য হ'ল পাল্টা বাস্তবের ভবিষ্যদ্বাণী, এবং কোলিনারিটি পূর্বাভাসের সাথে কোনও সমস্যা নয় is এছাড়াও, আধুনিক এমএল পদ্ধতিগুলি ঘন ঘন কার্যকারণ অনুমানের ক্ষেত্রে ব্যবহৃত হয়; সাধারণীকৃত বুস্টেড মডেলিং এবং এলোমেলো বন প্রসারণের স্কোরগুলি অনুমান করার জন্য ব্যাপকভাবে ব্যবহৃত হয়, এবং টিএমএলই পাল্টা বাস্তব ফলাফলগুলি গণনার জন্য এমএল পদ্ধতি ব্যবহার করে। আমি কার্যনির্বাহী পদ্ধতির একটি শক্তির যুক্তি দিয়ে বলি যে কোলিনারিটি তাদের জন্য সাধারণত সমস্যা হয় না।
নূহ

@ নোয়া সাধারণত এটি এক্সপোজার সহগের ব্যাখ্যা যা গুরুত্বপূর্ণ (এবং অন্যান্য প্রভাব অনুমানের ব্যাখ্যাও), এবং কেবলমাত্র কাঁচা পূর্বাভাসের নির্ভুলতা নয়। আমি বুঝতে পারি আমার মন্তব্যটি এটিকে পরিষ্কার করে দেয়নি, তবে সে কারণেই এটি একটি সমস্যা। যদি সামগ্রিক পূর্বাভাসটি ভাল হয় তবে সত্যই এটি এক্সপোজারের জন্য অনুমানের সহগের সাথে সম্পর্কিত হয়ে পরিচালিত হয় না, তবে এটি সাধারণত কার্যকারণ অনুমানের জন্য একটি অনাকাঙ্ক্ষিত মডেল।
ইলিশ

21

কারণটি হ'ল প্রচলিত মেশিন লার্নিং কৌশলগুলির চেয়ে "traditionalতিহ্যবাহী পরিসংখ্যান" এর লক্ষ্যগুলি পৃথক।

"Traditionalতিহ্যবাহী পরিসংখ্যান" দ্বারা, আমি ধরে নিচ্ছি আপনার মানে রিগ্রেশন এবং এর রূপগুলি mean রিগ্রেশনে, আমরা নির্ভরশীল ভেরিয়েবলের উপর স্বতন্ত্র ভেরিয়েবলের প্রভাব বোঝার চেষ্টা করছি। যদি শক্তিশালী বহুবিধ লাইন থাকে তবে এটি কেবল সম্ভব নয়। কোনও অ্যালগরিদম এটি ঠিক করতে যাচ্ছে না। যদি অধ্যয়নশীলতা ক্লাসের উপস্থিতি এবং গ্রেডের সাথে সম্পর্কিত হয়, তবে আমরা জানতে পারি না যে গ্রেডগুলি সত্যিকার অর্থে কীভাবে বাড়ছে - উপস্থিতি বা স্টাডিয়েন্স।

তবে, মেশিন লার্নিং কৌশলগুলিতে যা ভবিষ্যদ্বাণীমূলক নির্ভুলতার উপর দৃষ্টি নিবদ্ধ করে সেগুলিতে আমাদের কেবল যত্নশীল হ'ল আমরা কীভাবে অন্য সেটটিকে পূর্বাভাস দেওয়ার জন্য ভেরিয়েবলগুলির একটি সেট ব্যবহার করতে পারি। এই ভেরিয়েবলগুলি একে অপরের উপর কী প্রভাব ফেলবে তা আমরা যত্ন করি না।

মূলত, আমরা মেশিন লার্নিং কৌশলগুলিতে বহুবিধ লাইন পরীক্ষা করতে পারি না এটি অ্যালগরিদমের ফলাফল নয়, এটি লক্ষ্যটির একটি পরিণতি। আপনি ভেরিয়েবলের মধ্যে শক্তিশালী একত্রিকরণটি রিগ্রেশন পদ্ধতির ভবিষ্যদ্বাণীমূলক নির্ভুলতার ক্ষতি করে না তা লক্ষ্য করে এটি দেখতে পারেন ।


11

এখানে অন্তর্নিহিত অনুমান বলে মনে হয় যে কোলিনারিটি পরীক্ষা না করা একটি যুক্তিসঙ্গত বা এমনকি সেরা অনুশীলন। এটি ত্রুটিযুক্ত বলে মনে হচ্ছে। উদাহরণস্বরূপ, অনেক পূর্বাভাসকীর সাথে একটি ডেটাসেটে নিখুঁত কলিনারিটির জন্য চেক করলে তা প্রকাশিত হবে যে দুটি ভেরিয়েবল আসলে একই জিনিস যেমন জন্ম তারিখ এবং বয়স (উদাহরণস্বরূপ ডরমন এট আল থেকে নেওয়া (2013), বাস্তুসংস্থান , 36 , 1, পিপি 27–46 )। আমি মাঝে মাঝে কাগল প্রতিযোগিতাগুলিতেও পুরোপুরি সম্পর্কযুক্ত পূর্বাভাসীর উত্থানের বিষয়টি দেখেছি যেখানে ফোরামে প্রতিযোগীরা সম্ভাব্য ভবিষ্যদ্বাণীকে বেনামে ফেলে দেওয়ার চেষ্টা করে (অর্থাত্ ভবিষ্যদ্বাণীকারী লেবেলটি লুকিয়ে আছে, কাগল এবং কাগল-জাতীয় প্রতিযোগিতায় একটি সাধারণ সমস্যা)।

ভবিষ্যদ্বাণীকারীদের বাছাইয়ের মেশিন লার্নিংয়ে এখনও একটি তত্পরতা রয়েছে - উচ্চতর সম্পর্কিত সম্পর্কিত ভবিষ্যদ্বাণী চিহ্নিতকরণের ফলে শ্রমিককে অন্য অন্তর্নিহিত (লুকানো) ভেরিয়েবলের প্রক্সি হতে পারে এবং শেষ পর্যন্ত এমন একটি ভেরিয়েবল সন্ধান করতে পারে যা সুপ্ত ভেরিয়েবলের প্রতিনিধিত্ব করার সেরা কাজ করে বা বিকল্পভাবে সম্মিলিত হতে পারে যা ভেরিয়েবল প্রস্তাব (যেমন পিসিএ মাধ্যমে)।

সুতরাং, আমি পরামর্শ দেব যে মেশিন লার্নিংয়ের পদ্ধতিগুলি সাধারণত (বা কমপক্ষে প্রায়শই) পারস্পরিক সম্পর্কযুক্ত ভবিষ্যদ্বাণীদের মুখে শক্তিশালী হওয়ার জন্য ডিজাইন করা হয়েছে, তবে ভবিষ্যদ্বাণীকারীরা যে ডিগ্রিটির সাথে সম্পর্কযুক্ত তা বোঝা প্রায়শই একটি শক্তিশালী এবং সঠিক মডেল তৈরির জন্য একটি কার্যকর পদক্ষেপ is , এবং একটি অনুকূলিত মডেল প্রাপ্ত করার জন্য একটি দরকারী সহায়তা।


9

মাল্টিকোলাইনারিটির মূল সমস্যাটি হ'ল এটি স্বাধীন ভেরিয়েবলের সহগ (বিটা) গণ্ডগোল করে। আপনি যখন ভেরিয়েবলের মধ্যে সম্পর্ক অধ্যয়ন, কার্যকারিতা প্রতিষ্ঠা ইত্যাদির ক্ষেত্রে অধ্যয়ন করছেন তখন এটি একটি গুরুতর বিষয় why

যাইহোক, আপনি যদি এত ঘটনাটি বুঝতে আগ্রহী না হন তবে কেবলমাত্র ভবিষ্যদ্বাণী এবং পূর্বাভাসের দিকে মনোনিবেশ করেন তবে বহুবিধ লাইনারিটি কোনও ইস্যুতে কম নয়। বা কমপক্ষে এটি এ সম্পর্কে লোকেরা কী ভাবেন।

আমি এখানে নিখুঁত বহুবিশেষের কথা বলছি না , এটি একটি প্রযুক্তিগত সমস্যা বা সনাক্তকরণ সমস্যা। প্রযুক্তিগতভাবে, এর সহজ অর্থ হ'ল ডিজাইনের ম্যাট্রিক্স একাকিত্বের দিকে নিয়ে যায় এবং সমাধানটি সংজ্ঞায়িত হয় না।


4
এমনকি নিখুঁত সহপাঠের সাথে, ভবিষ্যদ্বাণীগুলি ভালভাবে সংজ্ঞায়িত হয়।
whuber

@ হুবুহু, যদি আপনি ওএলএস ব্যবহার করেন, স্ট্যাটাস প্যাকেজটি সম্ভবত একটি ত্রুটি ছুঁড়ে ফেলবে, কারণ এটি ম্যাট্রিক্সকে উল্টাতে সক্ষম হবে না। স্মার্ট এগুলি একটি স্বতন্ত্র vars ফেলে দিতে পারে এবং তবুও এগিয়ে যেতে পারে।
আকসকল

2
আপনি যদি সাধারণ বিপরীত ব্যবহার করেন তবে এই একাকিত্ব কোনও সমস্যা নয়।
বিশ্লেষক

1
আমি আপনার যুক্তিটি অনুসরণ করি না, আকসাকাল: আপনি কি পরামর্শ দিতে চেষ্টা করছেন যে মেশিন শেখার কৌশলগুলি পরিসংখ্যান কৌশলগুলির চেয়ে পৃথক যে কোনওভাবে হ্রাস-র‌্যাঙ্কের ম্যাট্রিকগুলি নিয়ে সমস্যা নেই? এটি অন্বেষণ করা একটি আকর্ষণীয় ধারণা।
whuber

1
@ ব্যবহারকারী, স্বতন্ত্র পরিবর্তনশীল প্রায় সর্বদা সম্পর্কিত হয় এবং এটি ঠিক আছে, সাধারণত। শুধুমাত্র নিখুঁত বহুবিধ লাইন র‌্যাঙ্কের ঘাটতি ঘটায় causes মাল্টিকোলাইনারিটি খুব শক্তিশালী পারস্পরিক সম্পর্ককে বোঝায় এবং সাধারণত এটি পছন্দসই নয়, তবে আমি আগে যেমন লিখেছি এটি অনেক ক্ষেত্রে সৌম্য বিষয় issue
আকসকল

7

এই মেশিন লার্নিংগুলিতে নিয়মিতকরণ রিগ্রেশন সহগকে স্থিতিশীল করে, সুতরাং কমপক্ষে বহুবিধ লাইনারিটির প্রভাবটি কার্যকর হয়। তবে আরও গুরুত্বপূর্ণ বিষয়, আপনি যদি ভবিষ্যদ্বাণী করতে যাচ্ছেন (যা মেশিন শিখতে প্রায়শই হয়), তবে মাল্টিকলাইনারিটি "সমস্যা" প্রথম স্থানটিতে এত বড় সমস্যা ছিল না। আপনার যখন কোনও নির্দিষ্ট গুণফলের অনুমান করা দরকার এবং আপনার কাছে তথ্য নেই তখন এটি একটি সমস্যা।

এছাড়াও, " এলএএসএএসও কখন সম্পর্কযুক্ত ভবিষ্যদ্বাণী নির্বাচন করে " এর উত্তর আমার পক্ষে আপনার পক্ষে সহায়ক হতে পারে।


1

আমি মনে করি মেশিন লার্নিংয়ে মাল্টিকোলাইনারিটি পরীক্ষা করা উচিত। এখানে কেন: ধরুন যে আমাদের ডেটাসেটে আপনার কাছে দুটি অত্যন্ত নির্ভরযোগ্য বৈশিষ্ট্য এক্স এবং ওয়াই রয়েছে। এর অর্থ এই যে প্রতিক্রিয়া বিমানটি নির্ভরযোগ্য নয় (ডেটাতে একটি ছোট পরিবর্তন প্রতিক্রিয়া বিমানের অবস্থানের উপর কঠোর প্রভাব ফেলতে পারে)। যা বোঝায় যে তথ্য পয়েন্টের মডেলের ভবিষ্যদ্বাণীগুলি খুব দূরেরেখাটি থেকে, যেখানে এক্স এবং ওয়াই পড়ার প্রবণতা নির্ভরযোগ্য নয়। আপনি যদি এই জাতীয় পয়েন্টগুলির জন্য ভবিষ্যদ্বাণীগুলির জন্য আপনার মডেলটি ব্যবহার করেন তবে ভবিষ্যদ্বাণীগুলি সম্ভবত খুব খারাপ হবে। এটি অন্য কথায় বলতে গেলে, যখন দুটি মডেল হিসাবে আপনার দুটি অত্যন্ত সংযুক্ত বৈশিষ্ট্য রয়েছে, আপনি এমন একটি বিমান শিখছেন যেখানে আসলে তথ্যগুলি বেশিরভাগ লাইনে পড়ে। সুতরাং, অবিশ্বস্ত মডেল এবং ভ্রান্ত ভবিষ্যদ্বাণী প্রতিরোধের জন্য আপনার ডেটা থেকে অত্যন্ত সম্পর্কিত সম্পর্কযুক্ত বৈশিষ্ট্যগুলি সরিয়ে ফেলা গুরুত্বপূর্ণ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.