এলোমেলো বনাঞ্চলে উচ্চ-সম্পর্কিত সম্পর্কযুক্ত ভেরিয়েবলগুলি নির্ভুলতা এবং বৈশিষ্ট্য-নির্বাচনকে বিকৃত করবে না?


32

আমার বোধগম্যতা অনুসারে, অত্যন্ত সংযুক্ত ভেরিয়েবলগুলি এলোমেলো বন মডেলটিতে বহু-প্রান্তিক সমস্যা তৈরি করবে না (দয়া করে আমি ভুল হলে আমাকে সংশোধন করুন)। তবে, অন্যভাবে, আমার কাছে যদি একই রকম তথ্য সম্বলিত অনেকগুলি ভেরিয়েবল থাকে, তবে এই সেটটিতে মডেলগুলির ওজন কি অন্যদের চেয়ে বেশি হবে?

উদাহরণস্বরূপ, একই ভবিষ্যদ্বাণীক শক্তি সহ তথ্য দুটি সেট (এ, বি) রয়েছে। চলক , , ... সবগুলিতে তথ্য A থাকে এবং কেবল Y এর মধ্যে রয়েছে তথ্য বি। এলোমেলো নমুনা ভেরিয়েবলগুলি যখন বেশিরভাগ গাছের তথ্য এ-তে বৃদ্ধি পাবে, এবং ফলস্বরূপ বি তথ্যগুলি পুরোপুরি ক্যাপচারিত হয় না?এক্স 2 এক্স 1000এক্স1এক্স2এক্স1000

উত্তর:


19

এটি সঠিক, তবে সেই সব সাব-স্যাম্পলিংয়ের বেশিরভাগেই যেখানে ভেরিয়েবল ওয়াই উপলব্ধ ছিল এটি সর্বোত্তম সম্ভাব্য বিভাজন তৈরি করবে।

এটি আরও প্রায়ই ঘটতে পারে তা নিশ্চিত করার জন্য আপনি মাতৃ বৃদ্ধি করার চেষ্টা করতে পারেন।

আপনি পুনরাবৃত্ত পারস্পরিক সম্পর্ক ছাঁটাই চেষ্টা করতে পারেন, এটি এমন দুটি ভেরিয়েবলের মধ্যে একটির সরিয়ে দেবে যার সাথে একত্রে সর্বোচ্চ সম্পর্ক রয়েছে। এই ছাঁটাই বন্ধ করার জন্য একটি বুদ্ধিমান প্রান্ত হতে পারে যে কোনও জুটির পারস্পরিক সম্পর্ক (পার্সোন) চেয়ে কম থাকেআর2<.7

আপনি পুনরাবৃত্তীয় পরিবর্তনশীল গুরুত্ব ছাঁটাই করতে চেষ্টা করতে পারেন, এটি মুছে ফেলার পালা, যেমন সর্বনিম্ন পরিবর্তনশীল গুরুত্ব সহ 20%। র্যান্ডমফোরস্ট প্যাকেজ থেকে উদাহরণস্বরূপ rfcv চেষ্টা করুন।

আপনি আপনার অপ্রয়োজনীয় ভেরিয়েবলগুলির কিছু পচন / সমষ্টি চেষ্টা করতে পারেন।


3
কিছু উত্সে, আমি multicollinearityএলোমেলো বন মডেলটির কোনও প্রভাব ফেলতে দেখেছি । উদাহরণস্বরূপ, এখানে , সর্বাধিক উত্সাহিত উত্তর বলছে যে "এলোমেলো বন মডেলের কোনও অংশই অত্যন্ত কোলাইনারি ভেরিয়েবল দ্বারা ক্ষতিগ্রস্থ হয় না"। এর কি কোনও বৈধতা আছে?
হুনলে

5
আমি মনে করি আপনি খুব আক্ষরিকভাবে পড়ছেন না। আরএফ মডেলগুলি বেশ ভালভাবে সম্পর্কিত / রিডানডেন্ট ভেরিয়েবলগুলি হ্যান্ডেল করে। তবে এর অর্থ এই নয় যে আপনার মডেলটি অযৌক্তিক বা সম্পূর্ণ অপ্রয়োজনীয় ভেরিয়েবলগুলি (যেমন লিনিয়ার পুনরুদ্ধার) বন্ধ করে দেওয়া থেকে অগত্যা উপকৃত হয়, এটি ক্রাশও হয় না। ক্রস-ভ্যালিডেটেড মডেল পারফরম্যান্সের শালীন উন্নতির আশা করতে আমি কেবলমাত্র বিনয়ের পরিবর্তনশীল নির্বাচনের পক্ষপাতিত্ব করি।
সোরেন হ্যাভেলন্ড ওয়েলিং

24

পুরানো থ্রেড, তবে আমি কম্বলারিটি এলোমেলো বন মডেলের কোনও সমস্যা নয় বলে একটি কম্বল স্টেটমেন্টের সাথে একমত নই। যখন ডেটাসেটের দুটি (বা আরও) পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্য রয়েছে, তখন মডেলের দৃষ্টিকোণ থেকে, এই সম্পর্কিত কোনও বৈশিষ্ট্যই ভবিষ্যদ্বাণী হিসাবে ব্যবহার করা যেতে পারে, অন্যগুলির তুলনায় কোনওটির কোনও পছন্দ নয় ference

তবে একবার তাদের মধ্যে একটি ব্যবহার করা হলে, অন্যের গুরুত্ব উল্লেখযোগ্যভাবে হ্রাস পেয়েছে যেহেতু কার্যকরভাবে তারা অপসারণকে অপসারণ করতে পারে প্রথম বৈশিষ্ট্য দ্বারা ইতিমধ্যে মুছে ফেলা হয়েছে।

ফলস্বরূপ, তাদের একটি কম রিপোর্ট করা গুরুত্ব থাকবে। অতিরিক্ত সমস্যা হ্রাস করার জন্য আমরা বৈশিষ্ট্য নির্বাচন ব্যবহার করতে চাইলে এটি কোনও সমস্যা নয়, যেহেতু অন্যান্য বৈশিষ্ট্যগুলির দ্বারা ডুপ্লিকেটযুক্ত বৈশিষ্ট্যগুলি সরিয়ে ফেলা বুদ্ধিমান হয়ে থাকে, তবে ডেটাটি ব্যাখ্যা করার সময় এটি ভুল সিদ্ধান্তে পৌঁছাতে পারে যে ভেরিয়েবলগুলির মধ্যে একটি হ'ল দৃ strong় ভবিষ্যদ্বানীকারী যখন একই গ্রুপের অন্যরা গুরুত্বহীন, যখন তারা প্রতিক্রিয়াশীল ভেরিয়েবলের সাথে তাদের সম্পর্কের দিক থেকে খুব কাছাকাছি থাকে।

প্রতিটি নোড সৃষ্টিতে বৈশিষ্ট্যগুলির এলোমেলো নির্বাচনের জন্য এই ঘটনার প্রভাব কিছুটা হ্রাস পেয়েছে, তবে সাধারণভাবে প্রভাবটি পুরোপুরি সরানো হয় না।

উপরের অংশটি বেশিরভাগই এখান থেকে আঁকাবাঁকা: ভাল বৈশিষ্ট্য নির্বাচন করা


3
আরএফের সাথে বৈশিষ্ট্য নির্বাচনের জন্য এটি আমার নিবন্ধে চলেছে, কারণ পরিবর্তনশীল গুরুত্বটি প্রায়শই মেট্রিক বিএমসিবিওইনফর্ম্যাটিক্স হিসাবে ব্যবহৃত হয় bi বায়োমেডেন্ট্রাল / পার্টিকেলস / ১০.১১6// ২ দুই বছর আগে থেকে আমি বৈশিষ্ট্য নির্বাচনের বিষয়ে আরও সংশয়ী হয়ে উঠি e বৈধতা যদি সঠিক বাইরের ক্রস-বৈধকরণ লুপের মধ্যে না করা হয়। যদি সঠিকভাবে সম্পন্ন করা হয় তবে আমি প্রায়শই পূর্বাভাসের পারফরম্যান্সটির কিছুই বা খুব কম অপ্টিমাইজেশন দেখতে পাই না। এখন আমি উত্পাদনের পূর্বাভাস মেশিনগুলিকে সরল করতে বা একটি চূড়ান্ত মডেলকে আরও স্বচ্ছ করার জন্য প্রধানত বৈশিষ্ট্য নির্বাচন ব্যবহার করি।
সোরেন হ্যাভেলন্ড ওয়েলিং

@ সোরেনহ্যাভেলউন্ডওয়েলিং - আপনি বলেছেন যে "সঠিক বাহ্যিকের ক্রস-বৈধকরণ লুপের মধ্যে না করা হলে বৈশিষ্ট্য নির্বাচন ওভারোপটিমাস্টিক ক্রস-বৈধতা দেয়"। আপনি কি এটি ব্যাখ্যা করতে পারেন, বা কোনও উত্সকে ব্যাখ্যা করে বলতে পারেন যে? আমি এ পর্যন্ত যা পড়েছি তার বিপরীতে এটি চলে ...
জ্যাক ফ্লিটিং

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.