এলোমেলো বন এবং লিনিয়ার রিগ্রেশন এর মাধ্যমে বৈশিষ্ট্যটির গুরুত্ব আলাদা


9

বৈশিষ্ট্যগুলি র‌্যাঙ্ক করার জন্য লাসো প্রয়োগ করেছেন এবং নিম্নলিখিত ফলাফল পেয়েছেন:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

নোট করুন যে ডেটা সেটটিতে 3 টি লেবেল রয়েছে। বিভিন্ন লেবেলের বৈশিষ্ট্যগুলির র‌্যাঙ্কিং একই।

তারপরে একই তথ্য সেটটিতে এলোমেলো বন প্রয়োগ করা হয়েছে:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

লক্ষ করুন যে লাসোর দ্বারা উত্পাদিত একের চেয়ে র‌্যাঙ্কিং একেবারেই আলাদা।

পার্থক্য কীভাবে ব্যাখ্যা করবেন? এটি কি বোঝায় যে অন্তর্নিহিত মডেলটি সহজাতভাবে অলৈখিক?


কোনও বৈশিষ্ট্যের র‌্যাঙ্কটি সত্যই বিভিন্ন শ্রেণিবদ্ধের মধ্যে অনুবাদ করে না। মডেলটি অ-লিনিয়ার কিনা তা পরীক্ষা করতে এখানে উদাহরণস্বরূপ দেখুন: stats.stackexchange.com/questions/35893/…
অ্যালেক্স আর

1
বৈশিষ্ট্য আমদানি কেবলমাত্র "হিউরিস্টিক্স" এর উপর ভিত্তি করে একটি পরামর্শ। এগুলি মাঝে মাঝে অবিশ্বস্ত হতে পারে। আমি সাধারণত লাসোর চেয়ে এলোমেলো বনকে বেশি বিশ্বাস করি।
জেরেনুক

উত্তর:


6

সুতরাং আপনার ক্যোয়ারীটি লিনিয়ার রিগ্রেশন বনাম র্যান্ডম ফরেস্টের মডেল-ভেরিয়েবলের গুরুত্বের তুলনা।

লাসো নিয়মিতকরণ প্রয়োগ করে লিনিয়ার রিগ্রেশন মডেল সহগ আবিষ্কার করে। লিনিয়ার রিগ্রেশন মডেলটিতে ভেরিয়েবলের গুরুত্বের জন্য একটি জনপ্রিয় পদ্ধতি হ'ল পচে যাওয়াআর2প্রতিটি ভেরিয়েবলের জন্য দায়ী অবদান। ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের কারণে লিনিয়ার রিগ্রেশনটিতে ভেরিয়েবলের গুরুত্ব সোজা নয়। নীচের রেফারেন্সগুলিতে পিএমডি পদ্ধতি (ফিল্ডম্যান, 2005) বর্ণনা করে দস্তাবেজটি দেখুন।

আর একটি জনপ্রিয় পদ্ধতি হ'ল গড় অর্ডারিংয়ের (এলএমজি, 1980)। এলএমজি এইভাবে কাজ করে:

  • মডেলটিতে প্রতিটি ভবিষ্যদ্বাণীকের অর্ধ-আংশিক সম্পর্ক খুঁজে বার করুন, যেমন আমাদের কাছে চলকটির জন্য: এসএসএকটি/এসএসটিটিএকটি। এটি কতটা ইঙ্গিত দেয়আর2 পরিবর্তনশীল হলে বৃদ্ধি একটি মডেল যোগ করা হয়েছিল।
  • প্রতিটি ক্রমের জন্য প্রতিটি ভেরিয়েবলের জন্য এই মানটি গণনা করুন যেখানে ভেরিয়েবলটি মডেলটিতে প্রবর্তিত হয়, যেমন {একটি,,}; {,একটি,}; {,,একটি}
  • এই প্রতিটি আদেশের জন্য আধা-আংশিক সম্পর্কের গড় সন্ধান করুন। এটি অর্ডারের উপরে গড়।

এলোমেলো বন অ্যালগরিদম একাধিক গাছ ফিট করে, বনের প্রতিটি গাছ ডেটাসেট থেকে এলোমেলোভাবে বিভিন্ন বৈশিষ্ট্য নির্বাচন করে নির্মিত হয়। প্রতিটি গাছের নোডগুলি সর্বাধিক বৈকল্পিক হ্রাস অর্জনের জন্য চয়ন করে এবং বিভাজন করে তৈরি করা হয়। পরীক্ষার ডেটাসেটের পূর্বাভাস দেওয়ার সময়, চূড়ান্ত আউটপুট প্রাপ্ত করার জন্য পৃথক গাছের আউটপুট গড় হয়। প্রতিটি পরিবর্তনশীল সমস্ত গাছের মধ্যে অনুমতি দেওয়া হয় এবং আদেশের আগে এবং পরে নমুনা ত্রুটির বাইরে পার্থক্য গণনা করা হয়। সর্বোচ্চ পার্থক্যযুক্ত ভেরিয়েবলগুলি সবচেয়ে গুরুত্বপূর্ণ হিসাবে বিবেচনা করা হয়, এবং নিম্ন মানগুলির সাথে কম গুরুত্বপূর্ণ।

প্রশিক্ষণ ডেটাতে মডেলটি যে পদ্ধতি দ্বারা ফিট রয়েছে তা এলোমেলো বন মডেলের তুলনায় লিনিয়ার রিগ্রেশন মডেলের পক্ষে খুব আলাদা। তবে দুটি মডেলেরই ভেরিয়েবলের মধ্যে কোনও কাঠামোগত সম্পর্ক নেই।

নির্ভরশীল ভেরিয়েবলের অ-রৈখিকতা সম্পর্কে আপনার প্রশ্ন সম্পর্কে: লাসো মূলত একটি লিনিয়ার মডেল যা গাছ ভিত্তিক মডেলের তুলনায় অন্তর্নিহিত অ-রৈখিক প্রক্রিয়াগুলির জন্য ভাল পূর্বাভাস দিতে সক্ষম হবে না। আপনি কোনও সেট-সাইড টেস্ট সেটের উপরে মডেলগুলির কার্যকারিতা যাচাই করে এটি যাচাই করতে সক্ষম হবেন, যদি এলোমেলো বন ভাল অভিনয় করে তবে অন্তর্নিহিত প্রক্রিয়াটি অ-রৈখিক হতে পারে। বিকল্পভাবে, আপনি ভেরিয়েবল ইন্টারঅ্যাকশন ইফেক্ট এবং লসো মডেলটিতে ক, বি, এবং সি ব্যবহার করে তৈরি করা উচ্চতর অর্ডার ভেরিয়েবলগুলি অন্তর্ভুক্ত করতে পারেন এবং যা কেবল একটি, বি এবং সি এর রৈখিক সংমিশ্রণের সাথে লাসোর তুলনায় এই মডেলটি আরও ভাল অভিনয় করে তা যাচাই করতে পারে। যদি এটি হয় তবে অন্তর্নিহিত প্রক্রিয়াটি অ-রৈখিক হতে পারে।

তথ্যসূত্র:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.