এলোমেলো বন শ্রেণিবদ্ধকরণ করার আগে পিসিএ করা কি বোধগম্য?
আমি উচ্চ মাত্রিক পাঠ্য ডেটা নিয়ে কাজ করছি, এবং মাত্রিকতার অভিশাপ এড়াতে সহায়তা করতে আমি বৈশিষ্ট্য হ্রাস করতে চাই, তবে র্যান্ডম অরণ্যগুলি ইতিমধ্যে কোনও ধরণের মাত্রা হ্রাস করার পক্ষে নয়?
এলোমেলো বন শ্রেণিবদ্ধকরণ করার আগে পিসিএ করা কি বোধগম্য?
আমি উচ্চ মাত্রিক পাঠ্য ডেটা নিয়ে কাজ করছি, এবং মাত্রিকতার অভিশাপ এড়াতে সহায়তা করতে আমি বৈশিষ্ট্য হ্রাস করতে চাই, তবে র্যান্ডম অরণ্যগুলি ইতিমধ্যে কোনও ধরণের মাত্রা হ্রাস করার পক্ষে নয়?
উত্তর:
লিও ব্রেইম্যান লিখেছিলেন যে "মাত্রিকতা আশীর্বাদ হতে পারে"। সাধারণভাবে, এলোমেলো বন সমস্যা ছাড়াই বড় ডেটা সেটগুলিতে চলতে পারে। আপনার ডেটা কত বড়? বিষয়গুলি জ্ঞানের উপর নির্ভর করে বিভিন্ন ক্ষেত্রগুলি বিভিন্ন উপায়ে জিনিসগুলি পরিচালনা করে। উদাহরণস্বরূপ, জিনের এক্সপ্রেশন স্টাডিতে জিনগুলি প্রায়শই অ-নির্দিষ্ট ফিল্টারিং নামে পরিচিত এমন একটি প্রক্রিয়ায় স্বল্প বৈকল্পের (ফলাফলের দিকে তাকাতে হয় না) ভিত্তিতে ফেলে দেওয়া হয়। এটি এলোমেলো বনগুলিতে চলমান সময়ের সাথে সহায়তা করতে পারে। তবে এটি প্রয়োজন হয় না।
জিনের অভিব্যক্তি উদাহরণের সাথে আঁকিয়ে রাখা, কখনও কখনও বিশ্লেষকরা জিনের এক্সপ্রেশন পরিমাপ উপস্থাপনের জন্য পিসিএ স্কোর ব্যবহার করেন। ধারণাটি হ'ল একই স্কোরগুলি এমন একটি স্কোরের সাথে প্রতিস্থাপন করা যা সম্ভবত কম অগোছালো। এলোমেলো বনগুলি মূল ভেরিয়েবল বা পিসিএ স্কোর (ভেরিয়েবলগুলির জন্য একটি সারোগেট) উভয়ই চালানো যায়। কিছু এই পদ্ধতির সাথে আরও ভাল ফলাফল রিপোর্ট করেছেন, তবে আমার জ্ঞানের সাথে ভাল তুলনা নেই।
মোটকথা, আরএফ চালানোর আগে পিসিএ করার দরকার নেই। তবে আপনি পারেন। আপনার লক্ষ্যগুলির উপর নির্ভর করে ব্যাখ্যাটি পরিবর্তন হতে পারে। যদি আপনি যা করতে চান তার সবই যদি ভবিষ্যদ্বাণী করা হয় তবে ব্যাখ্যাটি কম গুরুত্বপূর্ণ হতে পারে।
বিদ্যমান উত্তরগুলি অসম্পূর্ণ বলে আমি ভেবেছিলাম যেহেতু আমি এটিতে আমার দুটি সেন্ট যুক্ত করতে চাই।
পারফরম্যান্স পিসিএ একটি নীচের ছবিতে চিত্রিত একটি বিশেষ কারণে র্যান্ডম বন (বা লাইটজিবিএম, বা অন্য কোনও সিদ্ধান্ত গাছ ভিত্তিক পদ্ধতি) প্রশিক্ষণের আগে বিশেষভাবে কার্যকর হতে পারে especially
মূলত, সর্বোচ্চ প্রশিক্ষণের দিকনির্দেশ সহ আপনার প্রশিক্ষণ সেটটি সারিবদ্ধ করে এটি নিখুঁত সিদ্ধান্তের সীমানা সন্ধানের প্রক্রিয়াটিকে আরও সহজ করে তুলতে পারে।
সিদ্ধান্ত গাছগুলি ডেটার ঘোরার জন্য সংবেদনশীল, যেহেতু তারা তৈরি সিদ্ধান্ত সীমানা সর্বদা উল্লম্ব / অনুভূমিক (অর্থাত অক্ষগুলির একটিতে লম্ব) হয়। সুতরাং, যদি আপনার ডেটা বাম ছবিটির মতো মনে হয় তবে এই দুটি ক্লাস্টার পৃথক করতে অনেক বড় গাছ লাগবে (এক্ষেত্রে এটি একটি 8 স্তর গাছ)। তবে আপনি যদি নিজের ডেটাটির মূল উপাদানগুলি (ডান পিকের মতো) বরাবর সারিবদ্ধ করেন তবে আপনি কেবল একটি স্তর দিয়ে নিখুঁত পৃথকীকরণ অর্জন করতে পারেন!
অবশ্যই, সমস্ত ডেটাসেটগুলি এই জাতীয়ভাবে বিতরণ করা হয় না, তাই পিসিএ সর্বদা সহায়তা নাও করতে পারে তবে এটি চেষ্টা করে দেখুন এটি ব্যবহার করে কিনা তা এখনও কার্যকর। এবং কেবলমাত্র একটি অনুস্মারক, পিসিএ করার আগে আপনার ডেটাসেটটিকে ইউনিট বৈকল্পিকতায় স্বাভাবিক করতে ভুলবেন না!
পিএস: মাত্রিকতা হ্রাস হিসাবে, আমি অন্যান্য লোকদের সাথে একমত হব যে এটি অন্যান্য অ্যালগরিদমের মতো এলোমেলো বনাঞ্চলের জন্য সমস্যা হিসাবে এতটা বড় নয়। তবে তবুও এটি আপনার প্রশিক্ষণটি কিছুটা গতি বাড়িয়ে তুলতে পারে। সিদ্ধান্ত গাছ প্রশিক্ষণের সময় হ'ল ও (এন মি লগ (এম)), যেখানে এন প্রশিক্ষণের উদাহরণগুলির সংখ্যা, এম - মাত্রার সংখ্যা। এবং যদিও এলোমেলোভাবে বনগুলি প্রশিক্ষণ দেওয়ার জন্য প্রতিটি গাছের জন্য মাত্রাগুলির একটি উপসেট বেছে নিয়েছে, আপনি যে পরিমাণ মাত্রা বেছে নিয়েছেন তার কম ভগ্নাংশ, ভাল পারফরম্যান্স অর্জনের জন্য আপনার আরও বেশি গাছ প্রশিক্ষণের প্রয়োজন।
এলোমেলো অরণ্যের আগে পিসিএ মাত্রিকতা হ্রাসের জন্য নয় তবে আপনাকে ডেটা এমন একটি আকৃতি দেওয়ার জন্য কার্যকর হতে পারে যেখানে এলোমেলো বন আরও ভাল অভিনয় করতে পারে।
আমি নিশ্চিন্ত যে সাধারণভাবে আপনি যদি পিসিএর সাথে আপনার ডেটাটিকে মূল ডেটার একই মাত্রা ধরে রেখে রূপান্তর করেন তবে এলোমেলো বনের সাথে আপনার আরও ভাল শ্রেণিবদ্ধকরণ হবে
mtry
প্রতিটি গাছ তৈরি করতে কেবল তাদের একটি এলোমেলো উপসেট (তথাকথিত প্যারামিটার) নেয়। আরএফ অ্যালগরিদমের উপরে নির্মিত একটি পুনরাবৃত্ত বৈশিষ্ট্য বিলোপ করার কৌশলও রয়েছে (এতে ভার্সেলআরএফ আর প্যাকেজ এবং রেফারেন্স দেখুন)। তবে প্রাথমিকভাবে ডেটা হ্রাস স্কিম যুক্ত করা অবশ্যই সম্ভব, যদিও এটি ক্রস-বৈধকরণ প্রক্রিয়ার অংশ হওয়া উচিত। সুতরাং প্রশ্নটি হল: আপনি কি আপনার বৈশিষ্ট্যগুলির একটি লিনিয়ার সংমিশ্রণটি আরএফ-এ যুক্ত করতে চান?