এলোমেলো বন (বা অন্য শ্রেণিবদ্ধ) সহ স্তরযুক্ত শ্রেণিবিন্যাস


12

সুতরাং, আমি প্রায় 60 x 1000 এর একটি ম্যাট্রিক্স পেয়েছি I'm আমি এটিকে 1000 বৈশিষ্ট্যযুক্ত 60 টি অবজেক্ট হিসাবে দেখছি; 60 টি বস্তু 3 টি শ্রেণিতে বিভক্ত করা হয়েছে (ক, খ, সি)। প্রতিটি শ্রেণিতে 20 টি জিনিস এবং আমরা প্রকৃত শ্রেণিবিন্যাস জানি। আমি 60 টি প্রশিক্ষণের উদাহরণের এই সেটটিতে তদারকি করা শিখতে চাই এবং আমি শ্রেণিবদ্ধের যথার্থতা (এবং সম্পর্কিত মেট্রিক্স) পাশাপাশি 1000 বৈশিষ্ট্যগুলিতে বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে উভয়ই আগ্রহী।

প্রথম, আমার নামকরণ কেমন?

এখন আসল প্রশ্ন:

আমি এটিতে এলোমেলো বন নিক্ষেপ করতে পারতাম বা অন্য শ্রেণিবদ্ধের যে কোনও সংখ্যা। তবে একটি সূক্ষ্মতা আছে - আমি সত্যই কেবল ক্লাস এ এবং বি থেকে ক্লাস সি আলাদা করার বিষয়ে যত্নশীল। আমি ক্লাস a এবং b টি পুল করতে পারতাম, তবে প্রাক- জ্ঞান ব্যবহার করার কোনও ভাল উপায় আছে যা সমস্ত নন-সি অবজেক্ট সম্ভবত দুটি স্বতন্ত্র ক্লাস্টার গঠন করে? আমি এলোমেলো বন বা এর কোনও বৈকল্পিক ব্যবহার করতে পছন্দ করব, যেহেতু এটি খনি হিসাবে একই ডেটাতে কার্যকর বলে দেখানো হয়েছে। তবে আমি আরও কিছু পদ্ধতির চেষ্টা করে বোঝাতে পারি।


আমি আপনার নামকরণে কোনও সমস্যা দেখছি না। এটি কি আপনার 60 টি জিনিস? তারপরে, কোনও শ্রেণিবদ্ধকরণের নির্ভুলতা গণনা করার জন্য আপনাকে আপনার ডেটাসেটকে ট্রেন, পরীক্ষা (এবং বৈধকরণের) সেটগুলিতে বিভক্ত করতে হবে। এটি করার বিভিন্ন উপায় আছে তবে ফোল্ড ক্রস বৈধতা সবচেয়ে সাধারণ, আমার ধারণা।
Emrea

1
হ্যাঁ, কেবল এই 60 টি। নির্মাণের সময় সেই নমুনাটি দেখতে পাবেন না। ( stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr ) সুতরাং সম্ভবত এখানে সাধারণত ক্রস বৈধকরণের প্রয়োজন হয় না।
ব্যবহারকারী 116293

এখানে ওভারফিটিং সম্পর্কে আপনার খুব চিন্তিত হওয়া উচিত। আপনার 60 টি অবজেক্টের সাথে 1000 ভেরিয়েবল রয়েছে, এটি যদি অন্য চারপাশে অন্য স্থানে থাকে তবে আমি আরও অনেক ভাল বোধ করব এবং আমি এখনও বলব, আপনার ওভারফিটিংয়ের বিষয়ে চিন্তা করা উচিত। বিশ্লেষণ করার আগে ভেরিয়েবলের সংখ্যা আরও কমিয়ে আনার কোনও যৌক্তিক বা শব্দার্থক উপায় আছে কি?
জাঙ্ক

উত্তর:


8

অগ্রিম জ্ঞানটি ব্যবহার করার একটি ভাল উপায় আছে যা সমস্ত নন-সি অবজেক্ট সম্ভবত দুটি স্বতন্ত্র ক্লাস্টার গঠন করে

আপনি যদি গাছ ভিত্তিক পদ্ধতি ব্যবহার করে থাকেন তবে আমি মনে করি না যে এই শ্রেণিবদ্ধকারীরা বৈশিষ্ট্যটির স্থানটি বিভাজন হিসাবে বিবেচনা করে তবে প্রতিটি শ্রেণিতে নমুনার অনুপাত দেখুন। সুতরাং সমস্ত বিষয় হ'ল প্রতিটি টার্মিনাল নোডে ক্লাস সি এর আপেক্ষিক ঘটনা।

তবে আপনি যদি জেনারেল, এলডিএ ইত্যাদির মিশ্রণের মতো কিছু ব্যবহার করেন তবে দুটি ক্লাস্টারের সংমিশ্রণটি একটি খারাপ ধারণা হবে (ক্লাস এ এবং বি গঠন করে অনন্য ক্লাস্টার ধরে নেওয়া)। A, b এবং c এর মানচিত্রের বৈশিষ্ট্যটির স্থানটি নির্ভুলভাবে বর্ণনা করতে এখানে শ্রেণিক কাঠামো সংরক্ষণ করতে হবে। এই মডেলগুলি প্রতিটি শ্রেণীর জন্য বৈশিষ্ট্যগুলির একটি পৃথক সাধারণ বিতরণ অনুমান করে। যদি আপনি a এবং b একত্রিত করেন তবে আপনি একক সাধারণ বিতরণকে মিশ্রণের সাথে মানিয়ে নিতে বাধ্য করবেন।

গাছের সংক্ষিপ্তসারটিতে খুব বেশি কিছু উচিত নয় যদি আপনি:

I. তিনটি শ্রেণিবদ্ধ তৈরি করুন (১. বনাম খ, ২ বনাম গ এবং ৩ বি বনাম গ) তারপরে ভোটদান ভিত্তিক পদ্ধতি নিয়ে ভবিষ্যদ্বাণী করুন।

২। ক্লাস a এবং b মার্জ করে একটি দ্বি-শ্রেণীর সমস্যা তৈরি করুন।

তৃতীয়। তিনটি শ্রেণীর পূর্বাভাস দিন তারপরে ভবিষ্যদ্বাণীটি একটি দুটি শ্রেণীর মান (যেমন f (c) = c, f (a) = না c, f (b) = not c) তে মানচিত্র করুন।

তবে আপনি যদি এমন কোনও পদ্ধতি ব্যবহার করেন যা প্রতিটি ক্লাসে বিতরণ উপযোগী হয় তবে II এড়িয়ে চলুন। এবং I বা III কোনটি পরীক্ষা করুন। আপনার সমস্যার জন্য আরও ভাল কাজ করে


তৃতীয়টি ভাল শোনাচ্ছে - যদিও আমি মনে করি শ্রেণিবদ্ধ যদি একটি নমুনা বলে .৩৩ এ, .৩৩ বি, এবং ৩৪ সি, আমার সম্ভবত সম্ভাব্যতাগুলি একটি এবং বি এর জন্য যোগ করতে হবে এবং এইভাবে 'সি না' বেছে নেওয়া উচিত।
ব্যবহারকারী 116293

1
(আই) এর জন্য, বিভক্ত ভোটের (1: a, 2: c, 3: b) ভোটদানের জন্য ভাল পদ্ধতিটি কী, বা সত্যিকারের পক্ষে বিষয়টি খুব বিরল?
ব্যবহারকারী 116293

III এর জন্য। আপনি যা পরামর্শ দেন তা সঠিক। I. 3 শ্রেণীর ডেটার জন্য আমি মনে করি না যে ট্রান্সজিটিভ সম্পত্তি লঙ্ঘন করতে হবে বলে ভোট বিভক্ত করার জন্য কোনও পদক্ষেপ রয়েছে (প্রত্যেকের জন্য 1 টি)। তবে 4+ শ্রেণির জন্য আপনি অবশ্যই শীর্ষে বন্ধন রাখতে পারবেন, সেক্ষেত্রে আপনি জয় / হারের চেয়ে সংখ্যার পরিমাণ ব্যবহার করতে পারেন; অর্থাত্ ওজনকে সর্বাধিক ওজন শ্রেণি দেয় sum
মুরাতো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.