আর এ র্যান্ডম অরণ্যের সাথে শ্রেণিবিন্যাসের জন্য, ভারসাম্যহীন শ্রেণীর মাপের জন্য কীভাবে সমন্বয় করা উচিত?


17

আমি যে প্রকল্পে কাজ করছি তার জন্য আমি বিভিন্ন শ্রেণিবদ্ধকরণ পদ্ধতিগুলি অন্বেষণ করছি এবং র্যান্ডম অরণ্য চেষ্টা করতে আগ্রহী। আমি পাশাপাশি যাওয়ার সাথে সাথে নিজেকে শিক্ষিত করার চেষ্টা করছি এবং সিভি সম্প্রদায় দ্বারা প্রদত্ত যে কোনও সহায়তার প্রশংসা করব।

আমি আমার ডেটা প্রশিক্ষণ / পরীক্ষা সেটগুলিতে বিভক্ত করেছি। আর এলোমেলো বনাঞ্চল (র্যান্ডমফোরস্ট প্যাকেজ ব্যবহার করে) নিয়ে পরীক্ষা-নিরীক্ষা করা থেকে, আমার ছোট শ্রেণির জন্য আমি উচ্চতর মিসক্যাসিফিকেশন রেট নিয়ে সমস্যায় পড়ছি। ভারসাম্যহীন ডেটাতে এলোমেলো বনগুলির কার্যকারিতা সম্পর্কিত আমি এই কাগজটি পড়েছি এবং এলোমেলো বন ব্যবহার করার সময় লেখকরা শ্রেণি ভারসাম্য নিয়ে কাজ করার দুটি পদ্ধতি উপস্থাপন করেছিলেন।

1. ভারী র্যান্ডম বন

2. ভারসাম্য র্যান্ডম বন

আর প্যাকেজটি ক্লাসের ওজনকে মঞ্জুরি দেয় না (আরআর সহায়তা ফোরামগুলি থেকে, আমি পড়েছি ক্লাসওয়েট প্যারামিটারটি সঠিকভাবে সম্পাদন করছে না এবং ভবিষ্যতের বাগ ফিক্স হিসাবে নির্ধারিত হয়েছে), তাই আমার বিকল্প 2 রয়েছে am আমি নির্দিষ্ট করতে সক্ষম হয়েছি এলোমেলো বনের প্রতিটি পুনরাবৃত্তির জন্য প্রতিটি শ্রেণি থেকে নমুনাযুক্ত বস্তুর সংখ্যা।

আমি এলোমেলো বনাঞ্চলের জন্য সমান নমুনার আকার নির্ধারণ করতে অস্বস্তি বোধ করি, কারণ আমার মনে হয় ভবিষ্যতের ডেটাগুলির সাথে খারাপ পারফরম্যান্সের দিকে বড় শ্রেণীর সম্পর্কে আমি খুব বেশি তথ্য হারাব information বৃহত্তর শ্রেণীর নিম্নগামীকরণের সময় ভুল শোধন করার হারগুলি উন্নতির জন্য দেখিয়েছে, তবে আমি ভাবছিলাম যে এলোমেলো বনাঞ্চলে ভারসাম্যহীন বর্গের আকারগুলি মোকাবেলা করার অন্যান্য উপায় আছে কি?


1
একই ধরণের সমস্যার মুখোমুখিও হচ্ছি। আপনি যদি দয়া করে ওয়েট এলোমেলো বন এবং মেট্রিক ভিত্তিক এলোমেলো বনের জন্য স্ক্রিপ্ট সরবরাহ করতে পারেন ?? আপনার জবাবের অপেক্ষায়

উত্তর:


5

আপনি যদি এই বিকল্পগুলি পছন্দ না করেন, তবে আপনি কি পরিবর্তে কোনও বুস্টিং পদ্ধতি ব্যবহার করার কথা বিবেচনা করেছেন? একটি উপযুক্ত লোকসান ফাংশন দেওয়া হয়েছে, বর্ধিত হওয়ার সাথে সাথে স্বয়ংক্রিয়ভাবে ওজনকে পুনরুদ্ধার করে। যদি এলোমেলো বনগুলির স্টোকাস্টিক প্রকৃতি আপনার কাছে আবেদন করে তবে স্টোকাস্টিক গ্রেডিয়েন্ট বুস্টিং সেটিকেও বাড়িয়ে তোলে।


হাই ডেভিড, পরামর্শের জন্য ধন্যবাদ। এলোমেলো বনাঞ্চলের সাথে / মিশ্রণে কি উত্সাহ দেওয়া সম্ভব? এছাড়াও, আমি পড়েছি যে কোলাহলিত ডেটার সাথে বুস্টিং প্রযোজ্য নাও হতে পারে। আমি যে ডেটা নিয়ে কাজ করছি তার মধ্যে অনেকগুলি "গোলমাল" ভেরিয়েবল রয়েছে - আমি বর্তমানে বৈশিষ্ট্য নির্বাচন ছাড়াই এলোমেলো বন চালাচ্ছি, ভারসাম্যহীনতা মোকাবেলায় বৃহত্তর শ্রেণিকে নিচে নম্র করে তুলছি। আমি গ্রহণযোগ্য ফলাফল পাচ্ছি (প্রশিক্ষণ সংস্থায় 85% ছোট শ্রেণির এবং 93% বৃহত্তর শ্রেণীর সঠিকভাবে শ্রেণিবদ্ধকরণ), তবে উন্নতি সর্বদা স্বাগত।
আইলম

@ জোনাথন এলোমেলো বনাঞ্চলের বিভিন্ন উত্সাহদানের পদ্ধতি তৈরির আগে এলোমেলো বনগুলি শুরু করার আগে আমার কতটা আওয়াজ দরকার তা আমি বুঝতে পারি না, তবে আমার ধারণা এই যে এটি অনেকটা কাতর। gbmপ্যাকেজ Rএকটি কাজ "ওজন" শব্দটি আছে, এবং আপনি "bag.fraction" শব্দটি দিয়ে কমিয়ে র্যান্ডম বন করার জন্য একটি অনুরূপ ফ্যাশন যদৃচ্ছতা বৃদ্ধি করতে পারেন। দেখে মনে হচ্ছে এটি চেষ্টা করার মতো।
ডেভিড জে হ্যারিস

@ ডেভিডজে.হরিস বুস্টিং ক্লাস ভারসাম্যহীনতায়ও ভুগছেন, বিশেষত নিরপেক্ষ বিরলতার ক্ষেত্রে, যখন সংখ্যালঘু শ্রেণির তথ্য অপ্রতুল
এন্টোইন

2

আমি মনে করি যে ওজনযুক্ত বস্তুগুলি কোনওভাবে সেগুলির সদৃশ হওয়ার সমান। আপনার নিজের যথাযথভাবে বিভিন্ন শ্রেণীর নমুনা তৈরি করে বুটস্ট্র্যাপ ধাপটি পরিবর্তন করার চেষ্টা করা উচিত।

0.5


0

বড় ক্লাসের স্যাম্পলিংয়ের পরিবর্তে আপনি ছোট ক্লাসগুলি প্রসারিত করতে পারেন! বড় শ্রেণিতে যদি আরও বহুগুণ পর্যবেক্ষণ থাকে তবে ছোট, তবে পক্ষপাত ছোট হবে small আমি আশা করি আপনি সেই সুপারসাইজড ডেটাসেটটি পরিচালনা করতে পারবেন।

আপনি পর্যবেক্ষণের সাবসেটগুলিও সনাক্ত করতে পারেন যা বৃহত শ্রেণীর সম্পর্কে সর্বাধিক তথ্য পরিচালনা করে, অনেকগুলি সম্ভব পদ্ধতি রয়েছে, আমার মনে হয় সবচেয়ে সহজতমটি নিকটতম প্রতিবেশী পদ্ধতির উপর ভিত্তি করে - প্রতিবেশের গ্রাফ কাঠামোর উপর শর্তযুক্ত পর্যবেক্ষণ স্যাম্পলিংয়ের গ্যারান্টি রয়েছে যে নমুনাটির সম্ভাবনার ঘনত্বের সাথে আরও মিল রয়েছে মূল এক

র‌্যান্ডমফোরস্টটি ফোর্টরান এবং সি-তে লেখা আছে, সোর্স কোড পাওয়া যায় (http://cran.r-project.org/src/contrib/randomForest_4.6-2.tar.gz) তবে আমি যেখানে এনথ্রোপি গণনা করা হয়েছে সেখানে স্পট করতে পারছি না, পুনশ্চ. আপগুলি যে এলোমেলোভাবে গিনিকে এথ্রোপির পরিবর্তে ব্যবহার করে


বৃহত্তর শ্রেণিতে পর্যবেক্ষণের সাবসেটগুলি সনাক্ত করা একটি আকর্ষণীয় ধারণা বলে মনে হচ্ছে। প্রকল্পের দ্বিতীয় অংশটি আসলে বৃহত্তর শ্রেণিকে ছোট, দরকারী সাবগ্রুপগুলিতে পৃথক করে যা ভবিষ্যতের অধ্যয়নের জন্য দরকারী হতে পারে। কোডটিতে এনট্রপি গণনা হিসাবে, আমি আসলে কোডটিতে প্রবেশ করিনি এবং কেবল আরএফের পিছনে কিছু তত্ত্বের দিকে নজর রেখেছি, তাই আমি এ সম্পর্কে কোনও মন্তব্য করতে পারি না।
আইলম

আমি অনেক আগে এই কোডটি সংশোধন করতে চেয়েছিলাম, তবে এটির জন্য সময়ের অভাব ছিল, ওজনকে ধারণাত্মকভাবে কঠিন করা উচিত adding
কিউবিক

আর এলোমেলো অরণ্যটি রিগ্রেশন সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে, এটি নিরীক্ষণযুক্ত শ্রেণিবিন্যাসের জন্যও কার্যকর long আমি বহু আগে র্যান্ডমফোরস্টের কোডটি সংশোধন করতে চেয়েছিলাম, তবে এর জন্য সময়ের অভাব ছিল, যুক্ত করে ওজনকে ধারণাত্মকভাবে কঠিন করা যায়। সময় পূর্বে আমি নিজে থেকেই ভাবছিলাম যে কীভাবে নিস্ক্রিয় গুচ্ছবিজ্ঞানের জন্য এলোমেলো বন ব্যবহার করতে হবে এবং আমি একটি ধারণা পেয়েছি তবে এটি পরীক্ষা করা যায় নি, দুর্ভাগ্যবশত এটি বরং বাধ্যতামূলকভাবে দাবি করা হচ্ছে বলে মনে হচ্ছে - সংখ্যা ^ 2।
কিউবিক

0

(1) আপনি ঠিক বলেছেন ওজন ফাংশনটি কাজ করে না এবং এটি কখন স্থির হয়েছে কিনা তা নিশ্চিত নয়।

(২) সর্বাধিক 2 টি বিকল্প ব্যবহার করুন ভারসাম্যপূর্ণ ডেটা সহ। অত্যধিক ডেটা না হারানোর মূলটি হ'ল স্তরযুক্ত নমুনা। আপনি এলোমেলোভাবে প্রতিটি গাছের জন্য একটি অনন্য ভারসাম্য সেট সেট।


0

সিন্থেটিক সংখ্যালঘু ওভার স্যাম্পলিং (এসএমওটিই) প্রতিবেশী পর্যবেক্ষণের এলোমেলো উত্তল সংমিশ্রণ হিসাবে সংখ্যালঘু শ্রেণীর নতুন পর্যবেক্ষণ উত্পন্ন করে। কাগজটি এখানে রয়েছে: https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-106

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.