উচ্চ পক্ষপাতদুষ্ট ডেটাসেটের সাথে একটি ট্রি এনসেম্বল প্রশিক্ষণের জন্য কী কী প্রভাব পড়বে?

14

আমার কাছে অত্যন্ত পক্ষপাতিত্বমূলক বাইনারি ডেটাসেট রয়েছে - আমার কাছে ইতিবাচক শ্রেণির চেয়ে নেতিবাচক শ্রেণির আরও 1000x উদাহরণ রয়েছে। আমি এই ডেটাতে একটি ট্রি এনসেম্বলকে (অতিরিক্ত র্যান্ডম ট্রি বা একটি এলোমেলো বন হিসাবে) প্রশিক্ষণ দিতে চাই তবে ইতিবাচক শ্রেণির পর্যাপ্ত উদাহরণ রয়েছে এমন প্রশিক্ষণ ডেটাসেট তৈরি করা কঠিন।

ইতিবাচক এবং নেতিবাচক উদাহরণগুলির সংখ্যা স্বাভাবিক করার জন্য একটি স্তরিত নমুনা পদ্ধতির করার কী কী প্রভাব ফেলবে? অন্য কথায়, উদাহরণস্বরূপ, প্রশিক্ষণ সংস্থায় কৃত্রিমভাবে ধনাত্মক শ্রেণীর উদাহরণগুলির সংখ্যা কৃত্রিমভাবে ফুলে উঠা (পুনর্নির্মাণের মাধ্যমে) করা কি খারাপ ধারণা?

machine-learning feature-selection unbalanced-classes

— gallamine
সূত্র

10

হ্যাঁ, এটি সমস্যাযুক্ত। আপনি যদি সংখ্যালঘুটিকে নিরীক্ষণ করেন তবে আপনি অতিরিক্ত চাপ ঝুঁকিপূর্ণ করেন। আপনি যদি সংখ্যাগরিষ্ঠতা অবলম্বন করেন তবে আপনি সংখ্যাগরিষ্ঠ শ্রেণীর দিকগুলি অনুপস্থিত। স্ট্রেইটেড স্যাম্পলিং, বিটিডাব্লু, অ-ইউনিফর্মের ভুল শংসাপত্রের ব্যয় নির্ধারণের সমতুল্য।

বিকল্প:

(১) @ ডেবেসিসের উত্তরে প্রস্তাবিত এবং এই ইজি-এনসেম্বেবল পেপারে বর্ণিত হিসাবে, সংখ্যালঘু শ্রেণীর ডেটাগুলির সাথে প্রতিটি উপসেটকে একত্রিত করে সংখ্যাগরিষ্ঠ শ্রেণীর কাছ থেকে স্বতন্ত্রভাবে কয়েকটি সাবসেটের নমুনা তৈরি এবং একাধিক শ্রেণিবদ্ধকারী তৈরি করা ,

(২) স্মার্ট (সিনথেটিক সংখ্যালঘু ওভারসাম্পলিং টেকনিক) বা এসএমওটি বুস্ট, (বুস্টিংয়ের সাথে স্মোটের সংমিশ্রণ) বৈশিষ্ট্যের জায়গায় নিকটতম প্রতিবেশীদের তৈরি করে সংখ্যালঘু শ্রেণীর সিন্থেটিক দৃষ্টান্ত তৈরি করতে। ডিএমডব্লিউআর প্যাকেজে এসএমওটি প্রয়োগ করা হয় ।

— MattBagg
সূত্র

11

আমি আপনার ডেটার আরও সুষম সাবসেটগুলি সম্পর্কে প্রশিক্ষণের পরামর্শ দেব। অনুরূপ সংখ্যক নেতিবাচক নমুনার সাথে এলোমেলোভাবে নির্বাচিত ইতিবাচক উদাহরণের সেটগুলিতে এলোমেলো বন প্রশিক্ষণ Training বিশেষত যদি বৈষম্যমূলক বৈশিষ্ট্যগুলি প্রচুর পরিমাণে বৈকল্পিকতা প্রদর্শন করে তবে এটি মোটামুটি কার্যকর হবে এবং অতিরিক্ত ফিটনেস এড়ানো হবে। তবে স্তরবিন্যাসের ক্ষেত্রে ভারসাম্য খুঁজে পাওয়া গুরুত্বপূর্ণ কারণ অতিরিক্ত-ফিটিং কোনও সমস্যা হয়ে উঠতে পারে। আমি মডেলটি কীভাবে পুরো ডেটা সেট সেট করে তা পর্যবেক্ষণের সাথে ইতিবাচক অনুপাতের সমান অনুপাতের নিকটে বৃদ্ধি করে এবং কিছু প্রতিনিধির উপর আপনার পারফরম্যান্স মেট্রিককে ডেটা ধরে রাখার জন্য বেছে নেওয়ার পরামর্শ দিচ্ছি।

এই কাগজটি বেশিরভাগ প্রাসঙ্গিক বলে মনে হচ্ছে http://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdf এটি এমন একটি বিষয় নিয়ে কথা বলে weighted Random Forestযা সংখ্যালঘু শ্রেণীর ভুল তালিকাভুক্তিকে আরও বেশি দণ্ডিত করে।

— indico
সূত্র

4

এই ভারসাম্যহীনতার কাছে যাওয়ার দ্রুত এবং সহজ একটি সহজ উপায় হ'ল এলোমেলোভাবে বড় বর্গকে সাবমেল করা (যা আপনার ক্ষেত্রে নেতিবাচক শ্রেণি), দুটি শ্রেণীর সদস্যদের সাথে N সংখ্যা বারে চালিত করুন (একটি পূর্ণ এবং অন্যটি সাবম্যাম্পলড) এবং গড় মেট্রিক মানগুলি প্রতিবেদন করুন, গড়টি এন (1000 বলে) পুনরাবৃত্তির তুলনায় গণনা করা হচ্ছে।

আরও একটি পদ্ধতিগত পদ্ধতি হ'ল ম্যাপিং কনভার্জেনশন (এমসি) অ্যালগরিদম কার্যকর করা, যার মধ্যে ওএসভিএম বা এসভিডিডি-র মতো এক শ্রেণির শ্রেণিবদ্ধের সাহায্যে দৃ strong় নেতিবাচক নমুনাগুলির একটি উপসেট সনাক্তকরণ এবং তারপরে পুনরাবৃত্তভাবে সেটটিতে বাইনারি শ্রেণিবদ্ধকরণ সম্পাদন করা হয় শক্তিশালী নেতিবাচক এবং ধনাত্মক নমুনার। এমসির অ্যালগরিদমের আরও বিশদ এই পত্রিকায় পাওয়া যাবে ।

— দেবাশিস
সূত্র

0

উপরে উল্লিখিত হিসাবে, সর্বোত্তম উপায়টি বারবার সংখ্যাগরিষ্ঠ N বারের নমুনা করা (প্রতিস্থাপন ছাড়াই নমুনা দেওয়া) এবং প্রতিটি বারের জন্য, নেতিবাচক শ্রেণির আকার ইতিবাচক শ্রেণির আকারের সমান হওয়া উচিত। এখন, এন বিভিন্ন শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়া যেতে পারে এবং গড় এটি মূল্যায়ন করতে ব্যবহার করা যেতে পারে।

আর একটি উপায় বুটস্ট্র্যাপিংয়ের কৌশলটি ব্যবহার করা। এটি ওভারফিটিংয়ের সাথে পরিচিত হতে পারে, তবে চেষ্টা করার মতো এবং যদি প্রয়োজন হয় তবে ওভারফিটিং এড়ানোর জন্য মডেলটিকে নিয়মিত করা যায়।

— র্যাম
সূত্র