স্তরযুক্ত নমুনা প্রয়োজনীয় (এলোমেলো বন, পাইথন)?


14

আমি আমার ভারসাম্যহীন ডেটাসেটের এলোমেলো বন মডেল চালানোর জন্য পাইথন ব্যবহার করি (লক্ষ্য পরিবর্তনশীলটি বাইনারি ক্লাস ছিল)। প্রশিক্ষণ এবং ডেটাসেট পরীক্ষা করার সময়, আমি স্ট্র্যাটেড স্যাম্পলিং (প্রদর্শিত কোডের মতো) ব্যবহার করব কিনা তা নিয়ে লড়াই করেছি। এখনও অবধি, আমি আমার প্রকল্পে পর্যবেক্ষণ করেছি যে স্তরিত কেসটি একটি উচ্চতর মডেল পারফরম্যান্সের দিকে পরিচালিত করবে। তবে আমি মনে করি যদি আমি আমার মডেলটি নতুন ক্ষেত্রেগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহার করি যা সম্ভবত আমার বর্তমান ডেটাসেটের সাথে লক্ষ্য শ্রেণীর বিতরণে খুব আলাদা হবে। সুতরাং আমি এই সীমাবদ্ধতা আলগা করতে এবং অবিচ্ছিন্ন বিভাজনটি ব্যবহার করতে চাইছি। এই বিষয়টি স্পষ্ট করার জন্য কেউ কি পরামর্শ দিতে পারেন?

train,test=train_test_split(myDataset, test_size=0.25, stratify=y)

উত্তর:


13

যদি প্রতিটি শ্রেণীর অন্তর্ভুক্ত মানগুলির সংখ্যা ভারসাম্যহীন হয় তবে স্তরযুক্ত নমুনা ব্যবহার করা ভাল জিনিস। আপনি মূলত মডেলটিকে প্রশিক্ষণ এবং পরীক্ষা সেট নিতে বলছেন যে ক্লাসের অনুপাত পুরো ডেটাসেটের সমান, যা করণীয় সঠিক । যদি আপনার ক্লাসগুলি ভারসাম্যপূর্ণ হয় তবে একটি রদবদল (এখানে কোনও স্তরের প্রয়োজন নেই) মূলত একটি সুষ্ঠু পরীক্ষা এবং ট্রেনের বিভাজনের গ্যারান্টি দিতে পারে।

এখন আপনার মডেল সক্ষম বা কমপক্ষে পর্যাপ্ত সংখ্যাযুক্ত শ্রেণীর (সংখ্যায় কম পয়েন্ট সহ শ্রেণি) পূর্বাভাস দিতে যথেষ্ট সজ্জিত হবে। সে কারণেই কেবল নির্ভুলতার গণনা করার পরিবর্তে আপনাকে সংবেদনশীলতা এবং নির্দিষ্টকরণের মতো অন্যান্য মেট্রিক দেওয়া হয়েছে । এগুলি লক্ষ্য রাখুন, এগুলি অভিভাবকরা।

আশাকরি এটা সাহায্য করবে.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.