আমি আমার ভারসাম্যহীন ডেটাসেটের এলোমেলো বন মডেল চালানোর জন্য পাইথন ব্যবহার করি (লক্ষ্য পরিবর্তনশীলটি বাইনারি ক্লাস ছিল)। প্রশিক্ষণ এবং ডেটাসেট পরীক্ষা করার সময়, আমি স্ট্র্যাটেড স্যাম্পলিং (প্রদর্শিত কোডের মতো) ব্যবহার করব কিনা তা নিয়ে লড়াই করেছি। এখনও অবধি, আমি আমার প্রকল্পে পর্যবেক্ষণ করেছি যে স্তরিত কেসটি একটি উচ্চতর মডেল পারফরম্যান্সের দিকে পরিচালিত করবে। তবে আমি মনে করি যদি আমি আমার মডেলটি নতুন ক্ষেত্রেগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহার করি যা সম্ভবত আমার বর্তমান ডেটাসেটের সাথে লক্ষ্য শ্রেণীর বিতরণে খুব আলাদা হবে। সুতরাং আমি এই সীমাবদ্ধতা আলগা করতে এবং অবিচ্ছিন্ন বিভাজনটি ব্যবহার করতে চাইছি। এই বিষয়টি স্পষ্ট করার জন্য কেউ কি পরামর্শ দিতে পারেন?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)