প্রকৃতপক্ষে এনএলপি একটি সর্বাধিক সাধারণ ক্ষেত্র যেখানে ডেটা পুনঃনির্মাণের প্রয়োজনীয়তা রয়েছে কারণ ভারসাম্যহীন সমস্যার সাথে মোকাবিলা করার অনেকগুলি পাঠ্য শ্রেণিবদ্ধকরণ কাজ রয়েছে (স্প্যাম ফিল্টারিং, অবমাননাকর মন্তব্য সনাক্তকরণ, নিবন্ধের শ্রেণিবিন্যাস ইত্যাদি)। তবে স্মোট এখানে কিছু কারণে সমস্যাযুক্ত বলে মনে হচ্ছে:
- স্মোট ফিচার স্পেসে কাজ করে। এর অর্থ SMOTE এর আউটপুট কোনও সিন্থেটিক ডেটা নয় যা এর বৈশিষ্ট্য জায়গার অভ্যন্তরে কোনও পাঠ্যের প্রকৃত প্রতিনিধি।
- একদিকে SMOTE কেএনএন এর সাথে কাজ করে এবং অন্যদিকে, এনএলপি সমস্যার বৈশিষ্ট্যগুলি নাটকীয়ভাবে বিশাল। কেএনএন সহজেই এই বিশাল মাত্রাগুলিতে ব্যর্থ হবে।
সুতরাং আমি আপনাকে দুটি পদ্ধতির প্রস্তাব দিতে পারি:
- নতুন কৃত্রিম নমুনাগুলির আসল পাঠ উপস্থাপনের বিষয়ে চিন্তা করবেন না যা আমি মনে করি যে ভাল হতে হবে। পাঠ্য ডেটা পাঠকের জন্য নয় আপনার শ্রেণিবদ্ধের জন্য বিতরণকে আপনার ভারসাম্য বজায় রাখতে হবে। সুতরাং স্মোটকে প্রচলিত হিসাবে প্রয়োগ করুন (তবে আমি সাধারণত সমাধানটি 2 বেলো ব্যবহার করি যাতে ফলটির গ্যারান্টি না করি!) কিছু মাত্রিকতা হ্রাস পদক্ষেপ নিয়ে।
1) ধরে নেওয়া যাক আপনি 3-NN ব্যবহার করে নাবালিক শ্রেণীর থেকে আপনার ডেটা নমুনাগুলি তৈরি করতে চান। প্রধান শ্রেণি (এস) উপেক্ষা করুন এবং কেবল ছোটখাটো শ্রেণির নমুনা রাখুন।
2) বৈশিষ্ট্য স্পেসের প্রতিটি স্যাম্পল পয়েন্টের জন্য 5 নিকটতম প্রতিবেশী চয়ন করুন। তারপরে তাদের মধ্যে 3 টি এলোমেলোভাবে বেছে নিন (এটি কি অপ্রয়োজনীয় জটিল নয়? যদি আমি মূল অ্যালগরিদমটি ব্যাখ্যা করতে না চাই তবে আমি বলব যে কেবল 3 প্রতিবেশী বেছে নিন!)
3) প্রতিটি মাত্রার জন্য নমুনা এবং প্রতিবেশীদের মধ্যে দূরত্ব গণনা করুন এবং এটিকে 0-1 এর মধ্যে একটি এলোমেলো সংখ্যায় গুণ করুন এবং সেই মাত্রায় নমুনার মূল মানটিতে যুক্ত করুন। (এই জটিল অনুচ্ছেদে প্রতিটি মাত্রার জন্য কেবলমাত্র আসল নমুনা এবং সেই প্রতিবেশীর মধ্যে একটি এলোমেলো মান চয়ন করুন!)
- তবে আমি সাধারণত আরও একটি ওভারস্যাম্পলিং করি যা পাঠ্যের (যাতে আরও স্বজ্ঞাত) হয় এবং এটি ধরণের স্মট।
1) প্রধান শ্রেণি উপেক্ষা করুন। নাবালিক শ্রেণিতে সমস্ত নথির দৈর্ঘ্যের বন্টন পান যাতে সত্য নথির দৈর্ঘ্য (শব্দ / বাক্যাংশের সংখ্যা) অনুযায়ী আমরা নতুন নমুনা তৈরি করি। আমরা ধরে নিই আমরা ক্লাস ট্রিপলের আকার তৈরি করতে চাই (সুতরাং মূল ডকুমেন্টের জন্য সিন্থেটিক ডকুমেন্ট তৈরি করা )কে = 2
2) সেই বন্টন অনুযায়ী এলোমেলো পূর্ণসংখ্যার ক্রম তৈরি করুন। এটি নতুন সিন্থেটিক ডকুমেন্টের দৈর্ঘ্য নির্ধারণের জন্য ব্যবহৃত হয়।n
3) প্রতিটি নথির জন্য: এলোমেলো দৈর্ঘ্যের ক্রম এবং এলোমেলো নথি থেকে একটি পূর্ণসংখ্যা চয়ন করুন যার দৈর্ঘ্য পূর্ণসংখ্যার কাছাকাছি। সমস্ত ডকুমেন্টের টোকেনকে একটি সেটে রাখুন এবং এলোমেলোভাবে টোকেন বার চয়ন করুন। এগুলি আপনার নতুন নথি।mmnkk