পাঠ্য শ্রেণিবিন্যাসে আপনি কীভাবে SMOTE প্রয়োগ করবেন?


14

সিন্থেটিক মাইনরিটি ওভারসাম্পলিং টেকনিক (এসএমওটিই) ভারসাম্যহীন ডেটাসেট সমস্যায় ব্যবহৃত একটি ওভারস্যাম্পলিং কৌশল। এ পর্যন্ত জেনেরিক, কাঠামোগত ডেটাতে কীভাবে এটি প্রয়োগ করতে হয় সে সম্পর্কে আমার কাছে ধারণা আছে। তবে এটি কি পাঠ্য শ্রেণীবদ্ধের সমস্যায় প্রয়োগ করা সম্ভব? উপাত্তের কোন অংশটি আপনার ওভার স্যাম্পল করা দরকার? এটি সম্পর্কে ইতিমধ্যে আরও একটি প্রশ্ন রয়েছে , তবে এর কোনও উত্তর নেই। এটি দিয়ে শুরু করা আমি সম্ভবত কোথায় শিখতে পারি?

উত্তর:


11

প্রকৃতপক্ষে এনএলপি একটি সর্বাধিক সাধারণ ক্ষেত্র যেখানে ডেটা পুনঃনির্মাণের প্রয়োজনীয়তা রয়েছে কারণ ভারসাম্যহীন সমস্যার সাথে মোকাবিলা করার অনেকগুলি পাঠ্য শ্রেণিবদ্ধকরণ কাজ রয়েছে (স্প্যাম ফিল্টারিং, অবমাননাকর মন্তব্য সনাক্তকরণ, নিবন্ধের শ্রেণিবিন্যাস ইত্যাদি)। তবে স্মোট এখানে কিছু কারণে সমস্যাযুক্ত বলে মনে হচ্ছে:

  • স্মোট ফিচার স্পেসে কাজ করে। এর অর্থ SMOTE এর আউটপুট কোনও সিন্থেটিক ডেটা নয় যা এর বৈশিষ্ট্য জায়গার অভ্যন্তরে কোনও পাঠ্যের প্রকৃত প্রতিনিধি।
  • একদিকে SMOTE কেএনএন এর সাথে কাজ করে এবং অন্যদিকে, এনএলপি সমস্যার বৈশিষ্ট্যগুলি নাটকীয়ভাবে বিশাল। কেএনএন সহজেই এই বিশাল মাত্রাগুলিতে ব্যর্থ হবে।

সুতরাং আমি আপনাকে দুটি পদ্ধতির প্রস্তাব দিতে পারি:

  1. নতুন কৃত্রিম নমুনাগুলির আসল পাঠ উপস্থাপনের বিষয়ে চিন্তা করবেন না যা আমি মনে করি যে ভাল হতে হবে। পাঠ্য ডেটা পাঠকের জন্য নয় আপনার শ্রেণিবদ্ধের জন্য বিতরণকে আপনার ভারসাম্য বজায় রাখতে হবে। সুতরাং স্মোটকে প্রচলিত হিসাবে প্রয়োগ করুন (তবে আমি সাধারণত সমাধানটি 2 বেলো ব্যবহার করি যাতে ফলটির গ্যারান্টি না করি!) কিছু মাত্রিকতা হ্রাস পদক্ষেপ নিয়ে।

1) ধরে নেওয়া যাক আপনি 3-NN ব্যবহার করে নাবালিক শ্রেণীর থেকে আপনার ডেটা নমুনাগুলি তৈরি করতে চান। প্রধান শ্রেণি (এস) উপেক্ষা করুন এবং কেবল ছোটখাটো শ্রেণির নমুনা রাখুন।

2) বৈশিষ্ট্য স্পেসের প্রতিটি স্যাম্পল পয়েন্টের জন্য 5 নিকটতম প্রতিবেশী চয়ন করুন। তারপরে তাদের মধ্যে 3 টি এলোমেলোভাবে বেছে নিন (এটি কি অপ্রয়োজনীয় জটিল নয়? যদি আমি মূল অ্যালগরিদমটি ব্যাখ্যা করতে না চাই তবে আমি বলব যে কেবল 3 প্রতিবেশী বেছে নিন!)

3) প্রতিটি মাত্রার জন্য নমুনা এবং প্রতিবেশীদের মধ্যে দূরত্ব গণনা করুন এবং এটিকে 0-1 এর মধ্যে একটি এলোমেলো সংখ্যায় গুণ করুন এবং সেই মাত্রায় নমুনার মূল মানটিতে যুক্ত করুন। (এই জটিল অনুচ্ছেদে প্রতিটি মাত্রার জন্য কেবলমাত্র আসল নমুনা এবং সেই প্রতিবেশীর মধ্যে একটি এলোমেলো মান চয়ন করুন!)

  1. তবে আমি সাধারণত আরও একটি ওভারস্যাম্পলিং করি যা পাঠ্যের (যাতে আরও স্বজ্ঞাত) হয় এবং এটি ধরণের স্মট।

1) প্রধান শ্রেণি উপেক্ষা করুন। নাবালিক শ্রেণিতে সমস্ত নথির দৈর্ঘ্যের বন্টন পান যাতে সত্য নথির দৈর্ঘ্য (শব্দ / বাক্যাংশের সংখ্যা) অনুযায়ী আমরা নতুন নমুনা তৈরি করি। আমরা ধরে নিই আমরা ক্লাস ট্রিপলের আকার তৈরি করতে চাই (সুতরাং মূল ডকুমেন্টের জন্য সিন্থেটিক ডকুমেন্ট তৈরি করা )k=2

2) সেই বন্টন অনুযায়ী এলোমেলো পূর্ণসংখ্যার ক্রম তৈরি করুন। এটি নতুন সিন্থেটিক ডকুমেন্টের দৈর্ঘ্য নির্ধারণের জন্য ব্যবহৃত হয়।n

3) প্রতিটি নথির জন্য: এলোমেলো দৈর্ঘ্যের ক্রম এবং এলোমেলো নথি থেকে একটি পূর্ণসংখ্যা চয়ন করুন যার দৈর্ঘ্য পূর্ণসংখ্যার কাছাকাছি। সমস্ত ডকুমেন্টের টোকেনকে একটি সেটে রাখুন এবং এলোমেলোভাবে টোকেন বার চয়ন করুন। এগুলি আপনার নতুন নথি।mmnkk


উত্তরের জন্য ধন্যবাদ, তবে নমুনাগুলি যদি ওয়ান-হট এনকোডিং ব্যবহার করে প্রতিনিধিত্ব করা হয় তবে কী SMOTE প্রয়োগ করা যেতে পারে? বা তাদের অন্য উপায়ে উপস্থাপন করা উচিত ?.
আদনানমুতলেব

হাই কসরা, আপনি উল্লিখিত পদক্ষেপগুলির সাথে সম্পর্কিত কিছু বাস্তবায়ন ভাগ করতে পারেন
পায়েল ভাটিয়া

2

আপনি যদি আরও পাঠ্য / বাক্য ট্র্যানিং ডেটা যুক্ত করতে চান তবে আপনি প্রাক প্রশিক্ষিত শব্দ এম্বেডিং ব্যবহার করতে পারেন। প্রিট্রেইন মডেলগুলি প্রতিটি অভিধান শব্দের ভেক্টর উপস্থাপনা সরবরাহ করে। এটি 'মোস্ট_সাম্পায়েন্ট' শব্দও সরবরাহ করে।

আপনি কেবলমাত্র নমুনা বাক্যটি ব্যবহার করতে পারেন এবং প্রতিটি শব্দের সর্বাধিক TOP_N অনুরূপ শব্দ ব্যবহার করে নতুন নমুনা তৈরি করতে পারেন।

উদাহরণস্বরূপ, যদি আপনার বাক্যটিতে 3 টি শব্দ থাকে এবং আপনি যদি প্রতিটি শব্দের জন্য 3 টি একইরকম চয়ন করেন তবে আপনি 27 বার উপস্থাপনা করতে পারেন।


হাই যশোধান, এই প্রক্রিয়াটি যদি ডোমেন-নির্দিষ্ট করে থাকে তবে আমরা কীভাবে এটি ব্যবহার করতে পারি? ধন্যবাদ
পায়েল ভাটিয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.