পাঠ্য শ্রেণিবদ্ধ প্রশিক্ষণ ডেটাসেটের পরামর্শ দিন


9

কোনও পাঠ্য শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য কোন অবাধে উপলভ্য ডেটাসেটগুলি ব্যবহার করতে পারি?

আমরা তার জন্য সর্বাধিক সম্পর্কিত বিষয়বস্তুর সুপারিশ করে আমাদের ব্যবহারকারীদের ব্যস্ততা বাড়ানোর চেষ্টা করছি, তাই আমরা ভেবেছিলাম আমরা যদি ইতিমধ্যে শ্রেণিবদ্ধ পোস্টের এলোমেলো সংখ্যার পোস্টে তার প্রতিক্রিয়া পেয়ে আমরা তার বিষয়বস্তুকে প্রবৃত্ত করার দ্বারা প্রস্তাবিত শব্দের একটি পূর্বনির্ধারিত ব্যাগের উপর ভিত্তি করে আমাদের বিষয়বস্তুটিকে শ্রেণিবদ্ধ করি him আগে.

আমরা এই তথ্যগুলি তার জন্য ক্লাসগুলির সাথে লেবেলযুক্ত ডালের সুপারিশ করতে ব্যবহার করতে পারি। তবে আমরা দেখতে পেয়েছি যে আমরা যদি আমাদের সামগ্রীর সাথে সম্পর্কিত না শব্দগুলির একটি পূর্বনির্ধারিত ব্যাগ ব্যবহার করি তবে বৈশিষ্ট্য ভেক্টরটি শূন্যে পূর্ণ হবে, এছাড়াও বিভাগগুলি আমাদের সামগ্রীর সাথে প্রাসঙ্গিক নাও হতে পারে। সুতরাং সেই কারণে আমরা আরও একটি সমাধান চেষ্টা করেছি যা আমাদের সামগ্রীটিকে শ্রেণিবদ্ধ না করে ক্লাস্টারিং করবে।

ধন্যবাদ :)


1
আমি মনে করি আপনার ডেটাসেটের পরামর্শ দেওয়ার আগে আপনার সমস্যা সম্পর্কে আরও বিশদ প্রয়োজন।
নিল স্লেটার

3
কোন উদ্দেশ্যে? স্প্যাম ফিল্টারিং? অনুভূতির বিশ্লেষণ? সুস্পষ্ট উদ্দেশ্য ব্যতীত কোনও ডেটাসেটের পরামর্শ দেওয়া খুব কঠিন।
lsdr

@lsdr উত্তরগুলি খুঁজছেন বলে মনে হচ্ছে যে প্রশ্নটির আরও প্রয়োজনীয়তার প্রয়োজন নেই need
আমির আলী আকবরী

@ আমিরআলিআকবাড়ি আমার ধারণা তারা সম্পাদনার পরে এসেছিল। আমি যাই হোক না কেন, আমার ঘনিষ্ঠ ভোট প্রত্যাহার।
রুবেন্স

এই প্রশ্নের জন্য আরো একটি উপযুক্ত স্থান opendata.stackexchange.com
sheldonkreger

উত্তর:


14

পাঠ্য শ্রেণিবিন্যাসের জন্য কিছু মানক ডেটাসেটগুলি হ'ল 20-নিউজ গ্রুপ, রয়টার্স (8 এবং 52 ক্লাস সহ) এবং ওয়েবকেবি। আপনি এখানে সব খুঁজে পেতে পারেন ।


ধন্যবাদ :), আমি এর আগেও এটি পরিদর্শন করেছি তবে আমি দেখেছি এটির শ্রেণিবদ্ধতা যথেষ্ট বিমূর্ত নয় বা এটি আমার সামগ্রীর সাথে সম্পর্কিত নাও হতে পারে
আবদেলমাওলা

7

পাঠ্য শ্রেণীবদ্ধকরণ গবেষণার জন্য সর্বাধিক ব্যবহৃত এক পরীক্ষার সংগ্রহ (নীচের লিঙ্ক)। আমি অনেকবার ব্যবহার করেছি। আপনার অনুসন্ধান উপভোগ করুন :)

http://www.daviddlewis.com/resources/testcol લેક્S / reuters21578 / বা http://archive.ics.uci.edu/ML/datasets/Reuters-21578+ পাঠ্যক্রম + শ্রেণিবদ্ধকরণ + সংগ্রহ


5

ইউসি ইরভিনের সাথে এখানে খেলতে বিনামূল্যে ডেটাসেটের একটি গুচ্ছ রয়েছে । এই ডেটাসেটগুলির মধ্যে কয়েক ডজন পাঠ্য পাঠ্য ডেটাसेट রয়েছে যা আপনাকে ছেলেদেরকে আপনার টাস্কে সহায়তা করতে পারে।

এগুলি জেনেরিক ডেটাসেটের ধরণের, সুতরাং আপনার উদ্দেশ্য অনুসারে সেগুলি কেবল আপনার মডেলগুলিকে প্রশিক্ষণের জন্য কেবলমাত্র ডেটা হিসাবে ব্যবহার করা উচিত নয়, অন্যথায় আপনার মডেল - এটি কার্যকর হতে পারে - মানসম্মত ফলাফল উত্পাদন করতে পারে না।


1

উপরের পরামর্শগুলি ছাড়াও, একটি অত্যন্ত দরকারী পিডিএফ রয়েছে - শ্রেণিবদ্ধকরণ এবং ক্লাস্টারিং কার্যগুলির জন্য বেঞ্চমার্কিং পাঠ্য সংগ্রহসমূহ যা আমাদের মডেলগুলি পরীক্ষা করার জন্য মানদণ্ডের সাথে বিভিন্ন ডেটাসেট ধারণ করে। এটিতে 20ng সংগ্রহ, রয়টার্স এবং উপরের প্রস্তাবিত অনেকগুলি ডেটাসেট অন্তর্ভুক্ত রয়েছে। আমি আসা করি এটা সাহায্য করবে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.