কীভাবে এক-শ্রেণীর পাঠ্য শ্রেণিবিন্যাস করবেন?


14

আমাকে একটি পাঠ্য শ্রেণিবদ্ধকরণ সমস্যা মোকাবেলা করতে হবে। একটি ওয়েব ক্রলার একটি নির্দিষ্ট ডোমেনের ওয়েবপৃষ্ঠাগুলি ক্রল করে এবং প্রতিটি ওয়েবপৃষ্ঠার জন্য আমি এটি অনুসন্ধান করতে চাই যে এটি কেবলমাত্র একটি নির্দিষ্ট শ্রেণীর অন্তর্গত। অর্থাৎ যদি আমি কল এই বর্গ ইতিবাচক , প্রতিটি ক্রল ওয়েবপেজ ক্লাসে পারেন জন্যে ইতিবাচক বা ক্লাসে অ ইতিবাচক

ইতিমধ্যে আমার কাছে ইতিবাচক শ্রেণির জন্য ওয়েবপৃষ্ঠাগুলির একটি বিশাল প্রশিক্ষণ সেট রয়েছে । তবে ক্লাস নন-পজিটিভ জন্য প্রশিক্ষণের সেটটি কীভাবে তৈরি করা যায় যা যতটা সম্ভব প্রতিনিধি? আমি বলতে চাইছি, আমি মূলত প্রতিটি শ্রেণীর জন্য এবং সমস্ত কিছু ব্যবহার করতে পারি। আমি কি কিছু স্বেচ্ছাসেবী পৃষ্ঠাগুলি সংগ্রহ করতে পারি যা অবশ্যই পজিটিভ শ্রেণীর অন্তর্ভুক্ত নয় ? আমি নিশ্চিত যে একটি পাঠ্য শ্রেণিবদ্ধকরণ অ্যালগরিদম (আমি একটি নাইভ বয়েস অ্যালগরিদম ব্যবহার করতে পছন্দ করি) এর কর্মক্ষমতা অত্যন্ত নির্ভর করে আমি কোন ওয়েবপৃষ্ঠাগুলি অ ধনাত্মক শ্রেণীর জন্য বেছে নিই ।

তাহলে আমি কি করব? কেউ দয়া করে আমাকে একটি পরামর্শ দিতে পারেন? আপনাকে অনেক ধন্যবাদ!


আপনার দুটি ক্লাস থাকায় এটি আসলে দুটি শ্রেণির ক্লাস্টারিং। এক শ্রেণীর জন্য আপনার কেবলমাত্র একটি শ্রেণি থাকবে এবং আপনার পর্যবেক্ষণগুলি ডেটা (যেমন বিদেশী সনাক্তকরণ) কতটা ফিট করে তা মূল্যায়নে আগ্রহী।
টিম

এই শেখার সমস্যার একটি নাম রয়েছে - পিইউ শেখা। ইতিবাচক উদাহরণগুলি পাওয়া সহজ বা প্রাকৃতিক যদি এটি স্বাভাবিকভাবেই ব্যবহৃত হয় তবে negativeণাত্মক মূলত সমস্ত কিছু বিশ্রাম হয় (পেতে অসুবিধা হয়)। নীতিগতভাবে আপনি একটি স্ট্যান্ডার্ড দুই শ্রেণির শ্রেণিবদ্ধী শিখতে চান তবে আলাদা মানদণ্ডের সাথে - পিআর বক্ররেখার অধীনে অঞ্চলটি অনুকূলিত করুন। এই সফ্টওয়্যার প্যাকেজটি আপনাকে এমন শ্রেণিবদ্ধ কোড. google.com/p/sofia-ml
ভ্লাদিসালভস ডভগ্যালিক্স

উত্তর:


5

গুপ্তচর ই.এম. অ্যালগরিদম ঠিক এই সমস্যা solves।

এস-ইএম হ'ল একটি পাঠ্য শিখন বা শ্রেণিবিন্যাস সিস্টেম যা ইতিবাচক এবং লেবেলযুক্ত উদাহরণের সেট (কোন নেতিবাচক উদাহরণ নেই) থেকে শিখেছে। এটি একটি "গুপ্তচর" কৌশল, নিষ্পাপ বেয়েস এবং ইএম অ্যালগরিদম ভিত্তিক।

মূল ধারণাটি হ'ল আপনার ইতিবাচক সেটটিকে এলোমেলোভাবে ক্রল করা ডকুমেন্টগুলির পুরো গুচ্ছটির সাথে একত্রিত করা। আপনি প্রথমে সমস্ত ক্রলযুক্ত নথিগুলি নেতিবাচক শ্রেণি হিসাবে বিবেচনা করুন এবং সেই সেটটিতে একটি নিষ্পাপ বেয়েস শ্রেণিবদ্ধী শিখবেন। এখন এই ক্রলযুক্ত কিছু নথি আসলে ইতিবাচক হবে এবং আপনি সর্বনিম্ন স্কোরিং সত্যিকারের ইতিবাচক নথির চেয়ে বেশি স্কোর করা কোনও নথি রক্ষণশীলতার সাথে পুনরায় বিলোপ করতে পারেন। তারপরে আপনি এই প্রক্রিয়াটি স্ট্যাব্লাইজ না হওয়া পর্যন্ত পুনরাবৃত্তি করুন।


অনেক অনেক ধন্যবাদ, এটি বেশ আশাব্যঞ্জক মনে হচ্ছে। আমি এটি একবার দেখুন।
পেমিস্টাহল

6

এখানে এক-শ্রেণীর শ্রেণিবিন্যাস সম্পর্কে একটি ভাল থিসিস রয়েছে:

  • কর, ডিএম: এক শ্রেণির শ্রেণিবিন্যাস - পাল্টা উদাহরণের অভাবে কনসেপ্ট-লার্নিং , পিএইচডি থিসিস, টেকনিকাস ইউনিভার্সিটি ডেলফ্ট, ২০০১. ( পিডিএফ )

এই থিসিসটি সাপোর্ট ভেক্টর ডেটা ডেসক্রিপশন (এসভিডিডি), একটি এক শ্রেণির সমর্থন ভেক্টর মেশিনের পদ্ধতিটি উপস্থাপন করে যা তথ্যকে পৃথক করে এমন হাইপারপ্লেনের চেয়ে ডেটার চারপাশে একটি ন্যূনতম হাইপারস্পিয়ার খুঁজে পায়।

থিসিস অন্যান্য এক-শ্রেণীর শ্রেণিবদ্ধদেরও পর্যালোচনা করে।


@ নুব সাইটটিতে আপনাকে স্বাগতম। আমরা আশা করি পরিসংখ্যান সম্পর্কিত তথ্যের একটি স্থায়ী ভান্ডার তৈরি করব, যেমন আমরা লিঙ্ক্রোটের সম্ভাবনা নিয়ে উদ্বিগ্ন। লিঙ্কটি মারা যাওয়ার ক্ষেত্রে সেই থিসিসে তথ্যের একটি সংক্ষিপ্ত বিবরণ দেওয়ার বিষয়ে আপনি কি আপত্তি করবেন?
গং - মনিকা পুনরায়

সংক্ষিপ্ত করার জন্য আপনাকে ধন্যবাদ। দয়া করে আপনার অ্যাকাউন্টগুলি নিবন্ধভুক্ত করুন এবং মার্জ করুন (আপনি কীভাবে আমাদের সহায়তা কেন্দ্রের আমার অ্যাকাউন্ট বিভাগে আছেন তা জানতে পারেন ), তবে আপনি নিজের পোস্টগুলিতে সম্পাদনা করতে এবং মন্তব্য করতে সক্ষম হবেন।
গুং - মনিকা পুনরায়

স্বাগতম! স্বাগত জানাতে ধন্যবাদ। স্ট্যাক ওভারফ্লোতে নিজেই "ইয়ারলিং" ব্যাজ পেয়ে আমি শিহরিত, তাই এখন আমি যে কোনও জায়গায় মন্তব্য করতে পারি।
জোসিয়াহা যোদার-ডিএ্যাকটিভ ছাড়া ..

@ জোসিয়াহা যোদার, আপনি যদি এখানে ওপি হন, দয়া করে আপনার অ্যাকাউন্টগুলি মার্জ করুন। আমাদের সহায়তা কেন্দ্রের আমার অ্যাকাউন্ট বিভাগে আপনি কীভাবে তা জানতে পারেন
গুং - মনিকা পুনরায়

আমি ওপি নই এই প্রশ্নটি জুড়ে ঘটে যাওয়া কেবল একটি এলোমেলো এসও ব্যবহারকারী।
জোসিয়াহা যোদার-ডিএ্যাকটিভ বাদে ..

1

ভাল প্রশিক্ষণের জন্য এমন ডেটা প্রয়োজন যা পৃথক শ্রেণীর সম্ভাবনার ভাল অনুমান করে provides প্রতিটি শ্রেণিবদ্ধকরণে কমপক্ষে দুটি ক্লাস জড়িত। আপনার ক্ষেত্রে দ্বিতীয় শ্রেণি এমন যে কেউ ইতিবাচক শ্রেণিতে নেই। বয়েস বা অন্য কোনও ভাল পদ্ধতি ব্যবহার করে একটি ভাল সিদ্ধান্তের সীমানা গঠনের জন্য ক্লাস থেকে এলোমেলোভাবে নির্বাচন করা যতটা প্রশিক্ষণের ডেটা রয়েছে তার দ্বারা সবচেয়ে ভাল। আপনি যদি এলোমেলো নির্বাচন না করে থাকেন তবে আপনি এমন একটি নমুনা পেয়ে যেতে পারেন যা শ্রেণিকর্তা শর্তাধীন ঘনত্ব / বিতরণগুলির আকৃতিটি সত্য উপস্থাপন করে না এবং সিদ্ধান্তের সীমানার খারাপ পছন্দ হতে পারে।


1
আপনি ঠিক বলেছেন, এটাই আমাকে বিরক্ত করে। অ-ইতিবাচক নমুনার একটি নমুনা কীভাবে নির্বাচন করবেন যা একটি ভাল সিদ্ধান্তের সীমানায় নিয়ে যায়? এলোমেলো নির্বাচন কি আমি করতে পারি সেরা?
পেমিস্টাল

0

আমি মাইকেল এর সাথে একমত

এলোমেলো নির্বাচন সম্পর্কে আপনার প্রশ্ন সম্পর্কে; হ্যাঁ: আপনার 'ধনাত্মক' এর পরিপূরক সেট থেকে আপনাকে এলোমেলোভাবে নির্বাচন করতে হবে। যদি কোনও বিভ্রান্তি থাকে যে এটি সম্ভব যে আপনার 'ধনাত্মক' সম্পূর্ণরূপে 'খাঁটি ধনাত্মক' হিসাবে সংজ্ঞায়িত করা হয়নি, যদি আমি সেই শব্দটি ব্যবহার করতে পারি তবে আপনি ইতিবাচকদের জন্য কমপক্ষে কোনও রকমের ম্যাচিং সংজ্ঞাও চেষ্টা করতে পারেন যাতে করে আপনি 'ধনাত্মক' সংজ্ঞাটির জন্য সম্ভাব্য কিছু দূষণ তৈরি করছে এমন পরিবর্তনগুলি নিয়ন্ত্রণ করুন। এই ক্ষেত্রে আপনাকে একইভাবে 'অ-ধনাত্মক' দিকের একই ভেরিয়েবলের সাথে মিল করতে হবে।


0

আগ্রহী হতে পারে এমন একটি নিবন্ধ:

"প্রসারিত নিকটতম সঙ্কুচিত সেন্ট্রয়েড শ্রেণিবিন্যাস: বিভিন্ন আকারের পাঠ্যগুলির ওপেন-সেট লেখকত্বের বিশিষ্টতার জন্য একটি নতুন পদ্ধতি", স্কালজে, ক্ষেত্র, রোপার এবং তুষার। সাহিত্য ও ভাষাগত কম্পিউটিং, খণ্ড 26, নং 1, 2011।

যা লেখকদের একটি সংখ্যায় কোনও পাঠ্যকে বিশিষ্ট করার জন্য একটি পদ্ধতি গ্রহণ করে এবং প্রকৃত লেখক প্রার্থীর সেটে না থাকার সম্ভাবনাটি ব্যবহার করতে এটি প্রসারিত করে। এমনকি আপনি এনএসসি পদ্ধতি ব্যবহার না করলেও কাগজের ধারণাগুলি কীভাবে এগিয়ে যেতে হবে তা চিন্তাভাবনায় কার্যকর হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.