পাঠ্য শ্রেণীবদ্ধকরণ: বিভিন্ন ধরণের বৈশিষ্ট্যগুলির সংমিশ্রণ

আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল সংক্ষিপ্ত পাঠকে একাধিক শ্রেণিতে শ্রেণিবদ্ধ করা হচ্ছে। আমার বর্তমান পদ্ধতির টিএফ-আইডিএফ ওজনযুক্ত শব্দ ফ্রিকোয়েন্সি ব্যবহার করা এবং একটি সাধারণ লিনিয়ার শ্রেণিবদ্ধ (লজিস্টিক রিগ্রেশন) শিখতে হবে। এটি যুক্তিসঙ্গতভাবে ভাল কাজ করে (পরীক্ষার সেটটিতে 90% ম্যাক্রো এফ -1, প্রশিক্ষণে প্রায় 100%)। একটি বড় সমস্যা হ'ল অদেখা শব্দ / এন-গ্রাম।

আমি অন্যান্য বৈশিষ্ট্যগুলি যুক্ত করে শ্রেণিবদ্ধকে উন্নত করার চেষ্টা করছি, উদাহরণস্বরূপ বিতরণের মিলগুলি (ওয়ার্ড 2vec দ্বারা গণনা করা) বা উদাহরণগুলির অন্যান্য শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি ব্যবহার করে একটি নির্দিষ্ট আকারের ভেক্টর গণনা করা। আমার ধারণাটি ছিল কেবল শব্দের ব্যাগ থেকে বিরল ইনপুট বৈশিষ্ট্যগুলিতে বৈশিষ্ট্যগুলি যুক্ত করা। যাইহোক, এর ফলাফল পরীক্ষা এবং প্রশিক্ষণ সেটে খারাপ পারফরম্যান্সে আসে। নিজেরাই অতিরিক্ত বৈশিষ্ট্যগুলি পরীক্ষার সেটটিতে প্রায় 80% এফ -1 দেয়, তাই এগুলি আবর্জনা নয়। বৈশিষ্ট্যগুলি স্কেলিংয়ের পাশাপাশি কোনও উপকার হয়নি। আমার বর্তমান চিন্তাভাবনাটি হ'ল এই জাতীয় বৈশিষ্ট্যগুলি শব্দের বৈশিষ্ট্যগুলির (স্পার্স) ব্যাগের সাথে ভালভাবে মেশে না।

সুতরাং প্রশ্নটি হ'ল অতিরিক্ত বৈশিষ্ট্যগুলি অতিরিক্ত তথ্য সরবরাহ করে, তাদের অন্তর্ভুক্ত করার সর্বোত্তম উপায় কোনটি? পৃথক শ্রেণিবদ্ধকারীদের প্রশিক্ষণ দিতে এবং তাদেরকে একজাতীয় কাজের মধ্যে একত্রিত করতে পারে (এটি সম্ভবত এই অসুবিধা হতে পারে যে বিভিন্ন শ্রেণিবদ্ধের বৈশিষ্ট্যগুলির মধ্যে কোনও মিথস্ক্রিয়া ধরা যায় না)? আরও কি জটিল মডেলগুলি বিবেচনা করা উচিত?

— elmille
সূত্র

কিছু আপডেট: অতিরিক্ত ঘন ভেক্টরগুলিকে l2- স্বাভাবিক করে আমি গ্রহণযোগ্য ফলাফল অর্জন করতে সক্ষম হয়েছি। আমি ভুলভাবে ধরে নিয়েছি যে স্কলার স্ট্যান্ডার্ডস্কেলার এটি করবে। আমি এখনও আরও জটিল পদ্ধতিগুলির সন্ধান করছি, যদিও এটি আমাকে লেবেল নির্ভরতা মডেল করতে বা উপ-শ্রেণিবদ্ধদের আত্মবিশ্বাসের সাথে যুক্ত করতে দেয়।

— এলমিলে

আমি গত বছর একই পরীক্ষামূলক কাজটি করছিলাম এবং আপনার ঠিক একই সমস্যার মুখোমুখি হলাম। L2- স্বাভাবিককরণ প্রক্রিয়াটির পরে আপনার ওয়ার্ড 2vec ভেক্টর কি BOW কে পরাজিত করতে পারে? আমি এল 2-নরমালাইজেশন করিনি, তবে অনেক পোস্ট প্রসেসিং পদ্ধতির পরীক্ষার পরেও সিনেটিক ভেক্টর BOW tf / idf বৈশিষ্ট্যগুলির পিছনে এখনও 2-4 পরম শতাংশ রয়েছে বলে আমি ভাবছি যে দিকটি একটি ডেডেন্ডেন্ড। আমার মূল চাওয়াটি হ'ল traditionalতিহ্যবাহী BOW এর সাথে একটি ঘন অর্থপূর্ণ ভেক্টরকে একত্রিত করা এবং দেখুন যে এটি বিষয়ের শ্রেণিবদ্ধকরণ / মডেলিংয়ের পারফরম্যান্সগুলি বাড়িয়ে তুলতে পারে। বিটিডাব্লু: আপনি কী ডেটা সেটটিতে কাজ করছেন তা আমার 20 নিউজগ্রুপ।

আমি সিআইকেএম 2014 প্রতিযোগিতার জন্য একটি ডেটাসেটের সাথে কাজ করছিলাম। আমার জন্য, ভেক্টর উপস্থাপনাগুলি কখনই টিএফ-আইডিএফ ওজনের সাথে BOW কে পারা যায় না। আমার পরিকল্পনা ছিল মান উন্নত করার পাশাপাশি এগুলি ব্যবহার করা। আমার অভিজ্ঞতায় (পাঠ্য শ্রেণিবিন্যাসের জন্য) টিফ-আইডিএফের কিছু ফর্ম + এন-গ্রাম সহ একটি লিনিয়ার মডেল একটি অত্যন্ত দৃ approach় পদ্ধতির। আমি বর্তমানে কনভোলশনাল নিউরাল নেটওয়ার্কগুলি এবং এমনকি এই (আরও বা কম) জটিল মডেলগুলির সাথে পরীক্ষামূলক করছি যা মারতে শক্ত হয় approach

— এলমিল

টু মোড: দুঃখিত যে আমার 50 টি খ্যাতি নেই, সুতরাং আমি কমেন্টের জায়গায় লিখতে পারি না। হাই এলমিল: হ্যাঁ, আমি সমস্ত পরীক্ষায় এটিই অনুভব করি। তবে, আপনি কি এই শব্দটি ভিসি + বো সাহায্যটি খুঁজে পান? আমার অভিজ্ঞতায়, আমি যখন BOW tf-idf (যখন আমার ক্ষেত্রে এই ভাস্কটি আসলে পুরো নিবন্ধের মধ্যে সামগ্রিক ভেক্টর, এটি ওয়ার্ড-ভেক নয় তবে খুব অনুরূপ) এর সাথে শব্দের সাথে সংশ্লেষ করে, তখন পারফরম্যান্সটি আরও কম হয়। আমি মূলত মনে করি এটি BOW + vec> BOW> vec হওয়া উচিত। যেহেতু এগুলিতে পারস্পরিক সহায়তার তথ্য রয়েছে। আসল ফলাফলটি BOW> vec> BOW + vec। তারপরে আমি নম এবং

উত্তর:

যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনার মডেলগুলির জন্য আপনার কাছে দুটি ধরণের বৈশিষ্ট্য রয়েছে। (1) পাঠ্য ডেটা যা আপনি শব্দের একটি বিরল ব্যাগ এবং (2) আরও traditionalতিহ্যগত ঘন বৈশিষ্ট্য হিসাবে উপস্থাপন করেছেন। যদি এটি হয় তবে 3 টি সাধারণ পন্থা রয়েছে:

TruncatedSVDঘন করে তুলতে এবং আপনার মডেল (গুলি) প্রশিক্ষণের জন্য বৈশিষ্ট্যগুলিকে একক ঘন ম্যাট্রিক্সে একত্রিত করার জন্য আপনার স্পার্স ডেটাতে মাত্রিকতা হ্রাস (যেমন এলএসএ মাধ্যমে ) করুন Per
hstackআপনার মডেল (গুলি) প্রশিক্ষণ দেওয়ার জন্য স্কিপি'র মতো কিছু ব্যবহার করে আপনার বিচ্ছিন্ন ম্যাট্রিক্সে আপনার কয়েকটি ঘন বৈশিষ্ট্য যুক্ত করুন ।
একটি মাত্র মডেল তৈরির জন্য আপনার অন্যান্য ঘন বৈশিষ্ট্যগুলির সাথে ঘন বৈশিষ্ট্য হিসাবে কেবলমাত্র আপনার ছড়িয়ে ছিটিয়ে থাকা পাঠ্য ডেটা ব্যবহার করে একটি মডেল তৈরি করুন এবং তার পূর্বাভাসগুলি (এটি শ্রেণিবদ্ধকরণের সম্ভাবনাগুলি) একত্রিত করুন (যেমন: স্ট্যাকিংয়ের মাধ্যমে একত্রিত হওয়া)। আপনি যদি এই রুটে যান তবে কেবলমাত্র আপনার মডেলকে প্রশিক্ষণ দেওয়ার জন্য সিভি পূর্বাভাসগুলি কেবল বৈশিষ্ট্য হিসাবে ব্যবহার করতে হবে তা না হলে আপনি সম্ভবত যথেষ্ট খারাপভাবে উপকার পাবেন (আপনি Pipelineযদি চান তবে একক মধ্যে এটি করার জন্য যথেষ্ট শ্রেণি তৈরি করতে পারেন)।

তিনটি পদ্ধতিরই বৈধ এবং তাদের নিজস্ব উপকারিতা এবং কনস রয়েছে। ব্যক্তিগতভাবে, আমি খুঁজে পেয়েছি (1) সাধারণত সবচেয়ে খারাপ হতে পারে কারণ এটি তুলনামূলকভাবে বলা, অত্যন্ত ধীর। আমিও (3) সাধারণত সেরা হতে পারি, উভয়ই যথেষ্ট দ্রুত এবং ফলস্বরূপ খুব ভাল। আপনি যদি আরও কিছু বিস্তৃত সমাবেশ করতে ইচ্ছুক হন তবে আপনি অবশ্যই সেগুলির সংমিশ্রণটি করতে পারেন।

আপনি যে অ্যালগরিদম ব্যবহার করেন, সেগুলি মূলত সেই কাঠামোর মধ্যে থাকা সমস্তই ফিট করে। লজিস্টিক রিগ্রেশন বেশিরভাগ সময় আশ্চর্যরূপে ভাল সম্পাদন করে, তবে অন্যরা সমস্যাটি এবং আপনি কীভাবে সুর করেছেন তার উপর নির্ভর করে আরও ভাল করতে পারে। আমি নিজেই জিবিএমের পক্ষে আংশিক, তবে নীচের অংশটি হ'ল আপনি যতটা অ্যালগরিদম চান তা চেষ্টা করতে পারেন এবং তাদের পূর্বাভাসের সরল ওজনযুক্ত এনসেম্বলগুলি করা প্রায় সর্বদা আরও ভাল সামগ্রিক সমাধানের দিকে নিয়ে যায়।

— ডেভিড
সূত্র

লিনিয়ার মডেলগুলি কেবল তাদের বৈশিষ্ট্যগুলিকে যুক্ত করে ওজন দ্বারা গুণিত করে। উদাহরণস্বরূপ, যদি আপনার 1000 টি স্পার্স বৈশিষ্ট্য থাকে যাগুলির মধ্যে প্রতিটি 3 বা 4 টি প্রতিটি ক্ষেত্রে সক্রিয় থাকে (এবং অন্যান্যগুলি শূন্য হয়) এবং 20 ঘন বৈশিষ্ট্য যা সমস্ত জিরো নয়, তবে সম্ভবত ঘন বৈশিষ্ট্যগুলি বেশিরভাগই তৈরি করবে pretty বিরল বৈশিষ্ট্যগুলি কেবলমাত্র একটি সামান্য মান যোগ করবে, যখন প্রভাব। আপনি কয়েকটি উদাহরণের জন্য বৈশিষ্ট্য ওজন এবং এগুলি ফলাফলের যোগফলকে কীভাবে প্রভাবিত করে তা পরীক্ষা করে দেখতে পারেন।

এটির সমাধানের একটি উপায় অ্যাডেটিভ মডেল থেকে দূরে যাওয়া। এখানে বেশ কয়েকজন প্রার্থী মডেল।

এসভিএম হাইপারপ্লেনগুলি পৃথক করার উপর ভিত্তি করে। হাইপারপ্লেন নিজেই লিনিয়ার মডেল হলেও এসভিএম এর পরামিতিগুলি যোগ করে না, পরিবর্তে বৈশিষ্ট্য স্থানটি একটি অনুকূল উপায়ে বিভক্ত করার চেষ্টা করে। বৈশিষ্ট্যগুলির সংখ্যা বিবেচনা করে, আমি বলব যে লিনিয়ার এসভিএম ঠিকঠাকভাবে কাজ করা উচিত যখন আরও জটিল কার্নেলগুলি ডেটার উপযোগী হতে পারে।

এর নাম সত্ত্বেও নাইভ বেইস বেশ শক্তিশালী পরিসংখ্যানের মডেল যা পাঠ্য শ্রেণিবিন্যাসের জন্য ভাল ফলাফল দেখিয়েছে। বিরল এবং ঘন বৈশিষ্ট্যগুলির ফ্রিকোয়েন্সিতে ভারসাম্যহীনতা ক্যাপচার করার জন্য এটি যথেষ্ট নমনীয়, যাতে আপনার অবশ্যই চেষ্টা করা উচিত।

অবশেষে, এলোমেলো বনগুলি এক্ষেত্রে ভাল সংগ্রহের পদ্ধতি হিসাবে কাজ করতে পারে। র্যান্ডমাইজেশন নিশ্চিত করবে যে বিভিন্ন গাছের বিভিন্ন ধরণের বৈশিষ্ট্য (স্পার / ঘন) বিভিন্ন গাছের প্রাথমিক সিদ্ধান্ত নোড হিসাবে ব্যবহৃত হবে। আরএফ / সিদ্ধান্ত গাছগুলি সেগুলি নিজের বৈশিষ্ট্যগুলি পর্যবেক্ষণ করার জন্যও ভাল, সুতরাং যাইহোক তাদের কাঠামোগুলি নোট করা উচিত।

মনে রাখবেন যে এই সমস্ত পদ্ধতির তাদের ত্রুটি রয়েছে যা এগুলি আপনার ক্ষেত্রে আবর্জনায় পরিণত করতে পারে। বিরল এবং ঘন বৈশিষ্ট্যগুলির সংমিশ্রণটি সত্যই অধ্যয়নযোগ্য কাজ নয়, সুতরাং আসুন এই পদ্ধতির মধ্যে কোনটি আপনার ক্ষেত্রে সবচেয়ে ভাল কাজ করে তা আমাদের জানান।

— ffriend
সূত্র

আপনার উত্তর করার জন্য আপনাকে ধন্যবাদ! আমার দুটি ফলো-আপ প্রশ্ন রয়েছে :) 1) এসভিএম (লিনিয়ার কার্নেল সহ) এবং নাইভ বেয়েস কীভাবে আলাদা হয় যে তারা তাদের বৈশিষ্ট্যগুলি এবং সংশ্লিষ্ট ওজনগুলিতে সমষ্টি না করে (যেমন আপনি "অ্যাডিটিভ মডেল" বলছেন)? উভয়ই কার্যকরভাবে একটি পৃথক পৃথক হাইপারপ্লেন তৈরি করে তাই ফলাফলটি কি সর্বদা সম্পর্কিত ওজন দ্বারা গুণিত কিছু বৈশিষ্ট্য যুক্ত করে না? 2) আমি এলোমেলো বন চেষ্টা করতে চাই, তবে দুর্ভাগ্যক্রমে বৈশিষ্ট্যের স্থানটি এটি ঘন বিন্যাসে উপস্থাপনের জন্য খুব বড় (আমি স্ক্লারইন ব্যবহার করছি)। এমন কোনও বাস্তবায়ন আছে যে এটি পরিচালনা করতে পারে?

— এলমিল

1) রৈখিক রিগ্রেশনের আপনি পয়েন্ট আগ্রহী উপর hyperplane, এইভাবে আপনি পূর্বাভাস বিন্দু পেতে ভরযুক্ত বৈশিষ্ট্য আপ যোগ করুন। অন্যদিকে এসভিএম-তে আপনি হাইপারপ্লেনের পাশের পয়েন্টগুলি সন্ধান করছেন । আপনি কোন দিকে আপনার উদাহরণ হিসাবে সাধারণ যাচাই করে শ্রেণিবদ্ধকরণ করেন, পূর্বাভাসের সময় কোনও যোগসূত্র জড়িত হয় না। নাইভ বেয়েস বিভিন্ন ধরণের মডেল (যেমন দ্বিপদী বা বহুজাতিক) অন্তর্ভুক্ত করতে পারে তবে মূলত আপনি সম্ভাবনাগুলি বহুগুণে বৃদ্ধি করেন, এগুলি যুক্ত করেন না।

— বন্ধু

2) আমি এই বিষয়ে কিছু গবেষণা দেখেছি, তবে কখনও বাস্তবায়নের মুখোমুখি হই নি (সম্ভবত গুগলিং এখানে কিছু লিঙ্ক দেবে)। তবে আপনি সর্বদা অন্য পথে যেতে পারেন - পিসিএ এর সাথে মাত্রিকতা হ্রাস করুন এবং তারপরে হ্রাস করা ডেটাসেটের ভিত্তিতে এলোমেলো বন চালান।

— বন্ধু