পাঠ্য শ্রেণিবিন্যাসের জন্য ব্যাগ-অফ-ওয়ার্ডস: কেন কেবল টিএফআইডিএফের পরিবর্তে শব্দ ফ্রিকোয়েন্সি ব্যবহার করবেন না?


24

পাঠ্য শ্রেণিবিন্যাসের একটি সাধারণ পন্থা হল 'ব্যাগ-অফ-শব্দের' বাইরে কোনও শ্রেণিবদ্ধকে প্রশিক্ষণ দেওয়া। ব্যবহারকারী পাঠ্যটিকে শ্রেণিবদ্ধ করার জন্য গ্রহণ করে এবং প্রতিটি বস্তুর শব্দের ফ্রিকোয়েন্সি গণনা করে, এরপরে ম্যানেজযোগ্য আকারের ফলস্বরূপ ম্যাট্রিক্স রাখার জন্য কিছু ধরণের ট্রিমিং করে।

প্রায়শই, আমি টিএফআইডিএফ ব্যবহার করে ব্যবহারকারীরা তাদের বৈশিষ্ট্য ভেক্টরটি নির্মাণ করতে দেখি। অন্য কথায়, উপরে বর্ণিত পাঠ্য ফ্রিকোয়েন্সিগুলি কর্পাসের শব্দের ফ্রিকোয়েন্সি দ্বারা নিম্ন-ওজনযুক্ত। আমি দেখছি কেন একটি টিফআইডিএফ কোনও মানব বিশ্লেষকের কাছে প্রদর্শিত, বলার জন্য প্রদত্ত নথির 'সর্বাধিক স্বতন্ত্র' শব্দগুলি বাছাই করার জন্য দরকারী হবে। কিন্তু স্ট্যান্ডার্ড তদারকি করা এমএল কৌশলগুলি ব্যবহার করে পাঠ্য শ্রেণীবদ্ধকরণের ক্ষেত্রে কর্পাসের নথির ফ্রিকোয়েন্সি দ্বারা নিম্ন ওজনকে কেন বিরক্ত করবেন? প্রতিটি শব্দ / শব্দের সংমিশ্রণের জন্য শিখর নিজেই কী গুরুত্ব দেবে না? আইডিএফ কোন মান যুক্ত করে, সে সম্পর্কে আপনার ভাবনার জন্য আমি কৃতজ্ঞ থাকব।

উত্তর:


29

উত্তরটি খুব সোজা-এগিয়ে: টিএফ-আইডিএফ কিছু তদারকি পদ্ধতির সাথে একত্রিত হলে সাধারণ মেয়াদে ফ্রিকোয়েন্সিগুলির চেয়ে ভাল ফলাফল অর্জন করতে পারে।

ক্যানোনিকাল উদাহরণটি নথিগুলির মধ্যে মিলের পরিমাপ হিসাবে কোসাইন মিলকে ব্যবহার করছে। টিএফ-আইডিএফ ভেক্টর নথিগুলির উপস্থাপনার মধ্যে কোণটির কোসাইন গ্রহণ করা কেবলমাত্র টিএফের চেয়ে উচ্চতর যথার্থতার সাথে প্রাসঙ্গিক অনুরূপ নথিগুলি সফলভাবে উদ্ধার করতে পারে।

আইডিএফ সাধারণ শব্দের প্রদত্ত ওজন হ্রাস করে এবং একটি নথিতে অস্বাভাবিক শব্দগুলিকে হাইলাইট করে This বেশিরভাগ নিউজ নিবন্ধগুলি উটপাখি সম্পর্কে নয়, সুতরাং "উটপাখি" সমন্বিত একটি নিউজ নিবন্ধটি অস্বাভাবিক, এবং আমরা জানতে চাই যে অনুরূপ নথিগুলি সন্ধানের চেষ্টা করার সময়।

কিন্তু স্ট্যান্ডার্ড তদারকি করা এমএল কৌশলগুলি ব্যবহার করে পাঠ্য শ্রেণীবদ্ধকরণের ক্ষেত্রে কর্পাসের নথির ফ্রিকোয়েন্সি দ্বারা নিম্ন ওজনকে কেন বিরক্ত করবেন? প্রতিটি শব্দ / শব্দের সংমিশ্রণের জন্য শিখর নিজেই কী গুরুত্ব দেবে না?

এক্সYএক্সYY), এরপরে আমরা নিজের উপর এবং আমাদের দুর্বল ওভারওয়াকড কম্পিউটারগুলিতে কাজটি আরও সহজ করে দিয়েছি! আমি মনে করি এটি ক্ষেত্রের একটি স্বল্প-প্রশংসিত উপাদান - লোকেরা অ্যালগরিদমগুলি অধ্যয়ন ও বিবেচনায় প্রচুর সময় ব্যয় করে কারণ তারা ডোমেন-স্বতন্ত্র, তবে আপনার ডেটা এবং আপনি যে সমস্যাটি সমাধান করার চেষ্টা করছেন সে সম্পর্কে আরও জানার পথগুলি নির্দেশ করতে পারে উন্নত ডেটা সংগ্রহ বা ডেটা উপস্থাপনা যা কাজটিকে এত সহজ করে তোলে - এবং এত সহজ যে অলঙ্কৃত পরিশীলনের একটি মডেল অপ্রয়োজনীয়।

এখানে প্রচুর সংস্থান পাওয়া যায় , যা আমি সুবিধার জন্য পুনরুত্পাদন করি।

  • কে স্পার্ক জোন্স। "শব্দ নির্দিষ্টকরণের একটি পরিসংখ্যানগত ব্যাখ্যা এবং পুনরুদ্ধারে এর প্রয়োগ"। জার্নাল অফ ডকুমেন্টেশন, 28 (1)। 1972।

  • জি সালটন এবং এডওয়ার্ড ফক্স এবং উ হ্যারি উ। "বর্ধিত বুলিয়ান তথ্য পুনরুদ্ধার"। এসিএমের যোগাযোগ, 26 (11) 1983।

  • জি। সালটন এবং এমজে ম্যাকগিল। "আধুনিক তথ্য পুনরুদ্ধারের ভূমিকা"। 1983

  • জি সাল্টন এবং সি বাকলি। "স্বয়ংক্রিয় পাঠ্য পুনরুদ্ধারে টার্ম-ওজন পদ্ধতি" aches তথ্য প্রসেসিং এবং পরিচালনা, 24 (5) 1988।

  • এইচ। উ ও আর। লুক এবং কে ওং এবং কে কোক। "টিএফ-আইডিএফ শব্দটির ওজনকে প্রাসঙ্গিকতা সিদ্ধান্ত হিসাবে ব্যাখ্যা করা"। তথ্য সিস্টেমের উপর এসিএম লেনদেন, 26 (3) 2008।


@ User777 নোটের জন্য ধন্যবাদ! এটা প্রশংসা করি. আমি এই নিবন্ধগুলি এক নজরে নিচ্ছি। কেবলমাত্র টিএফআইডিএফ বনাম কেবলমাত্র টিএফআইডিএফ থেকে আমরা সাধারণভাবে অ্যালগরিদমগুলির শ্রেণি রয়েছে বলে আশা করি?
shf8888

@ shf8888 আমি নিশ্চিত না যে সেখানে সাধারণ ক্লাস রয়েছে যেখানে আরও ভাল। এটা সম্ভব! আমি যতদূর জানি, এনএলপি টাস্কে কাজ করা কারওর প্রথম প্রতিচ্ছবিটি আরও জটিল মডেলের দিকে অগ্রসর হওয়ার আগে টিএফ এবং তারপরে টিএফ-আইডিএফকে বেসলাইন পদ্ধতি হিসাবে চেষ্টা করা। এইভাবে, আপনি ক্রমবর্ধমান জটিল মডেলগুলি ব্যবহার করে ব্যয়িত বর্ধিত পরিশ্রমের জন্য কতটা বর্ধিত পারফরম্যান্স কিনেছেন তার পরিমাণ নির্ধারণ করতে পারেন।
সাইকোরাক্স মনিকাকে

অনেক ধন্যবাদ! ওয়েল, "উত্তরাধিকারসূত্রে টিএফআইডিএফ কিছু অ্যালগরিদম দিয়ে টিএফ-র উপর বর্ধিত পারফরম্যান্স সরবরাহ করতে পারে" (আপনি যদি আমার এক বাক্যের সারসংক্ষেপের প্রতিবাদ না করেন) অবশ্যই আমার দৃষ্টিকোণ থেকে ভাল। রেফারেন্সের জন্য আপনাকে ধন্যবাদ।
shf8888

2

সাধারণ ক্ষেত্রে, আপনার কর্পাসে লেবেলযুক্ত নথির চেয়ে আরও অনেকগুলি নথি থাকতে পারে। এর অর্থ পুরো কর্পাস ব্যবহার করার সময় আইডিএফ আরও অনেক নির্ভুল এবং সম্পূর্ণ গণনা করা যায়।

এরপরে কেসটি বিবেচনা করুন যেখানে আপনি এখন পর্যন্ত কর্পসটি পেতে পারেন যে সমস্ত লেবেলযুক্ত বা লেবেলযুক্ত উপসেটটি "যথেষ্ট বড়"। এই ক্ষেত্রে প্রশিক্ষণের জন্য প্রয়োজনীয় পুনরাবৃত্তির সংখ্যা টিএফআইডিএফ ব্যবহার করার সময় সম্ভবত কম হতে পারে কারণ শেখার অ্যালগরিদমকে তত বেশি শেখার প্রয়োজন হবে না।

শেষ অবধি, একই ক্ষেত্রে, আপনি কেবল tf, বা tf এবং idf আলাদাভাবে সরবরাহ করতে পারেন (বা এমনকি tfidf অন্তর্ভুক্তও করতে পারেন)। আমি মনে করি এটি সম্ভাব্যতর আরও ভাল ফলাফল তৈরি করতে পারে, উদাহরণস্বরূপ, একটি পরিশীলিত কার্নেল ফাংশন ব্যবহার করার সময়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.