পাঠ্যের পরিসংখ্যানগত শ্রেণিবিন্যাস


32

আমি পরিসংখ্যান ব্যাকগ্রাউন্ড ছাড়াই একজন প্রোগ্রামার এবং আমি বর্তমানে প্রাক সংজ্ঞায়িত বিভাগগুলিতে শ্রেণীবদ্ধ করতে চাই এমন বিভিন্ন নথির বিভিন্ন সংখ্যার জন্য বিভিন্ন শ্রেণিবদ্ধকরণ পদ্ধতিগুলি দেখছি। আমি কেএনএন, এসভিএম এবং এনএন সম্পর্কে পড়ছি। তবে শুরু করতে আমার কিছুটা সমস্যা হচ্ছে। আপনি কি সংস্থান সুপারিশ করবেন? আমি সিঙ্গল ভেরিয়েবল এবং মাল্টি ভেরিয়েবল ক্যালকুলাসটি বেশ ভাল জানি, তাই আমার গণিতটি যথেষ্ট শক্তিশালী হওয়া উচিত। আমি নিউরাল নেটওয়ার্কগুলিতে বিশপের বইয়েরও মালিক, তবে এটি একটি ভূমিকা হিসাবে কিছুটা ঘন হিসাবে প্রমাণিত হয়েছে।

উত্তর:


19

আমি এই বইগুলির প্রস্তাব দিই - সেগুলি আমাজনেও অত্যন্ত রেট দেওয়া হয়:

ওয়েস রচিত "পাঠ্য মাইনিং"

"টেক্সট মাইনিং অ্যাপ্লিকেশন প্রোগ্রামিং", কোঁচাডি দ্বারা

সফ্টওয়্যারটির জন্য, আমি র্যাপিডমিনার (পাঠ্য প্লাগইন সহ), বিনামূল্যে এবং মুক্ত উত্সের প্রস্তাব দিই।

এটি আমার "পাঠ্য খনন প্রক্রিয়া":

  • নথিগুলি সংগ্রহ করুন (সাধারণত একটি ওয়েব ক্রল)
    • [নমুনা যদি খুব বড় হয়]
    • টাইমস্ট্যাম্প
    • স্ট্র্যাপ আউট মার্কআপ
  • টোকেনাইজ: অক্ষর, শব্দ, এন-গ্রাম বা স্লাইডিং উইন্ডোতে বিভক্ত
  • স্টেমিং (ওরফে লেম্যাটাইজেশন)
    • [প্রতিশব্দ অন্তর্ভুক্ত]
    • পোর্টার বা স্নোফ্লেক অ্যালগরিদম সর্বনাম এবং নিবন্ধগুলি দেখুন সাধারণত খারাপ ভবিষ্যদ্বাণীকারী
  • স্টপওয়ার্ডগুলি সরান
  • বৈশিষ্ট্য ভেক্টরাইজেশন
    • বাইনারি (উপস্থিত বা না)
    • শব্দ গণনা
    • আপেক্ষিক ফ্রিকোয়েন্সি: tf-idf
    • তথ্য লাভ, চি বর্গ
    • [অন্তর্ভুক্তির জন্য সর্বনিম্ন মান রয়েছে]
  • তৌল
    • ডকুমেন্টের শীর্ষে ওজনের শব্দ উচ্চতর?

তারপরে আপনি সেগুলি শ্রেণিবদ্ধ করার কাজ শুরু করতে পারেন। উপযুক্ত হিসাবে কেএনএন, এসভিএম, বা নাইভ বয়েস।

আপনি এখানে আমার পাঠ্য খনির ভিডিওগুলির সিরিজ দেখতে পারেন


এটি একটি দুর্দান্ত উত্তর! আমি আপনার বইয়ের পরামর্শগুলি সন্ধান করব এবং আপনার প্রক্রিয়াটির বিবরণটিও দুর্দান্ত। আমি বিশেষত বৈশিষ্ট্য ভেক্টরাইজেশনের জন্য পরামর্শগুলি পছন্দ করি।
এমিল এইচ

(যদি কেউ ভেক্টরাইজেশনের অংশটি আরও বিস্তারিতভাবে বলতে চান তবে তা দুর্দান্ত।)
এমিল এইচ

11

আপনি উল্লিখিত বিষয়গুলির একটি দুর্দান্ত সূচনা পাঠ্য হ'ল তথ্য পুনরুদ্ধারের পরিচিতি , যা অনলাইনে সম্পূর্ণ পাঠ্যে বিনামূল্যে পাওয়া যায়।

তথ্য পুনরুদ্ধারের ভূমিকা


আমি আসলে এটি গতকাল স্ক্যান করেছি। এটি একটি আকর্ষণীয় পঠন - আমি আশা করি এতে থাকা উপাদানগুলি শোষণ করার জন্য আমার আরও সময় থাকত তবে আমার যা প্রয়োজন তা পেয়ে আমাকে এগিয়ে যেতে হয়েছিল।
টমাস

সম্মত, এটি একটি দুর্দান্ত বই। এটি গুগল কীভাবে কাজ করে তা খুব সুন্দরভাবে ব্যাখ্যা করেছে :)
নিল ম্যাকগুইগান

5

নিউরাল নেটওয়ার্কটি বৃহত সংখ্যক নথির জন্য ধীর হতে পারে (এটি এখন বেশ প্রায় অপ্রচলিত)।
এবং আপনি শ্রেণিবদ্ধদের মধ্যে র্যান্ডম ফরেস্টও পরীক্ষা করতে পারেন; এটি বেশ দ্রুত, স্কেলগুলি সুন্দর এবং জটিল টিউন করার প্রয়োজন নেই।


র্যান্ডম অরণ্যের জন্য +1। তারা বেশি মানায় না বলে অবশ্যই 1 ম চেষ্টা করার জন্য একটি ভাল শ্রেণিবদ্ধকারী।
জ্যাচ

4

আপনি যদি প্রোগ্রামিং দিক থেকে আসেন তবে একটি বিকল্প হ'ল পাইথনের জন্য প্রাকৃতিক ভাষা টুলকিট (এনএলটিকে) ব্যবহার করা। একটি ও'রিলি বই রয়েছে যা নিখরচায় পাওয়া যায় যা অন্যান্য জিনিসের মধ্যে নথির জন্য শ্রেণিবদ্ধ গঠনের ক্ষেত্রে কম ঘন এবং আরও কার্যকর ভূমিকা হতে পারে।

আপনি যদি পরিসংখ্যানগত দিকটি বিবেচনা করতে আগ্রহী হন, রজার লেভির বই, স্ট্যাডি অফ ল্যাঙ্গুয়েজের সম্ভাব্য মডেলগুলি অনুধাবন করা খারাপ নাও হতে পারে। এটি পরিসংখ্যান NLP কৌশল দিয়ে শুরু cogsci / compsci গ্রেড ছাত্রদের জন্য লেখা।


3

প্রথমত আমি আপনাকে ম্যানিং এবং শ্যাচজে স্ট্যাটিস্টিকাল প্রাকৃতিক ভাষা প্রক্রিয়াকরণের ফাউন্ডেশন বইটি সুপারিশ করতে পারি ।

আমি যে পদ্ধতিগুলি ব্যবহার করব তা হ'ল শব্দ-ফ্রিকোয়েন্সি বিতরণ এবং এনজিআরএম ভাষা মডেল। আপনি যখন বিষয়টিতে শ্রেণিবদ্ধ করতে চান তখন প্রথমটি খুব ভালভাবে কাজ করে এবং আপনার বিষয়গুলি নির্দিষ্ট এবং বিশেষজ্ঞ (কীওয়ার্ড থাকা) থাকে having আপনি যখন লেখার শৈলী ইত্যাদিকে শ্রেণিবদ্ধ করতে চান তখন এনজিআরএম মডেলিংই সেরা উপায় is


0

নাইভ বায়েস সাধারণত পাঠ্য শ্রেণিবিন্যাসের সূচনা পয়েন্ট হয়, কীভাবে এটি প্রয়োগ করতে হবে সে সম্পর্কে ডাঃ ডবসের একটি নিবন্ধ এখানে । এটি প্রায়শই পাঠ্য শ্রেণিবিন্যাসের শেষ পয়েন্ট হয় কারণ এটি এত দক্ষ এবং ভালভাবে সমান্তরাল হয়, স্প্যামআস্যাসিন এবং পিওপিফাইল এটি ব্যবহার করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.