নাইভ বেয়েস এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির মধ্যে পার্থক্য সম্পর্কে
প্রথমে বলা যাক তারা উভয় শ্রেণিবদ্ধকারী, স্ট্যাটিস্টিকাল শ্রেণিবদ্ধকরণ বলে একটি সমস্যা সমাধানের উদ্দেশ্যে বলতে শুরু করে । এর অর্থ হ'ল আপনার প্রচুর ডেটা (আপনার ক্ষেত্রে নিবন্ধগুলিতে) দুটি বা আরও বেশি বিভাগে বিভক্ত (আপনার ক্ষেত্রে ইতিবাচক / নেতিবাচক অনুভূতি)। শ্রেণিবদ্ধের লক্ষ্য নিবন্ধগুলি কীভাবে সেই দুটি বিভাগে বিভক্ত হয় তা শিখতে হবে এবং তারপরে তার নিজস্ব নতুন নিবন্ধগুলিকে শ্রেণিবদ্ধ করতে সক্ষম হবে।
এই কাজটি সমাধান করতে পারে এমন দুটি মডেল হ'ল নাইভ বেইস শ্রেণিবদ্ধ এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্ক।
নিভিয়ে বেইস
পাঠ্য বিশ্লেষণের জন্য এই শ্রেণিবদ্ধটিকে ব্যবহার করার জন্য, আপনি সাধারণত পাঠ্যের প্রাক-প্রক্রিয়া করেন ( শব্দের ব্যাগ + টিফ-টিডিএফ ) যাতে আপনি এটির সংখ্যাসূচক ভ্যাক্টরে রূপান্তর করতে পারেন। এই ভেক্টরগুলি এনবি মডেলের একটি ইনপুট হিসাবে পরিবেশন করে।
এই শ্রেণিবদ্ধকারী ধরে নিয়েছে যে আপনার বৈশিষ্ট্যগুলি (আমরা উত্পাদিত ভেক্টরগুলির গুণাবলী) একে অপরের থেকে স্বতন্ত্র। যখন এই অনুমান ধারণ করে, এটি একটি খুব শক্তিশালী শ্রেণিবদ্ধকারী যার কাজ করার জন্য খুব অল্প ডেটা প্রয়োজন।
পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি
এগুলি এমন নেটওয়ার্ক যা আপনার ডেটা ক্রমানুসারে পড়ে, তারা আগে যা পড়েছে তার একটি "মেমরি" রাখার সময়। পাঠ্যের সাথে ডিল করার সময় এগুলি সত্যই কার্যকর কারণ তাদের মধ্যে পারস্পরিক সম্পর্কের কথা রয়েছে।
দুটি শ্রেণীর মডেল (এনবি এবং আরএনএন) তারা এই শ্রেণিবিন্যাসটি সম্পাদন করার চেষ্টা করার ক্ষেত্রে অনেকটাই পৃথক:
এনবি জেনারেটরি নামে পরিচিত এক ধরণের মডেলের অন্তর্ভুক্ত । এর অর্থ হ'ল প্রশিক্ষণের সময় (যে পদ্ধতিতে অ্যালগরিদম শ্রেণিবদ্ধ করতে শেখে) সেই পদ্ধতিটি এনবি প্রথম স্থানে কীভাবে ডেটা তৈরি হয়েছিল তা জানার চেষ্টা করে । এটি মূলত অন্তর্নিহিত বিতরণটি খুঁজে বের করার চেষ্টা করে যা মডেলটিতে আপনাকে ইনপুট দেওয়ার উদাহরণগুলি তৈরি করে।
অন্যদিকে আরএনএন একটি বৈষম্যমূলক মডেল। শ্রেণিবিন্যাস সম্পাদন করার জন্য এটি আপনার ইতিবাচক এবং নেতিবাচক উদাহরণগুলির মধ্যে পার্থক্যগুলি কী তা বোঝার চেষ্টা করে।
আমি মাইর শিখতে চাইলে "বৈষম্যমূলক বনাম জেনারেটরি অ্যালগরিদম" অনুসন্ধান করার পরামর্শ দিই
যদিও এনবি কয়েক দশক ধরে জনপ্রিয় ছিল আরএনএনগুলি উচ্চ গণনামূলক সংস্থার প্রয়োজনীয়তার কারণে গত দশকে অ্যাপ্লিকেশনগুলি সন্ধান করতে শুরু করেছে। আরএনএন বেশিরভাগ সময় নিবেদিত জিপিইউগুলিতে প্রশিক্ষিত হয় (যা সিপিইউগুলির তুলনায় অনেক দ্রুত গণনা করে)।
tl; dr: একই কাজটি সমাধানের জন্য এটি দুটি খুব ভিন্ন উপায়
লাইব্রেরি
কারণ দুটি অ্যালগরিদম খুব জনপ্রিয় তাদের অনেকগুলি লাইব্রেরিতে প্রয়োগ রয়েছে। আপনি উল্লেখ করেছেন যেহেতু আমি কয়েকটি অজগর লাইব্রেরির নাম দেব:
এনবি এর জন্য:
সাইকিট-লার্ন : নায়েভ বেয়েস সহ বেশ কয়েকটি মেশিন লার্নিং অ্যালগরিদমের বাস্তবায়ন সম্বলিত পাইথন লাইব্রেরিটি ব্যবহার করা খুব সহজ।
নাইভবেইস : এটি ব্যবহার করেন নি তবে আমি অনুমান করি এটি নাম দ্বারা প্রাসঙ্গিক বিচার করা।
যেহেতু আরএনএনগুলি একটি গভীর শিক্ষার অ্যালগরিদম হিসাবে বিবেচিত হয় , তাই সমস্ত বড় গভীর গভীর শেখার লাইব্রেরিতে তাদের প্রয়োগ রয়েছে:
টেনসরফ্লো : এই মুহূর্তে সর্বাধিক জনপ্রিয় ডিএল লাইব্রেরি। গুগল দ্বারা প্রকাশিত এবং রক্ষণাবেক্ষণ
থিয়ানো : মন্ট্রিল বিশ্ববিদ্যালয় কর্তৃক প্রকাশিত টিএফ-এর মতো একই গ্রন্থাগার।
কেরাস : টিএফ এবং থিয়ানো এর জন্য মোড়ক। আরো সহজ. আপনি যদি আরএনএনগুলি প্রয়োগ করতে চান তবে আমি আপনাকে যা ব্যবহার করার পরামর্শ দিচ্ছি।
ক্যাফে : ইউসি বার্কলে দ্বারা প্রকাশিত ডিএল গ্রন্থাগার। পাইথন এপিআই রয়েছে।
উপরোক্ত সমস্ত অফার জিপিইউ সমর্থন করে যদি আপনার কোনও সিইডিএ এনভিআইডিআইএ জিপিইউ সক্ষম হয়।
পাইথনের এনএলটিকে মূলত প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ (স্টেম্মিং, টোকেনাইজিং, স্পিচ ট্যাগিং অংশ)) যদিও এটিতে একটি সেন্টিমেন্ট প্যাকেজ রয়েছে, এটি ফোকাস পয়েন্ট নয়। আমি নিশ্চিত যে এনএলটিকে অনুভূতি বিশ্লেষণের জন্য এনবি ব্যবহার করে।