স্টপওয়ার্ডের একটি তালিকা কীভাবে সংশোধন করা যায় সে সম্পর্কে আমি কিছু ইঙ্গিতগুলি সন্ধান করছি। কেউ কি জানেন / প্রোট্রোসেসিং এবং ফিল্টারিংয়ের জন্য ডেটাসেট থেকে নিজেই স্টপওয়ার্ড তালিকা বের করার জন্য কোনও ভাল পদ্ধতির প্রস্তাব দিতে পারেন?
তথ্যটি:
পরিবর্তনশীল দৈর্ঘ্যের এক বিশাল পরিমাণে মানব পাঠ্য ইনপুট (অনুসন্ধানের এবং পুরো বাক্যগুলি (200 টি অক্ষর পর্যন্ত)) বেশ কয়েক বছর ধরে। পাঠ্যে প্রচুর স্প্যাম রয়েছে (যেমন বটস থেকে মেশিন ইনপুট, একক শব্দ, মূ .় অনুসন্ধান, পণ্য অনুসন্ধান ...) এবং শুধুমাত্র কয়েক% দরকারী বলে মনে হয়। আমি বুঝতে পেরেছিলাম যে কখনও কখনও (খুব খুব কমই) লোকেরা সত্যিই দুর্দান্ত প্রশ্ন জিজ্ঞাসা করে আমার দিকটি সন্ধান করে। এই প্রশ্নগুলি এতটাই দুর্দান্ত, যে আমি কীভাবে সময়ের সাথে লোকেরা অনুসন্ধান করি এবং কী ওয়েবসাইটগুলি আমার ওয়েবসাইটটি ব্যবহারে আগ্রহী হয়েছে তা দেখার জন্য এগুলি আরও গভীরভাবে পর্যবেক্ষণ করা উচিত বলে আমি মনে করি।
আমার সমস্যা:
এই যে আমি প্রিপ্রোসেসিংয়ের সাথে লড়াই করছি (অর্থাত স্প্যাম বাদ দিচ্ছি)। আমি ইতিমধ্যে ওয়েব (এনএলটি কে ইত্যাদি) থেকে কিছু স্টপওয়ার্ড তালিকা চেষ্টা করেছি, তবে এগুলি এই ডেটাসেট সম্পর্কিত আমার প্রয়োজনগুলিতে সত্যই সহায়তা করে না।
আপনার ধারণা এবং আলোচনা ভাবেন জন্য ধন্যবাদ!
stop words
। স্টপ-wrods কিছু ভাষায় সবচেয়ে সাধারণ শব্দ, উদাহরণস্বরূপ একটি তালিকা রয়েছে I
, the
, a
ইত্যাদি। আপনার অ্যালগরিদমকে প্রশিক্ষণ দেওয়ার আগে আপনি এই শব্দগুলি সরিয়ে ফেলবেন যা কোন পাঠ্যটি স্প্যাম কিনা তা সনাক্ত করার চেষ্টা করুন or এটি আপনাকে কোন পাঠ্যটি স্প্যাম বা না তা সনাক্ত করতে সহায়তা করে নি, এটি আপনার শেখার অ্যালগরিদমকে কিছুটা উন্নতি করতে পারে।