এনএলপি - "স্টপ" শব্দটি কেন নয়?


18

আমি টপিক মডেলিংয়ের আগে স্টপ শব্দগুলি সরিয়ে দেওয়ার চেষ্টা করছি। আমি লক্ষ্য করেছি যে কিছু প্রত্যাখ্যানমূলক শব্দগুলি (না, কখনও নয়, কিছুই নয় ..) সাধারণত স্টপ শব্দ হিসাবে বিবেচিত হয়। উদাহরণস্বরূপ, এনএলটিকে, স্পেসি এবং স্কেলারন তাদের স্টপ ওয়ার্ড তালিকায় "না" অন্তর্ভুক্ত করে। তবে, যদি আমরা নীচের এই বাক্যগুলি থেকে "না" সরিয়ে ফেলি তবে তারা উল্লেখযোগ্য অর্থ হারাবে এবং এটি বিষয় মডেলিং বা সংবেদন বিশ্লেষণের জন্য সঠিক হবে না not

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

কেউ দয়া করে ব্যাখ্যা করতে পারেন কেন এই প্রত্যাখাত শব্দগুলিকে সাধারণত স্টপ শব্দ হিসাবে বিবেচনা করা হয়?


2
আপনি যদি বাক্যগুলির শব্দার্থগত বিশ্লেষণ করে থাকেন তবে স্পষ্টত যুক্তিযুক্ত সংযোগগুলি গুরুত্বপূর্ণ: (1) যদি না হয় (2)। আপনি যদি এই বাক্যগুলির যুক্তি মডেল করার উদ্দেশ্যে থাকেন তবে এগুলি স্টপ ব্যাগের বাইরে রাখুন। এগুলি সাধারণত সেখানে ফেলে দেওয়া হয় কারণ একটি ডেটা মাইনিং দৃষ্টিকোণ থেকে, কোনও নথিতে 'না' থাকার উপস্থিতি আমাদের অন্যান্য নথি থেকে আলাদা করতে সহায়তা করার জন্য বিষয়টির বিষয়ে বেশি কিছু বলবে না; এটি যথেষ্ট বিরল নয়। এনপিএল কার্যগুলিতে এগুলি উপেক্ষা করার সম্ভবত অন্যান্য কারণও রয়েছে।
হুনান রোস্তোমায়ান

উত্তর:


20

স্টপ শব্দগুলিকে সাধারণত "একটি ভাষার সর্বাধিক প্রচলিত শব্দ" হিসাবে ভাবা হয়। তবে বিভিন্ন কাজের উপর ভিত্তি করে অন্যান্য সংজ্ঞা দেওয়া সম্ভব।

আপনার টাস্ক শব্দের ফ্রিকোয়েন্সিগুলির উপর ভিত্তি করে যদি (উদাহরণস্বরূপ ডকুমেন্টের শ্রেণিবিন্যাসের জন্য আইডিএফ বিশ্লেষণ) উপর ভিত্তি করে একটি স্টপ শব্দ হিসাবে 'না' হিসাবে বিবেচনা করা স্পষ্টভাবে বোধগম্য হয় ।

আপনি যদি পাঠ্যের প্রসঙ্গে (যেমন অনুভূতি বিশ্লেষণ ) নিয়ে উদ্বিগ্ন হন তবে তা প্রত্যাখ্যানকারী শব্দগুলিকে আলাদাভাবে বিবেচনা করা বোধগম্য হতে পারে। আলোচনা একটি পাঠ্যের তথাকথিত ভ্যালেন্সকে পরিবর্তন করে । এটি যত্ন সহকারে চিকিত্সা করা প্রয়োজন এবং সাধারণত তুচ্ছ নয়। একটি উদাহরণ হ'ল টুইটার নেগেশন কর্পস। পদ্ধতির একটি ব্যাখ্যা এই কাগজে দেওয়া হয়েছে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.