সাধারণভাবে, লুসিনে কোনও বিশ্লেষক হলেন টোকেনাইজার + স্টেমার + স্টপ-ওয়ার্ড ফিল্টার।
টোকেনাইজার আপনার পাঠ্যটিকে অংশগুলিতে বিভক্ত করে এবং বিভিন্ন বিশ্লেষক যেহেতু বিভিন্ন টোকেনাইজার ব্যবহার করতে পারে তাই আপনি বিভিন্ন আউটপুট টোকেন স্ট্রিমগুলি পেতে পারেন , যেমন পাঠ্যের অংশগুলির ক্রম। উদাহরণস্বরূপ, KeywordAnalyzerআপনি উল্লেখ করেছেন যে পাঠ্যটি মোটেও বিভক্ত হয় না এবং সমস্ত ক্ষেত্রকে একক টোকেন হিসাবে গ্রহণ করে। একই সময়ে, StandardAnalyzer(এবং অন্যান্য বিশ্লেষক) স্প্লিট পয়েন্ট হিসাবে স্পেস এবং বিরামচিহ্নগুলি ব্যবহার করে। উদাহরণস্বরূপ, "আমি খুব খুশি" বাক্যটির জন্য এটি তালিকা তৈরি করবে ["আমি", "আমি", "খুব", "খুশি"] (বা এরকম কিছু)। নির্দিষ্ট বিশ্লেষক / টোকেনাইজারগুলির আরও তথ্যের জন্য এর জাভা ডক্স দেখুন ।
প্রশ্নযুক্ত একটি শব্দের ভিত্তি পেতে স্টেমার ব্যবহার করা হয়। এটি প্রচুরভাবে ব্যবহৃত ভাষার উপর নির্ভর করে। উদাহরণস্বরূপ, ইংরেজিতে পূর্ববর্তী বাক্যাংশগুলির জন্য ["আমি", "থাক", "ভেরি", "হপি"] উত্পাদিত হবে এবং ফরাসি "জি সুস ট্রাস হিউরাক্স" এর জন্য একধরনের ফরাসি বিশ্লেষক (যেমন SnowballAnalyzer, আরম্ভীকৃত) "ফরাসি" সহ) "" জে "," êত্রে "," ট্রে "," হিউর "] উত্পাদন করবে। অবশ্যই, আপনি যদি অন্য ভাষার পাঠ্য স্টেম করতে একটি ভাষার বিশ্লেষক ব্যবহার করেন, অন্য ভাষার নিয়ম ব্যবহার করা হবে এবং স্টিমার ভুল ফল দিতে পারে। এটি সমস্ত সিস্টেমে ব্যর্থ নয়, তবে অনুসন্ধানের ফলাফলগুলি কম সঠিক হতে পারে।
KeywordAnalyzerকোনও স্টিমার ব্যবহার করে না, এটি সমস্ত ক্ষেত্রটি অযৌক্তিকভাবে পাস করে। সুতরাং, আপনি যদি ইংরেজী পাঠ্যে কিছু শব্দ অনুসন্ধান করতে যাচ্ছেন তবে এই বিশ্লেষকটি ব্যবহার করা ভাল ধারণা নয়।
স্টপ শব্দগুলি সবচেয়ে ঘন ঘন এবং প্রায় অকেজো শব্দ। আবার এটি ভাষার উপর অনেক বেশি নির্ভর করে। ইংরেজির জন্য এই শব্দগুলি "ক", "" "," আমি "," থাক "," আছে "ইত্যাদি। স্টপ-শব্দের ফিল্টারগুলি অনুসন্ধানের ফলাফলগুলিতে কম শব্দে টোকেন স্ট্রিম থেকে সরিয়ে দেয়, সুতরাং শেষ পর্যন্ত আমাদের" আই "শব্দবন্ধটি 'খুব খুশি' এর সাথে StandardAnalyzerতালিকায় রূপান্তরিত হবে ["ভেরি", "হ্যাপি"]।
এবং KeywordAnalyzerআবার কিছুই করে না। সুতরাং, KeywordAnalyzerআইডি বা ফোন নম্বরগুলির মতো জিনিসগুলির জন্য ব্যবহৃত হয় তবে সাধারণ পাঠ্যের জন্য নয়।
এবং আপনার maxClauseCountব্যতিক্রম হিসাবে , আমি বিশ্বাস করি আপনি এটি অনুসন্ধানে পেয়েছেন। এই ক্ষেত্রে সম্ভবত এটি খুব জটিল অনুসন্ধান অনুসন্ধানের কারণে। এটি বেশ কয়েকটি ক্যোয়ারিতে বিভক্ত করার চেষ্টা করুন বা আরও নিম্ন স্তরের ফাংশন ব্যবহার করুন।