আপনার সূচকগুলি নিজেই সূচীকরণের চেয়ে সূচকে মার্জ করা সম্পর্কে আরও প্রশ্ন।
আপনি নিম্ন-স্তরের বিবরণ উপেক্ষা করলে সূচীকরণ প্রক্রিয়াটি বেশ সহজ। ডকুমেন্টগুলি থেকে লুসিনকে "ইনভার্টেড ইনডেক্স" বলা হয়। সুতরাং "হতে হবে বা না হওয়া" এবং আইডি = 1 পাঠ্য সহ নথিটি যদি আসে তবে উল্টানো সূচীটি দেখতে পাবেন:
[to] → 1
[be] → 1
[or] → 1
[not] → 1
এটি মূলত এটি - শব্দটি থেকে প্রদত্ত শব্দযুক্ত নথির তালিকার সূচক । এই সূচকের প্রতিটি লাইনকে (শব্দ) পোস্টিং লিস্ট বলা হয়। এই সূচকটি দীর্ঘমেয়াদী স্টোরেজে ততক্ষণ টিকে থাকে।
বাস্তবে জিনিসগুলি আরও জটিল:
- প্রদত্ত বিশেষ বিশ্লেষকের উপর ভিত্তি করে Lucene কিছু শব্দ এড়িয়ে যেতে পারে;
- ভাষার স্টাচিং অ্যালগরিদম ব্যবহার করে শব্দগুলির প্রিক্রোসেস করা যেতে পারে ভাষার ফ্লেক্সিয়া হ্রাস করতে;
- পোস্টিং তালিকায় কেবলমাত্র নথির শনাক্তকারীই থাকতে পারে না, তবে ডকুমেন্টের অভ্যন্তরে প্রদত্ত শব্দটির অফসেট (সম্ভাব্য বেশ কয়েকটি উদাহরণ) এবং কিছু অন্যান্য অতিরিক্ত তথ্য থাকতে পারে।
আরও অনেক জটিলতা রয়েছে যা প্রাথমিক বোঝার জন্য এতটা গুরুত্বপূর্ণ নয়।
যদিও এটি বোঝা গুরুত্বপূর্ণ যে লুসিন সূচকটি কেবল সংযুক্ত । কিছু সময় সময় অ্যাপ্লিকেশন সূচকের সমস্ত পরিবর্তনগুলি (প্রকাশ) প্রকাশের সিদ্ধান্ত নেয়। লুসিন সমস্ত পরিষেবা অপারেশনকে সূচক দিয়ে শেষ করে এটি বন্ধ করে দেয়, সুতরাং এটি অনুসন্ধানের জন্য উপলব্ধ। অঙ্গীকারের পরে মূলত অপরিবর্তনীয়। এই সূচক (বা সূচক অংশ) বলা হয় অংশ । যখন Lucene অনুসন্ধান অনুসন্ধান চালায় এটি সমস্ত উপলব্ধ বিভাগে অনুসন্ধান করে।
সুতরাং প্রশ্ন উত্থাপিত হয় - আমরা ইতিমধ্যে সূচী নথিটি কীভাবে পরিবর্তন করতে পারি ?
নতুন ডকুমেন্টস বা ইতিমধ্যে সূচকযুক্ত নথিগুলির নতুন সংস্করণগুলি নতুন বিভাগগুলিতে সূচিযুক্ত করা হয় এবং তথাকথিত হত্যা তালিকা ব্যবহার করে পূর্ববর্তী বিভাগগুলিতে অবৈধভাবে পুরানো সংস্করণগুলিকে অবৈধ করা হয় । কিল লিস্ট হ'ল প্রতিশ্রুতিবদ্ধ সূচকের একমাত্র অংশ যা পরিবর্তন করতে পারে। আপনি যেমন অনুমান করতে পারেন, সময়ের সাথে সূচকের দক্ষতা হ্রাস পায়, কারণ পুরাতন সূচীতে বেশিরভাগ সরানো নথি থাকতে পারে।
এখানেই মার্জিংটি আসে Mer মার্জ করা - সামগ্রিকভাবে আরও দক্ষ সূচক তৈরি করতে বেশ কয়েকটি সূচকে একত্রিত করার প্রক্রিয়া। মূলত মার্জ করার সময় যা ঘটে থাকে তা হ'ল লাইভ ডকুমেন্টগুলি নতুন বিভাগে অনুলিপি করা হয় এবং পুরানো বিভাগগুলি পুরোপুরি সরানো হয়।
এই সহজ প্রক্রিয়াটি ব্যবহার করে Lucene অনুসন্ধানের পারফরম্যান্সের ক্ষেত্রে সূচকটি ভাল আকারে বজায় রাখতে সক্ষম।
আশা করি এটি সাহায্য করবে