আমি সত্যিই মজার বিষয় খুঁজে পেয়েছি যে গুগল বাস্তবে বায়োইনফরমেটিক্স দ্বারা চালিত হয় ('কে, আমি সেই মজার বিষয়টিকে খুঁজে পাই কারণ আমি বায়োইনফ… জিনিসযুক্ত)। আমাকে বিস্তারিত বলতে দাও.
খুব দ্রুত বায়োইনফর্ম্যাটিকসের কাছে বিশাল আকারের ছোট ছোট পাঠ্যগুলির অনুসন্ধানের চ্যালেঞ্জ ছিল। আমাদের জন্য, "বিশালাকার স্ট্রিং" অবশ্যই ডিএনএ। প্রায়শই একক ডিএনএ নয় বিভিন্ন প্রজাতি / ব্যক্তি থেকে প্রাপ্ত বিভিন্ন ডিএনএর একটি ডাটাবেস। ছোট গ্রন্থগুলি হ'ল প্রোটিন বা তাদের জিনগত প্রতিরূপ, একটি জিন। গণ্য জীববিজ্ঞানীদের প্রথম কাজটি বেশিরভাগ ক্ষেত্রে জিনের মধ্যে সমকামিতা সীমাবদ্ধ ছিল। এটি ইতিমধ্যে পরিচিত জিনগুলির মধ্যে সাদৃশ্যগুলি লক্ষ্য করে সদ্য পাওয়া জিনগুলির ক্রিয়াকলাপটি প্রতিষ্ঠার জন্য করা হয়।
এখন, এই ডিএনএ স্ট্রিংগুলি সত্যই খুব বড় হয়ে যায় এবং (ক্ষয়ক্ষতি!) অনুসন্ধান অত্যন্ত দক্ষতার সাথে করা উচিত। স্ট্রিং লুকিংয়ের আধুনিক তত্ত্বের বেশিরভাগটি এইভাবে গণ্য জীববিদ্যার প্রসঙ্গে বিকশিত হয়েছিল।
তবে বেশ কিছুকাল আগে প্রচলিত পাঠ্য অনুসন্ধান শেষ হয়ে গিয়েছিল। একটি নতুন পদ্ধতির প্রয়োজন ছিল যা সাবলাইনারের সময়ে বড় স্ট্রিংগুলি অনুসন্ধান করার অনুমতি দেয়, যা প্রতিটি একক চরিত্রের দিকে না তাকিয়ে। এটি আবিষ্কার করা হয়েছিল যে বড় স্ট্রিংটির প্রাক-প্রক্রিয়াজাতকরণ এবং এটির উপরে একটি বিশেষ সূচক ডেটা কাঠামো তৈরি করে সমাধান করা যেতে পারে। এই জাতীয় বিভিন্ন স্ট্রাকচার প্রস্তাব করা হয়েছে। প্রত্যেকের নিজস্ব শক্তি এবং দুর্বলতা রয়েছে তবে এটির একটি বিশেষত লক্ষণীয় কারণ এটি ধ্রুবক সময়ে দেখার সুযোগ দেয়। এখন, গুগল যে পরিমাণের ক্রম পরিচালনা করে সেগুলিতে এটি আর কঠোরভাবে সত্য নয় কারণ সার্ভারগুলিতে লোড ব্যালেন্সিং, প্রিপ্রোসেসিং এবং কিছু অন্যান্য অত্যাধুনিক জিনিসগুলি বিবেচনায় নিতে হবে।
কিন্তু সংক্ষেপে, তথাকথিত কিউ-গ্রাম সূচক ধ্রুব সময়ে একটি চেহারা অনুমতি দেয়। একমাত্র অসুবিধা: উপাত্ত কাঠামো হাস্যকরভাবে বড় হয়। মূলত, এর দিয়ে স্ট্রিং একটি লুকআপ অনুমতি দেওয়ার জন্য কুই অক্ষর (অত: পর নাম), এটি একটি টেবিলের প্রতিটি সম্ভাব্য সংযুক্তির জন্য একটি ক্ষেত্র আছে যা প্রয়োজন কুই অক্ষর (যে, কুই এস , যেখানে এস বর্ণমালার আকার , বলুন 36 (= 26 + 10))। অতিরিক্তভাবে, সূচিযুক্ত স্ট্রিংয়ে প্রতিটি বর্ণের পজিশনের জন্য একটি ক্ষেত্র থাকতে হবে (বা গুগলের ক্ষেত্রে, প্রতিটি ওয়েবসাইটের জন্য)।
নিছক আকার প্রশমিত করার জন্য, Google সম্ভবত একাধিক সূচকের ব্যবহার করবে (আসলে, তারা কি , বানান সংশোধক মত অফার পরিষেবাগুলিতে)। শীর্ষস্থানীয়রা অক্ষর স্তরে নয় পরিবর্তে শব্দ স্তরে কাজ করবে। এটি কিউ হ্রাস করে তবে এটি এসকে অসীম আকারে বড় করে তোলে তাই তাদের বিভিন্ন শব্দগুলির অসীম সংখ্যার সাথে লড়াই করতে হ্যাশিং এবং সংঘর্ষের সারণী ব্যবহার করতে হবে।
পরবর্তী স্তরে, এই হ্যাশ শব্দগুলি অন্যান্য সূচী ডেটা স্ট্রাকচারকে নির্দেশ করবে যা ঘুরেফিরে হ্যাশ অক্ষর ওয়েবসাইটগুলিকে নির্দেশ করবে।
দীর্ঘ গল্প সংক্ষেপে, এই কিউ- গ্রাম সূচক ডেটা স্ট্রাকচারগুলি যুক্তিযুক্তভাবে গুগলের অনুসন্ধান অ্যালগরিদমের সবচেয়ে কেন্দ্রীয় অংশ। দুর্ভাগ্যক্রমে, Q- গ্রাম সূচকগুলি কীভাবে কাজ করে তা বোঝানোর জন্য কোনও ভাল অ-প্রযুক্তিগত কাগজপত্র নেই । আমি জানি যে কেবলমাত্র প্রকাশনাতে এই জাতীয় সূচকটি কীভাবে কাজ করে তার বর্ণনা রয়েছে ... হায় হায় আমার ব্যাচেলর থিসিস ।