ঠিক আছে, আমি নিশ্চিত নই যে এটি ম্যাপ্রেইডুস কিনা সমস্যার সমাধান করে, তবে আপনি উত্থাপিত এই সমস্ত প্রশ্নগুলির সমাধান করার জন্য এটি অবশ্যই মানচিত্রের একা হবে না। কিন্তু এখানে গুরুত্বপূর্ণ জিনিস বিবেচনা করা যে এটি তৈরি করতে হয়, এবং সম্ভবপর সব বিভিন্ন মেশিন মধ্যে তথ্য এই TBS থেকে প্রশ্নের এই ধরনের কম লেটেন্সি আছে:
- ডিস্ট্রিবিউটেড কম্পিউটিং: বিতরণ করার অর্থ এই নয় যে সূচকগুলি কেবলমাত্র বিভিন্ন মেশিনে বিতরণ করা হয়, এগুলি আসলে বিভিন্ন ক্লাস্টার বরাবর প্রতিলিপি করা হয়, যা প্রচুর ব্যবহারকারীকে কম পুনরুদ্ধার সময়ের সাথে বিভিন্ন অনুসন্ধান করতে সক্ষম হয় (হ্যাঁ, বিশাল সংস্থাগুলি এতটা বহন করতে পারে মেশিনগুলির);
- ক্যাচিং: ক্যাশেগুলি কার্যকরভাবে কার্যকর করার সময়কে হ্রাস করে, এটি ক্রলিং পদক্ষেপের জন্য, পৃষ্ঠাগুলি পুনরুদ্ধারের জন্য, বা ফলাফলের র্যাঙ্কিং এবং প্রদর্শনীর জন্য;
- প্রচুর টুইট করা: উপরোক্ত এবং খুব কার্যকর অ্যালগরিদম / সমাধানগুলি কেবল কার্যকর করা সম্ভব যদি বাস্তবায়নটিও কার্যকর। এখানে প্রচুর সংখ্যক (হার্ড কোডড) অপ্টিমাইজেশান রয়েছে যেমন স্থানীয়করণের রেফারেন্স, সংক্ষেপণ, ক্যাশিং; এগুলির সমস্ত সাধারণত প্রক্রিয়াজাতকরণের বিভিন্ন অংশে প্রয়োগযোগ্য।
এটি বিবেচনা করে, আপনার প্রশ্নগুলি সমাধান করার চেষ্টা করা যাক:
তবে আমি অনুমান করি যে এটি প্রতিটি একক সম্ভাব্য ক্যোয়ারির ফলাফলকে সূচিকৃত হতে পারে fe
হ্যাঁ, এটি হবে এবং প্রতিটি একক সম্ভাব্য ক্যোয়ারির জন্য ফলাফল পাওয়া অসম্ভব । বিশ্বে অজস্র শর্তাদি রয়েছে (এমনকি যদি আপনি ধরে নেন যে কেবলমাত্র সঠিকভাবে বানানের শর্তাদি প্রবেশ করা হবে), এবং এই n -> inf
পদগুলি ( 2^n
) থেকে তাত্পর্যপূর্ণ সংখ্যা রয়েছে eries তাহলে কি করা হয়? ক্যাশে। তবে যদি এতগুলি প্রশ্ন / ফলাফল থাকে তবে কোনটি ক্যাশে করবেন? ক্যাশিং পলিসি। ব্যবহারকারীদের জন্য সর্বাধিক ঘন ঘন / জনপ্রিয় / প্রাসঙ্গিক সম্পর্কিত প্রশ্নগুলি ক্যাশে করা হয়।
গুগলের হার্ডওয়ারে হার্ডওয়্যারটির বিলম্বিতা কী বিশাল হবে না? এমনকি গুগলের ডেটা সবগুলি টিবি / এসএসডি-তে সঞ্চিত ছিল
আজকাল, এই জাতীয় উচ্চ বিকাশিত প্রসেসরের সাহায্যে লোকেরা মনে করে যে প্রতিটি সম্ভাব্য কাজ যা অবশ্যই এক সেকেন্ডের মধ্যে শেষ করা উচিত (বা তার চেয়ে কম) এবং যে এত বেশি ডেটা নিয়ে কাজ করে, অবশ্যই একাধিক কোর এবং প্রচুর মেমরির সাথে অত্যন্ত শক্তিশালী প্রসেসর দ্বারা প্রক্রিয়া করা উচিত। যাইহোক, এক জিনিস রুলিং মার্কেট অর্থ, এবং বিনিয়োগকারীরা এটি নষ্ট করতে আগ্রহী নয়। তাহলে কি করা হয়?
পছন্দটি হ'ল প্রচুর মেশিন রাখার জন্য, প্রতিটি সহজ / অ্যাক্সেসযোগ্য (খরচের শর্তে) প্রসেসর ব্যবহার করে, যা সেখানে প্রচুর ক্লাস্টার তৈরির দাম কমিয়ে দেয়। এবং হ্যাঁ, এটি কাজ করে। আপনি যদি পারফরম্যান্সের সাধারণ পরিমাপ বিবেচনা করেন তবে প্রধান বাধা সবসময় ডিস্কে সিদ্ধ হয় । তবে একবারে অনেকগুলি মেশিন আসার পরে, হার্ড ডিস্কগুলিতে কাজ না করে কেউ প্রধান মেমোরি পর্যন্ত জিনিসগুলি লোড করতে পারে।
মেমরি কার্ডগুলি আমাদের জন্য, কেবল মানুষের জন্যই ব্যয়বহুল , তবে এমন উদ্যোগগুলিতে এটি খুব সস্তা যেগুলি একই সাথে প্রচুর কার্ড কিনে। যেহেতু এটি ব্যয়বহুল নয়, তাই সূচকগুলি লোড করার জন্য এবং ক্যাশে হাতে রাখতে প্রয়োজনীয় মেমরি থাকা কোনও সমস্যা নয়। এবং যেহেতু অনেকগুলি মেশিন রয়েছে তাই সুপার ফাস্ট প্রসেসরের প্রয়োজন নেই, যেহেতু আপনি বিভিন্ন জায়গায় অনুসন্ধান পরিচালনা করতে পারেন এবং নির্দিষ্ট ভৌগলিক অঞ্চলে অংশ নেওয়ার জন্য দায়বদ্ধ মেশিনগুলির ক্লাস্টার থাকতে পারে , যা আরও বিশেষ ডেটা ক্যাশে করার অনুমতি দেয় , এবং আরও ভাল প্রতিক্রিয়া জানায় বার।
মানচিত্র কি এই সমস্যা সমাধানে সহায়তা করে?
যদিও আমি মনে করি না যে ম্যাপ্রেডুস ব্যবহার করা বা না করা গুগলের অভ্যন্তরে তথ্য সীমাবদ্ধ, তবে আমি এই বিষয়টি সম্পর্কে কথোপকথন করছি না। তবে গুগলের মানচিত্রের বাস্তবায়ন (যা অবশ্যই হ্যাডোপ নয় ) অবশ্যই প্রচুর পরিমাণে অপ্টিমাইজেশন থাকতে পারে, যার উপরোক্ত আলোচিত দিকগুলি জড়িত রয়েছে। সুতরাং, মানচিত্রার আর্কিটেকচার সম্ভবত গণনাগুলি কীভাবে শারীরিকভাবে বিতরণ করা যায় তা গাইড করতে সহায়তা করে, তবে আরও অনেক পয়েন্ট রয়েছে যা জিজ্ঞাসা করার সময় এই ধরণের গতি ন্যায়সঙ্গত করার জন্য বিবেচিত হবে।
ঠিক আছে, তাই আমি বুঝতে পারি যে জনপ্রিয় অনুসন্ধানগুলি মেমরিতে ক্যাশে করা যেতে পারে। কিন্তু অ-জনপ্রিয় অনুসন্ধানগুলি কী?
নীচের গ্রাফটি কীভাবে প্রশ্নগুলির প্রকার ঘটে তার একটি বক্ররেখা উপস্থাপন করে । আপনি দেখতে পাচ্ছেন যে তিনটি মূল ধরণের অনুসন্ধান রয়েছে, এদের প্রত্যেকের প্রায় 1/3 ক্যোয়ারীর ভলিউমের (বক্ররেখার অঞ্চল) রয়েছে holding প্লটটি পাওয়ার আইন দেখায় এবং আরও ছোট প্রশ্নগুলি সবচেয়ে জনপ্রিয় তা এই বিষয়টিকে শক্তিশালী করে। প্রশ্নের দ্বিতীয় তৃতীয়াংশ এখনও প্রক্রিয়া করা সম্ভব, যেহেতু তারা কয়েকটি শব্দ রাখে। তবে তথাকথিত অস্পষ্ট প্রশ্নগুলির সেটগুলি , যা সাধারণত অভিজ্ঞ-অভিজ্ঞ ব্যবহারকারীদের প্রশ্নের সমন্বয়ে গঠিত হয়, সেগুলি অনুসন্ধানের একটি তুচ্ছ অংশ নয়।
এবং উপন্যাস সমাধানের জন্য জায়গা আছে। যেহেতু এটি কেবল এক বা দুটি অনুসন্ধান নয় (তবে এর এক তৃতীয়াংশ), তাদের অবশ্যই প্রাসঙ্গিক ফলাফল থাকতে হবে। আপনি যদি গুগল অনুসন্ধানে খুব বেশি অস্পষ্ট কিছু টাইপ করেন তবে ফলাফলের তালিকা ফিরে আসতে খুব বেশি সময় লাগবে না, তবে সম্ভবত আপনি যা বলতে চান তা অনুমান করা এমন কিছু আপনাকে দেখাবে । অথবা এটি সহজেই বলতে পারে যে এই জাতীয় শর্তাদি সহ কোনও দলিল ছিল না - বা এমনকি আপনার অনুসন্ধানটি 32 টি শব্দে কেটে দেওয়া হয়েছে (যা এখানে এলোমেলো পরীক্ষায় আমার সাথে ঘটেছিল)।
এখানে কয়েক'টি প্রশংসনীয় হিউরিস্টিকস রয়েছে, যা হয় কিছু শব্দকে উপেক্ষা করার জন্য, বা কোয়েরিটিকে আরও ছোট করে ভাঙার চেষ্টা করতে এবং সর্বাধিক জনপ্রিয় ফলাফল সংগ্রহ করতে পারে। এবং এই সমস্ত সমাধানগুলি সম্ভাব্য অপেক্ষার সময়গুলির প্রতি শ্রদ্ধা জানাতে তৈরি করা যায় এবং একটি সেকেন্ডের চেয়ে কম বলা যায়? : ডি