মেটা-পয়েন্টটি বিবেচনা করুন: সাক্ষাত্কারকারী কী খুঁজছেন?
এর মতো একটি বিশাল প্রশ্ন আপনাকে পেজর্যাঙ্ক-টাইপ অ্যালগরিদম প্রয়োগ করার জন্য বা বিতরণ সূচী কীভাবে করবেন তা আপনার সময় নষ্ট করার জন্য নয়। পরিবর্তে, এটি কী নেবে তার সম্পূর্ণ চিত্রের উপর ফোকাস করুন । দেখে মনে হচ্ছে আপনি ইতিমধ্যে সমস্ত বড় টুকরো (বিগ টেবিল, পেজর্যাঙ্ক, মানচিত্র / হ্রাস) জানেন। তাহলে প্রশ্নটি তখন, আপনি কীভাবে তাদের সাথে একত্রিত করবেন?
এই আমার ছুরিকাঘাত।
প্রথম পর্যায়: সূচকের অবকাঠামো (5 মিনিট বোঝাতে ব্যয় করুন)
গুগল (বা কোনও সার্চ ইঞ্জিন) প্রয়োগের প্রথম পর্যায়ে একটি সূচক তৈরি করা হয়। এটি সফ্টওয়্যারটির টুকরো যা ডেটা কর্পাসকে ক্রল করে এবং এমন ডেটা কাঠামোর ফলাফল তৈরি করে যা রিডগুলি করার জন্য আরও দক্ষ।
এটি বাস্তবায়নের জন্য, দুটি অংশ বিবেচনা করুন: ক্রোলার এবং সূচক।
ওয়েব ক্রলারের কাজ হ'ল ওয়েব পৃষ্ঠাগুলি লিঙ্কগুলি মাকড়সা করা এবং সেগুলিতে সেট করে ফেলা। এখানে সর্বাধিক গুরুত্বপূর্ণ পদক্ষেপটি অসীম লুপে বা অসীম উত্পন্ন সামগ্রীতে ধরা না পড়া getting এই লিঙ্কগুলির প্রত্যেককে একটি বিশাল পাঠ্য ফাইলে রাখুন (এখন জন্য)।
দ্বিতীয়ত, সূচক কোনও মানচিত্র / হ্রাস কাজের কাজের অংশ হিসাবে চলবে। (ইনপুটটিতে প্রতিটি আইটেমের জন্য একটি ফাংশন মানচিত্র করুন, এবং তারপরে ফলাফলগুলি একটি 'জিনিস' তে হ্রাস করুন)) সূচক একটি একক ওয়েব লিংক নেবে, ওয়েবসাইটটি পুনরুদ্ধার করবে এবং এটি সূচী ফাইলে রূপান্তর করবে। (পরবর্তী আলোচনা করা হয়েছে)) হ্রাস পদক্ষেপটি কেবলমাত্র এই সূচি ফাইলগুলিকে একক ইউনিটে রূপান্তরিত করবে। (লক্ষ লক্ষ আলগা ফাইলের চেয়ে বেশি Since) যেহেতু সূচীকরণ পদক্ষেপগুলি সমান্তরালভাবে করা যায়, আপনি এই মানচিত্রটি তৈরি করতে পারেন / একটি নির্বিচারে-বৃহত ডেটা সেন্টার জুড়ে কাজটি হ্রাস করতে পারেন।
দ্বিতীয় ধাপ: সূচীকরণের অ্যালগরিদমগুলির বৈশিষ্ট্য (10 মিনিট বোঝাতে ব্যয় করুন)
একবার আপনি কীভাবে ওয়েব পৃষ্ঠাগুলি প্রসেস করবেন তা জানিয়ে দেওয়ার পরে, পরবর্তী অংশটি ব্যাখ্যা করছে যে আপনি কীভাবে অর্থবহ ফলাফলগুলি গণনা করতে পারবেন। এখানে সংক্ষিপ্ত উত্তরটি হ'ল 'আরও অনেক মানচিত্র / হ্রাস', তবে আপনি যে ধরণের কাজ করতে পারেন তা বিবেচনা করুন:
- প্রতিটি ওয়েবসাইটের জন্য, আগত লিঙ্কগুলির সংখ্যা গণনা করুন। (আরও ভারী লিঙ্কযুক্ত পৃষ্ঠাগুলি 'আরও ভাল' হওয়া উচিত))
- প্রতিটি ওয়েবসাইটের জন্য, লিঙ্কটি কীভাবে উপস্থাপন করা হয়েছিল তা দেখুন। (একটি <h1> বা <b> লিঙ্কগুলিতে <h3> সমাহিতদের চেয়ে বেশি গুরুত্বপূর্ণ হওয়া উচিত))
- প্রতিটি ওয়েবসাইটের জন্য, বহির্মুখী লিঙ্কগুলির সংখ্যাটি দেখুন। (কেউ স্প্যামার পছন্দ করে না))
- প্রতিটি ওয়েবসাইটের জন্য, ব্যবহৃত শব্দগুলির ধরণটি দেখুন। উদাহরণস্বরূপ, 'হ্যাশ' এবং 'টেবিল' সম্ভবত ওয়েব সাইটটি কম্পিউটার বিজ্ঞানের সাথে সম্পর্কিত। অন্যদিকে 'হ্যাশ' এবং 'ব্রাউনিজ' বলতে বোঝায় যে সাইটটি এর চেয়ে আলাদা কিছু ছিল।
দুর্ভাগ্যক্রমে আমি বিশ্লেষণ এবং উপকারী প্রক্রিয়া করার বিভিন্ন ধরণের উপায় সম্পর্কে যথেষ্ট সহায়ক হতে পারি না super তবে সাধারণ ধারণাটি আপনার ডেটা বিশ্লেষণ করার উপায় ।
ধাপ 3: পরিবেশন ফলাফল (10 মিনিট বোঝাতে ব্যয় করুন)
চূড়ান্ত পর্যায়ে আসলে ফলাফল পরিবেশন করা হয়। আশা করি আপনি কীভাবে ওয়েব পৃষ্ঠাগুলির ডেটা বিশ্লেষণ করতে কিছু আকর্ষণীয় অন্তর্দৃষ্টি ভাগ করে নিয়েছেন, তবে প্রশ্নটি আসলে আপনি কীভাবে এটি অনুসন্ধান করবেন? উপাহ্যভাবে প্রতিদিন গুগল অনুসন্ধানের 10% অনুসন্ধানের আগে এর আগে কখনও দেখা যায়নি। এর অর্থ আপনি আগের ফলাফলগুলি ক্যাশে করতে পারবেন না।
আপনার ওয়েব সূচকগুলি থেকে আপনার একটিও 'লুক' থাকতে পারে না, তাই আপনি কী চেষ্টা করবেন? আপনি বিভিন্ন সূচী জুড়ে কিভাবে দেখতে চান? (সম্ভবত ফলাফলের সংমিশ্রণ - সম্ভবত মূলশব্দ 'স্ট্যাকওভারফ্লো' একাধিক সূচীতে খুব বেশি উপস্থিত হয়েছে))
এছাড়াও, আপনি যাইহোক এটি কীভাবে দেখবেন? আপনি বিপুল পরিমাণে তথ্য থেকে ডেটা পড়ার জন্য কোন ধরণের পন্থা ব্যবহার করতে পারেন ? (আপনার প্রিয় নোএসকিউএল ডাটাবেসটি এখানে নিখরচায় নিখরচায় محسوس করুন এবং / অথবা গুগলের বিগ টেবিল কী সম্পর্কিত তা সন্ধান করুন)) আপনার কাছে খুব নির্ভুল একটি দুর্দান্ত সূচক থাকলেও আপনাকে দ্রুত এটিতে ডেটা সন্ধান করার একটি উপায় প্রয়োজন। (যেমন, 200 জিবি ফাইলের অভ্যন্তরে 'স্ট্যাকওভারফ্লো ডটকম' এর জন্য র্যাঙ্ক নম্বরটি সন্ধান করুন))
এলোমেলো সমস্যা (সময় বাকি)
একবার আপনি নিজের সার্চ ইঞ্জিনের 'হাড়' coveredেকে ফেললে, আপনি যে কোনও বিষয়ে বিশেষত জ্ঞাত যে কোনও পৃথক বিষয়ে ইঁদুর ছিদ্র করতে দ্বিধা বোধ করবেন না।
- ওয়েবসাইটের অগ্রভাগের পারফরম্যান্স
- আপনার মানচিত্র / চাকরি হ্রাস করার জন্য ডেটা সেন্টার পরিচালনা করা
- এ / বি পরীক্ষার সার্চ ইঞ্জিনের উন্নতি
- পূর্ববর্তী অনুসন্ধানের ভলিউম / প্রবণতাগুলিকে সূচকে সংহত করে। (উদাহরণস্বরূপ, ফ্রন্টএন্ড সার্ভারের লোড 9-5 স্পাইক করে প্রত্যাশিত তাড়াতাড়ি সকালে মারা যায়))
এখানে আলোচনা করার জন্য স্পষ্টতই 15 মিনিটেরও বেশি উপাদান রয়েছে তবে আশা করি আপনি শুরু করার পক্ষে এটি যথেষ্ট is