উইকিপিডিয়া কীভাবে এর সাইটম্যাপ তৈরি করে?


9

উইকিপিডিয়া আকারের কারণে বিষয়টি আমার আগ্রহী। একটি ছোট সাইটে পর্যায়ক্রমে সাইটম্যাপগুলি আপডেট করার জন্য কিছু ক্রোন তৈরি করা সহজ হতে পারে তবে বড় কোনওটির কী হবে? তাই:

উইকিপিডিয়া কীভাবে এর সাইটম্যাপ তৈরি করে?

উত্তর:


9

এটি গতিশীলভাবে পিএইচপি স্ক্রিপ্ট দ্বারা উত্পাদিত। বড় সাইটের জন্য সম্ভবত পরিবর্তনগুলি পরীক্ষা করা ভাল এবং কেবল কিছু পরিবর্তিত হলেই উত্পন্ন করা ভাল - বা কেবল প্রতি XY মিনিট / ঘন্টা / দিন এটিকে উত্পন্ন করে। এটি পরিকাঠামোর উপর নির্ভর করে।

প্রয়োজনীয় তথ্য সমস্ত ডাটাবেসে রয়েছে, সুতরাং এটি এত কঠিন কাজ নয়।

এবং এর প্রমাণটি এখানে রয়েছে: http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/mainenter/generateSitemap.php?view=log / http://www.mediawiki.org/wiki/Manual:GenrateSitemap। পিএইচপি

সম্পাদনা: আহ এবং এটি এই বিষয়টির জন্যও আকর্ষণীয় হতে পারে:


আপনি কি কোনও বড় সাইটের জন্য সাইটম্যাপ তৈরি করতে পিএইচপি-কোড ব্যবহার করতে পারেন? আপনার "গতিশীল" শব্দটি দ্বারা বোঝানো হয়েছে যে সাইটম্যাপটি কিছুটা স্বয়ংক্রিয়ভাবে উত্পন্ন হয়েছে এবং প্রয়োজনে কোডে কিছুটা পরিবর্তন আনছে?

আপনি "বাক্যটি প্রয়োজনীয় তথ্যগুলি ডাটাবেসে থাকা তাই বাক্যটি পরিষ্কার করতে পারেন, তাই এটি এত কঠিন কাজ নয়?" আমি কোথায় ডাটাবেস দেখতে পারি?

আমি মনে করি তার অর্থ হ'ল সমস্ত তথ্য ডাটাবেসের অন্তর্নিহিত মিডিয়াউইকিতে রয়েছে। আপনি উইকিপিডিয়ায় সিসাদমিন বা ডিবিএর মধ্যে না থাকলে আপনি সম্ভবত তাদের ডিবিতে সরাসরি অ্যাক্সেস পেতে পারবেন না।
সিয়ান

3
আমি আরও মনে করি যে ওপি কীভাবে একটি 'বৃহত' সাইটে সাইটম্যাপ তৈরি করতে পারে সে সম্পর্কে কাজ করার চেষ্টা করছে, উইকিপিডিয়ায় এটি খুব বেশি আরডিবিএমএস-চালিত (মাইএসকিউএল) রয়েছে যা সমস্ত পৃষ্ঠাগুলি ডাটাবেসের বাইরে পরিবেশন করে। সুতরাং আপনার ডিবি সমস্ত পৃষ্ঠাগুলি জানেন এবং এটি করার জন্য আপনার একটি সাধারণ-ইশ পিএইচপি স্ক্রিপ্ট (সাবভারশন থেকে উপরে লিঙ্ক করা) দরকার। অন্যান্য প্রযুক্তিগুলির ক্ষেত্রে, বিভিন্ন প্রযুক্তি দ্বারা চালিত, তবে আপনি দেখতে পাবেন যে প্রয়োজনীয় পদ্ধতিটি ভিন্ন। গতবার আমি উইকিপিডিয়া ডাউনলোডের জন্য তাদের ডেটাবেসগুলি প্রকাশিত চেক করেছিলাম বা কমপক্ষে তারা একটি এস। এসকিউএল ফাইলে তাদের সামগ্রী প্রকাশ করেছে।
নিকজেক

1
: এখানে [উইকিপিডিয়া ডিবি ডাম্প] [1] :-) [1] হল en.wikipedia.org/wiki/...
গ্রেগর

1

কিছুক্ষণ আগে আমাদের ওয়েব সাইটের জন্য একটি সাইট ম্যাপ তৈরি করার কাজটি আমার মুখোমুখি হয়েছিল। যদিও এটি উইকিপিডিয়াটির আকার নয়, এটি এখনও প্রায় এক লক্ষ পৃষ্ঠাগুলি, এবং এর প্রায় 5% দৈনিক পরিবর্তন করা, যুক্ত করা বা অপসারণ করা হয়।

সমস্ত পৃষ্ঠার রেফারেন্সগুলিকে একক ফাইলে রাখার ফলে এটি অনেক বড় হয়ে উঠবে, আমাকে সেগুলি বিভাগে বিভক্ত করতে হয়েছিল। সাইটের মানচিত্র সূচকটি 17 টি বিভাগের একটির জন্য একটি কোয়েরি স্ট্রিং সহ একটি এসপেক্স পৃষ্ঠায় নির্দেশ করে। ক্যোরিয় স্ট্রিংয়ের উপর নির্ভর করে পৃষ্ঠাটি কয়েক হাজার পৃষ্ঠাগুলি উল্লেখ করে একটি এক্সএমএল ফেরত দেয়, যার ভিত্তিতে ডাটাবেসে কোন বস্তু বিদ্যমান exist

সুতরাং, সাইট ম্যাপটি পর্যায়ক্রমে তৈরি হয় না, পরিবর্তে এটি যখন কেউ অনুরোধ করে তখন তা ফ্লাইতে তৈরি করা হয়। আমাদের কাছে ইতিমধ্যে ডাটাবেস অনুসন্ধানগুলি ক্যাশে করার জন্য একটি সিস্টেম রয়েছে, অবশ্যই এটি সাইটের মানচিত্রের জন্য ডেটা আনতে ব্যবহৃত হয়।


ডাউনটা কেন? আপনি যদি ভুল বলে মনে করেন তবে এটি কী ব্যাখ্যা না করে তবে উত্তরটি উন্নত করতে পারে না।
গুফা

1

যদিও সাইটম্যাপ জেনারেশন কোডটি মিডিয়াউইকি কোর মাস্টারে রয়েছে এবং অবশ্যই সাইটম্যাপ তৈরির জন্য বেছে নেওয়া বিকল্প হবে, উইকিপিডিয়া আসলে এটি চালু হয়েছে বলে আমি কোনও প্রমাণ দেখতে পাচ্ছি না। Robots.txt ফাইলটি কোনও সাইটের মানচিত্রের দিকে নির্দেশ করে না।

আরও, উইকিমিডিয়া প্রকল্পগুলিতে চালিত কোনও রক্ষণাবেক্ষণ স্ক্রিপ্ট পুতুল দ্বারা নিয়ন্ত্রিত হয় এবং পুতুল সংগ্রহস্থলটিতে জেনারেটসাইটম্যাপ.এফপি-র কোনও উদাহরণ নেই । অবশেষে, কোনও উইকিমিডিয়া উইকির জন্য ডাম্পগুলিতে কোনও সাইটম্যাপ নেই , যখন " ইয়াহুর জন্য বিমূর্ত " রয়েছে।

যাই হোক না কেন, উইকিপিডিয়া তাদের অ্যাপ সার্ভারের সামনে স্কুইড ক্যাশে চালায়। পৃষ্ঠার মেয়াদ শেষ হওয়ার সময়টি সামঞ্জস্য করে তাদের সাইটম্যাপ কতবার আপডেট হয় তা তারা নিয়ন্ত্রণ করতে পারে।

তদুপরি, ইনডেক্সিংয়ের জন্য উইকিপিডিয়া যা কিছু করে তা আপনার উইকের পক্ষে ভাল মডেল নয়, কারণ গুগলের উইকিপিডিয়ায় বিশেষ যোগাযোগ / ডিল / পরিচালনা রয়েছে, একটি সাম্প্রতিক উদাহরণ দেখুন


+1 স্মার্ট পর্যবেক্ষণ

1
কোনও সাইটম্যাপের রেফারেন্সের জন্য রোবটস.টি.এস.টি.কে আশা করার কোনও আসল কারণ নেই, সুতরাং এ জাতীয় রেফারেন্সের অনুপস্থিতি সত্যই কিছুই প্রমাণ করে না।
জন গার্ডেনিয়ার্স

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.