কোনও সাইট [বন্ধ] থেকে ইউআরএলগুলির একটি তালিকা পান


99

আমি একটি ক্লায়েন্টের জন্য একটি প্রতিস্থাপন সাইট নিযুক্ত করছি তবে তারা চায় না যে তাদের পুরানো পৃষ্ঠাগুলি 404 এর মধ্যে শেষ হয়। পুরানো ইউআরএল কাঠামো রাখা সম্ভব ছিল না কারণ এটি ঘৃণ্য ছিল।

সুতরাং আমি একটি 404 হ্যান্ডলার লিখছি যা অনুরোধ করা হচ্ছে এমন একটি পুরানো পৃষ্ঠার সন্ধান করা উচিত এবং নতুন পৃষ্ঠায় স্থায়ীভাবে পুনঃনির্দেশ করা উচিত। সমস্যাটি হল, আমার সমস্ত পুরানো পৃষ্ঠার ইউআরএলগুলির একটি তালিকা দরকার।

আমি এটি ম্যানুয়ালি করতে পারি তবে আমি আগ্রহী যদি এমন কোনও অ্যাপ্লিকেশন থাকে যা আমাকে আত্মীয়ের একটি তালিকা সরবরাহ করে (যেমন: / পৃষ্ঠা / পথ, HTTP: /.../ পৃষ্ঠা / পথ নয়) কেবলমাত্র বাড়িটি দেওয়া হয়েছে পৃষ্ঠা একটি মাকড়সার মত তবে গভীর পৃষ্ঠাগুলি খুঁজে বের করার চেয়ে অন্য বিষয়বস্তুর পক্ষে চিন্তা করে না।


উত্তর:


68

আমার নিজের প্রশ্নের উত্তর দেওয়ার অর্থ ছিল না তবে আমি কেবল একটি সাইটম্যাপ জেনারেটর চালানোর কথা ভেবেছিলাম। প্রথমটি আমি পেয়েছি http://www.xML-sitemaps.com এর একটি সুন্দর পাঠ্য আউটপুট রয়েছে। আমার প্রয়োজনের জন্য নিখুঁত।


তবে 5000 টি লিঙ্কের সীমা রয়েছে! .. :( আমি কোনও ফ্রি পিএইচপি সাইটম্যাপ জেনারেটর স্ক্রিপ্ট খুঁজছি
জেনসন এম জন

14
বর্তমান সীমা 500 - ছোট হচ্ছে…
অলি স্টাডহলেম

এটি আমার জন্য ভুল করে দিয়েছে: :::::::: একটি ত্রুটি ঘটেছে নির্দিষ্ট URL টি অ্যাক্সেস করার সময় একটি ত্রুটি ঘটেছে: 159.121.ssss দয়া করে সঠিক ওয়েবসাইট ইউআরএল নির্দিষ্ট করে নিশ্চিত করুন এবং আপনার অনুরোধটি পুনরায় জমা দিন।
জাস্টজহান

এফওয়াইআই: আপনি যদি ফ্রন্টএন্ড রাউটিং ব্যবহার করছেন তবে আপনি এই পদ্ধতি থেকে এই রুটগুলি পাবেন না।
জেসনলনহার্ড

এফওয়াইআই: যদি ওয়েবসাইট প্রমাণীকরণ এবং / অথবা অনুমোদন ব্যবহার করে তবে আপনি সমস্ত রুটও পাবেন না।
জেসনলোনহার্ড

47

কর wget -r -l0 www.oldsite.com

তবে কেবল find www.oldsite.comসমস্ত ইউআরএল প্রকাশ করা হবে, আমি বিশ্বাস করি।

বিকল্পভাবে, প্রতি 404 অনুরোধে কেবল সেই কাস্টমটি পাওয়া যায়নি পৃষ্ঠাটি পরিবেশন করুন! উদাহরণস্বরূপ, কেউ যদি ভুল লিঙ্কটি ব্যবহার করে তবে সে পৃষ্ঠাটি খুঁজে পাওয়া যায় নি যে পৃষ্ঠাটি পাওয়া যায় নি, এবং সাইটের সামগ্রী সম্পর্কে কিছু ইঙ্গিত তৈরি করবে।


16
উল্লেখযোগ্যভাবে, যেহেতু এটি URL গুলি নয়, ফাইলগুলির একটি তালিকা ফেরত দেয় , এটি কেবল স্থিতিশীল এইচটিএমএল ফাইলগুলির সংগ্রহের জন্য কেবল সেই সাইটগুলির জন্য কাজ করবে। সাইটে যদি URL টি কোয়েরি প্যারামিটার থাকে, সার্ভার-সাইড পুনরায় লিখিত URL গুলি বা কোনও ধরণের include/ require/ ইত্যাদি। পৃষ্ঠাগুলি একত্রিত করা, এটি সত্যিই কাজ করবে না।
টিজে শুক

আমি ভুল বোঝাবুঝি হতে পারে। আমি ভেবেছিলাম 'উইজেট' সাইটের বিষয়বস্তু ডাউনলোড করার জন্য?
মহাজাগতিক হক

@ ডুমসি হ্যাঁ, তবে আপনি সমস্ত বিষয়বস্তু ডাউনলোড করার পরে আপনি অবশ্যই সেই লিখিত সামগ্রীর সমস্ত ইউআরএল জানেন এবং ইউআরএলগুলি বের করার কোনও উপায় নেই।
আলমার

4
ডিফল্ট গভীরতা বিবেচনা করুন। gnu.org/software/wget/manual/html_node/…
পিজে ব্রুনেট

4
@ আলমার হ্যাঁ অসীম পুনরাবৃত্তির জন্য "-r -l inf" আছে, তবে আমি লোকদের ডকুমেন্টেশনগুলি পরীক্ষা করে দেখার পরামর্শ দিচ্ছি - অনেক দুর্দান্ত বিকল্প! "-ম" বিকল্পটি আয়না করবে এবং আমি "-R.jpg, .jpeg, .gif, .png" চেষ্টা করব যা আমি মনে করি যে চিত্রগুলি এড়িয়ে চলে।
পিজে ব্রুনেট

24

এখানে সাইটম্যাপ জেনারেটরের একটি তালিকা রয়েছে (যা থেকে স্পষ্টতই আপনি কোনও সাইট থেকে URL এর তালিকা পেতে পারেন): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

ওয়েব সাইটম্যাপ জেনারেটর

এক্সএমএল সাইটম্যাপ ফর্ম্যাটে ফাইল তৈরি এবং রক্ষণাবেক্ষণের জন্য নীচের লিঙ্কগুলি নীচে দেওয়া হয়েছে, সাইটম্যাপস.org এ সংজ্ঞায়িত ও জিজ্ঞাসা, গুগল, মাইক্রোসফ্ট লাইভ অনুসন্ধান এবং ইয়াহু! সাইটম্যাপ ফাইলগুলিতে এই URL গুলির জন্য কিছু মেটা-ডেটা সহ একটি ওয়েবসাইটে ইউআরএলগুলির সংকলন থাকে। নিম্নলিখিত সরঞ্জামগুলি সাধারণত "ওয়েব-টাইপ" এক্সএমএল সাইটম্যাপ এবং ইউআরএল-তালিকা ফাইল তৈরি করে (কিছু অন্যান্য ফর্ম্যাটকে সমর্থনও করতে পারে)।

দয়া করে নোট করুন: গুগল এই সাইটে তালিকাভুক্ত তৃতীয় পক্ষের সফ্টওয়্যারটির বৈশিষ্ট্য বা সুরক্ষা পরীক্ষা বা যাচাই করে নি। সফ্টওয়্যার সম্পর্কিত কোনও প্রশ্ন সফ্টওয়্যার এর লেখকের কাছে নির্দেশ করুন। আমরা আশা করি আপনি এই সরঞ্জামগুলি উপভোগ করবেন!

সার্ভার-সাইড প্রোগ্রাম

  • এনারিওন পিএইচপি সাইটম্যাপসএনজি (পিএইচপি)
  • গুগল সাইটম্যাপ জেনারেটর (লিনাক্স / উইন্ডোজ, 32/64 বিট, ওপেন সোর্স)
  • পিএইচপি (ফরাসী, পিএইচপি)
  • পার্ল সাইটম্যাপ জেনারেটর (পার্ল)
  • পাইথন সাইটম্যাপ জেনারেটর (পাইথন)
  • সাধারণ সাইটম্যাপস (পিএইচপি)
  • সাইটম্যাপ এক্সএমএল ডায়নামিক সাইটম্যাপ জেনারেটর (পিএইচপি) $
  • ওএস / 2 (রেক্সএক্স-স্ক্রিপ্ট) এর জন্য সাইটম্যাপ জেনারেটর
  • এক্সএমএল সাইটম্যাপ জেনারেটর (পিএইচপি) $

সিএমএস এবং অন্যান্য প্লাগইন:

  • এএসপি.নেট - সাইটম্যাপস নেট
  • ডটক্রিয়ার (স্প্যানিশ)
  • ডটক্রিয়ার (2)
  • দ্রুপাল
  • ইকমার্স টেম্পলেট (পিএইচপি) $
  • ইকমার্স টেম্পলেট (পিএইচপি বা এএসপি) $
  • লাইফটাইপ
  • মিডিয়াউইকি সাইটম্যাপ জেনারেটর
  • mnoGoSearch
  • ওএস কমার্স
  • phpWebSite
  • প্লোন
  • র‌্যাপিডওয়েভার
  • পাঠ্যপণ্য
  • vBulletin
  • উইক্কা উইকি (পিএইচপি)
  • ওয়ার্ডপ্রেস

ডাউনলোডযোগ্য সরঞ্জাম

  • জিসাইটক্রোলার (উইন্ডোজ)
  • GWebCrawler এবং সাইটম্যাপ নির্মাতা (উইন্ডোজ)
  • জি-ম্যাপার (উইন্ডোজ)
  • ইনস্পাইডার সাইটম্যাপ ক্রিয়েটর (উইন্ডোজ) $
  • ইন্টেলিম্যাপার (উইন্ডোজ) $
  • মাইক্রোসিস এ 1 সাইটম্যাপ জেনারেটর (উইন্ডোজ) $
  • রাগ গুগল সাইটম্যাপ অটোমেটার OS (ওএস-এক্স)
  • চিৎকার ফ্রগ এসইও স্পাইডার এবং সাইটম্যাপ জেনারেটর (উইন্ডোজ / ম্যাক) $
  • সাইট ম্যাপ প্রো (উইন্ডোজ) $
  • সাইটম্যাপ রাইটার (উইন্ডোজ) $
  • ডিআইআইন্টেলিওয়েসেন্স (উইন্ডোজ) দ্বারা সাইটম্যাপ জেনারেটর
  • সোরম্যানস সাইটম্যাপ সরঞ্জামগুলি (উইন্ডোজ)
  • TheSiteMapper (উইন্ডোজ) $
  • ভিগোস জিসাইটম্যাপ (উইন্ডোজ)
  • ভিজ্যুয়াল এসইও স্টুডিও (উইন্ডোজ)
  • ওয়েব ডিজাইনপ্রস সাইটম্যাপ জেনারেটর (জাভা ওয়েবস্টার্ট অ্যাপ্লিকেশন)
  • ওয়েবলাইট (উইন্ডোজ / ম্যাক) $
  • ওয়ান্ডার ওয়েইয়ার সাইটম্যাপ জেনারেটর (উইন্ডোজ)

অনলাইন জেনারেটর / পরিষেবা

  • অডিটমাইপিসি.কম সাইটম্যাপ জেনারেটর
  • অটোম্যাপিট
  • অটোসাইটেম্যাপ $
  • এনারিওন পিএইচপি সাইটম্যাপসএনজি
  • বিনামূল্যে সাইটম্যাপ জেনারেটর
  • নিউরোটিকওয়েব.কম সাইটম্যাপ জেনারেটর
  • আরওআর সাইটম্যাপ জেনারেটর
  • স্ক্রিপ্টসকেট সাইটম্যাপ জেনারেটর
  • সিও ইউটিলিটি সাইটম্যাপ জেনারেটর (ইতালিয়ান)
  • সাইটম্যাপডোক
  • সাইটম্যাপপাল
  • সাইটম্যাপ সাবমিট
  • স্মার্ট-আইটি-পরামর্শমূলক গুগল সাইটম্যাপস এক্সএমএল ভ্যালিডেটর
  • এক্সএমএল সাইটম্যাপ জেনারেটর
  • এক্সএমএল-সাইটম্যাপ জেনারেটর

সংহত সাইটম্যাপ জেনারেটর সহ সিএমএস

  • কংক্রিট 5

গুগল নিউজ সাইটম্যাপ জেনারেটর নিম্নলিখিত প্লাগইনগুলি প্রকাশকদের গুগল নিউজ সাইটম্যাপ ফাইলগুলি আপডেট করতে অনুমতি দেয়, সাইটম্যাপস.org প্রোটোকলের একটি রূপ যা আমরা আমাদের সহায়তা কেন্দ্রে বর্ণনা করি। সাইটম্যাপ ফাইলগুলির সাধারণ বৈশিষ্ট্যগুলি ছাড়াও, গুগল নিউজ সাইটম্যাপগুলি প্রকাশকদের পৃথক নিবন্ধের অ্যাক্সেসের স্তর নির্দিষ্টকরণের পাশাপাশি প্রকাশিত সামগ্রীর প্রকারের বর্ণনা দিতে দেয়। গুগল নিউজ সম্পর্কে আরও তথ্য আমাদের সহায়তা কেন্দ্র এবং সহায়তা ফোরামে পাওয়া যাবে।

  • ওয়ার্ডপ্রেস গুগল নিউজ প্লাগইন

কোড স্নিপেটস / লাইব্রেরি

  • এএসপি স্ক্রিপ্ট
  • ইমাস লিস্প স্ক্রিপ্ট
  • জাভা গ্রন্থাগার
  • পার্ল লিপি
  • পিএইচপি ক্লাস
  • পিএইচপি জেনারেটর স্ক্রিপ্ট

যদি আপনি বিশ্বাস করেন যে কোনও সরঞ্জাম যুক্তিসঙ্গত কারণে যুক্ত করা বা অপসারণ করা উচিত, দয়া করে ওয়েবমাস্টার সহায়তা ফোরামে একটি মন্তব্য দিন।


এমন কি কেউ আছেন যে সমস্ত url থেকে একটি প্রিন্টস্ক্রিন সরবরাহ করেন?
ভ্যালরব

6

আমি যা খুঁজে পেয়েছি তার মধ্যে সেরাটি হ'ল http://www.auditmypc.com/xML-sitemap.asp যা জাভা ব্যবহার করে, এবং পৃষ্ঠাগুলির কোনও সীমাবদ্ধতা নেই, এমনকি আপনাকে কাঁচা ইউআরএল তালিকা হিসাবে ফলাফলগুলি রফতানি করতে দেয়।

এটি সেশনগুলিও ব্যবহার করে, সুতরাং আপনি যদি কোনও সিএমএস ব্যবহার করেন তবে নিশ্চিত হন যে আপনি ক্রল চালানোর আগে লগ আউট করেছেন।


4
ভাল লাগছিল, তবে এটি ভেঙে গেছে
NoobishPro

2

সুতরাং, একটি আদর্শ বিশ্বে আপনার সাইটের সমস্ত পৃষ্ঠাগুলির জন্য একটি বিশদ থাকতে হবে। আপনার কাছে এমন একটি পরীক্ষামূলক অবকাঠামোও রয়েছে যা আপনার সমস্ত পৃষ্ঠাগুলি পরীক্ষা করার জন্য আঘাত করতে পারে।

আপনি সম্ভবত একটি আদর্শ বিশ্বে নন। কেন এই না ...?

  1. পরিচিত পুরাতন ইউআরএল এবং নতুনগুলির মধ্যে একটি ম্যাপিং তৈরি করুন। আপনি কোনও পুরানো ইউআরএল দেখলে পুনঃনির্দেশ করুন। আমি সম্ভবত একটি "এই পৃষ্ঠাটি সরিয়ে নিয়েছে, এটি নতুন ইউআরএল এক্সএক্সএক্স, আপনাকে শীঘ্রই পুনঃনির্দেশিত করা হবে" উপস্থাপনের বিষয়টি বিবেচনা করব।

  2. যদি আপনার কোনও ম্যাপিং না থাকে তবে একটি "দুঃখিত - এই পৃষ্ঠাটি সরানো হয়েছে উপস্থাপন করুন the হোমপৃষ্ঠায় একটি লিঙ্ক এখানে" বার্তাটি দিন এবং যদি আপনি চান তবে সেগুলি পুনর্নির্দেশ করুন।

  3. সমস্ত পুনঃনির্দেশগুলি লগ করুন - বিশেষত কোনও ম্যাপিং নেই। সময়ের সাথে সাথে, গুরুত্বপূর্ণ যে পৃষ্ঠাগুলির জন্য ম্যাপিংগুলি যুক্ত করুন।


2

লিনাক্স বাক্স থেকে উইজেটও একটি ভাল বিকল্প হতে পারে কারণ মাকড়সার জন্য সুইচ রয়েছে এবং এর আউটপুট পরিবর্তন করতে পারে।

সম্পাদনা: উইজেট উইন্ডোজেও উপলব্ধ: http://gnuwin32.sourceforge.net/packages/wget.htm


0

ডিস্ক থেকে প্রতিটি এইচটিএমএল পড়ার জন্য একটি মাকড়সা লিখুন এবং "a" উপাদানটির প্রতিটি "href" বৈশিষ্ট্য আউটপুট করে (পার্সার দিয়ে করা যেতে পারে)। কোন লিঙ্কগুলি কোনও নির্দিষ্ট পৃষ্ঠার সাথে সম্পর্কিত তা মনে রাখবেন (এটি একটি মাল্টিম্যাপ ডেটাস্ট্রাক্টরের পক্ষে সাধারণ কাজ)। এর পরে আপনি একটি ম্যাপিং ফাইল তৈরি করতে পারেন যা 404 হ্যান্ডলারের ইনপুট হিসাবে কাজ করে।


0

আমি যে কোনও অনলাইন সাইটম্যাপ প্রজন্মের সরঞ্জামগুলিতে সন্ধান করব। ব্যক্তিগতভাবে, আমি অতীতে এটির একটি (জাভা ভিত্তিক) ব্যবহার করেছি তবে আপনি যদি "সাইটম্যাপ নির্মাতা" এর জন্য গুগল অনুসন্ধান করেন তবে আমি নিশ্চিত যে আপনি প্রচুর বিভিন্ন বিকল্প পাবেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.