প্রশ্ন ট্যাগ «web-crawler»

5
ওয়েব পৃষ্ঠাগুলিকে ইবুকের জন্য একটি ফাইলে রূপান্তর করুন
আমি এইচটিএমএল ডাউনলোড করতে চাই (উদাহরণ: http://www.brpreiss.com/books/opus6/ ) এবং এটি একটি HTML বা অন্য কোনও ফর্ম্যাটে যোগ করতে চাই যা আমি ইবুক রিডারটিতে ব্যবহার করতে পারি। ফ্রি বই সহ সাইটগুলিতে স্ট্যান্ডার্ড পেজিং নেই, সেগুলি ব্লগ বা ফোরাম নয়, তাই কীভাবে কিছু স্বয়ংক্রিয় ক্রলিং এবং মার্জ করবেন তা জানেন না।


2
কেবলমাত্র এইচটিএমএল ফাইল ডাউনলোড করতে উইজেট ব্যবহার করে কীভাবে ক্রল করবেন (চিত্র, সিএসএস, জেএস উপেক্ষা করুন)
মূলত, আমি উইজেটের সাথে একটি সম্পূর্ণ সাইট ক্রল করতে চাই, তবে অন্যান্য সম্পদগুলি (যেমন চিত্র, সিএসএস, জেএস, ইত্যাদি) ডাউনলোড করার দরকার নেই। আমি কেবল এইচটিএমএল ফাইল চাই। গুগল অনুসন্ধানগুলি সম্পূর্ণ অকেজো। আমি চেষ্টা করেছি এমন একটি আদেশ এখানে: wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; …
14 wget  web-crawler 

4
পুনরাবৃত্তভাবে কোনও সাইট ক্রল করতে এবং চিত্রগুলি ডাউনলোড করতে উইজেট ব্যবহার করে
আপনি কীভাবে কোনও ওয়েবসাইটকে ক্রমাগত ক্রল করতে এবং নির্দিষ্ট ধরণের চিত্রগুলি ডাউনলোড করতে বাজেটকে নির্দেশ দেন? আমি এটি কোনও সাইট ক্রল করার জন্য এবং কেবল জেপিগ চিত্রগুলি ডাউনলোড করতে চেষ্টা করেছি: wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html তবে, যদিও পেজ 1 এইচটিএমএলতে সাবপেজগুলিতে কয়েকশ লিঙ্ক রয়েছে, যার নিজস্ব …

4
সিআরএল ব্যবহার করে সাইট-স্ক্র্যাপিং কীভাবে "আইনী"? [বন্ধ]
যেমনটি বর্তমানে দাঁড়িয়ে আছে, এই প্রশ্নটি আমাদের প্রশ্নোত্তর বিন্যাসের জন্য উপযুক্ত নয়। আমরা উত্তরগুলি তথ্য, তথ্যসূত্র বা দক্ষতার দ্বারা সমর্থন করা আশা করি তবে এই প্রশ্নটি সম্ভবত বিতর্ক, যুক্তি, পোলিং বা বর্ধিত আলোচনার জন্য অনুরোধ করবে। আপনি যদি মনে করেন যে এই প্রশ্নটি উন্নত হতে পারে এবং সম্ভবত পুনরায় খোলা …

1
wgt আমি চাই ইমেজ ছাড়া সব ফাইল ডাউনলোড
আমি গ্যালারি থেকে ছবি ডাউনলোড করতে wget ব্যবহার করে সমস্যা আছে। শুরু হিসাবে আমি overwiew পৃষ্ঠা ব্যবহার করুন। এটি বড় ইমেজ সঙ্গে পৃথক পেজ লিঙ্ক যে অঙ্গুষ্ঠ আছে। আমি ব্যবহার স্ক্রিপ্ট এখানে: wget --recursive --accept=jpg,jpeg,html,htm -p --level=2 http://www.site.com/page/page/number.htm যখন আমি এই স্ক্রিপ্টটি চালাও, থাম্ব এবং ব্যক্তিগত চিত্রের সমস্ত ফাইল ডাউনলোড …

1
আমি কীভাবে কোনও সাইট থেকে পাঠ্য স্ক্র্যাপ করব? [বন্ধ]
স্কিমার বন্ধ হয়ে যাচ্ছে, এবং আমি পাঠ্যটি সংরক্ষণের চেষ্টা করছি কারণ সাইটে অনেকগুলি ভাল ধারণা রয়েছে। আমি সাইটম্যাপে তালিকাভুক্ত প্রতিটি লিঙ্কের মধ্যে থেকেই পাঠ্যটি পেতে চাই । আমি কি এটি করার কোন উপায় আছে? HTTrack কীভাবে আমার এটি পছন্দ করবে তা কাজ করছে না।

1
ওয়েবসাইট স্ক্যান করুন এবং মানচিত্র করুন এবং সেগুলিতে "নির্দিষ্ট-স্ট্রিং" থাকা সমস্ত লিঙ্ক লগ করুন
এমন কোনও সরঞ্জাম আছে যা কোনও ওয়েবসাইট স্ক্যান করে এবং সমস্ত লিঙ্কগুলিতে একটি বিশেষ স্ট্রিং রয়েছে এমন লগ করতে পারে? আমি টেলিপোর্ট প্রো দেখতে পাচ্ছি , তবে মনে হচ্ছে এটি সাইটের অনুলিপি তৈরি করে, তবে আমার কেবল লিঙ্কগুলি দরকার।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.