উইজেট সংবাদ ওয়েবসাইটের ক্রলিং অনুসন্ধান ফলাফল


1

আমি উইজেট ব্যবহার করে একটি নিউজ ওয়েবসাইটের অনুসন্ধান ফলাফলগুলি ক্রল করার চেষ্টা করছি ।

ওয়েবসাইটটির নাম www.voanews.com

আমার অনুসন্ধান কীওয়ার্ড টাইপ করার পরে এবং অনুসন্ধানে ক্লিক করার পরে , এটি ফলাফলের দিকে এগিয়ে যায়। তারপরে আমি একটি "থেকে" এবং "" থেকে "তারিখটি নির্দিষ্ট করতে পারি এবং আবার অনুসন্ধান অনুসন্ধান করতে পারি।

এর পরে ইউআরএল হয়ে যায়:

http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article

এবং ফলাফলগুলির আসল সামগ্রীটি আমি ডাউনলোড করতে চাই।

এটি অর্জনের জন্য আমি নিম্নলিখিত উইজেট-কমান্ডটি তৈরি করেছি:

wget --reject=js,txt,gif,jpeg,jpg \
     --accept=html \
     --user-agent=My-Browser \
     --recursive --level=2 \
     www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article

দুর্ভাগ্যক্রমে, ক্রলার অনুসন্ধান ফলাফলগুলি ডাউনলোড করে না। এটি কেবল উপরের লিঙ্ক বারে প্রবেশ করে, এতে "হোম, মার্কিন যুক্তরাষ্ট্র, আফ্রিকা, এশিয়া, ..." লিঙ্ক রয়েছে এবং তাদের লিঙ্ক করা নিবন্ধগুলি সংরক্ষণ করে।

দেখে মনে হচ্ছে তিনি ক্রলারের অনুসন্ধান ফলাফলের লিঙ্কগুলি একেবারেই পরীক্ষা করেন না

আমি কী ভুল করছি এবং ফলাফল অনুসন্ধান তালিকার লিঙ্কগুলি (এবং অবশ্যই তারা যে সাইটগুলিতে লিঙ্ক করেছেন) ডাউনলোড করতে আমি কীভাবে উইজেট কমান্ডটি সংশোধন করতে পারি?

উত্তর:


0

এটি প্রতি সেউ উত্তর নয় ... তবে স্ট্যান্ডার্ড ব্যবহার করছে:

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

সমস্ত পৃষ্ঠা ক্রল করে (এবং আরও কিছু)। আমি ব্যবহারকারীর এজেন্টের ধারা এবং একটি -npপিতামাতার ডিরেক্টরি বর্জন করব।

একটি ব্যক্তিগত নোটে ... একটি একক অনুসন্ধানে প্রচুর লিঙ্ক রয়েছে (যেমন ট্যাগগুলি) যাতে আপনি স্ট্যান্ডার্ড পুনরাবৃত্তি সহ বেশ কয়েকটি গোলমাল পাবেন।


আপনি প্রকৃত নিবন্ধগুলি www.voanews.com / কন্টেন্ট / ডিরেক্টরিতে সঞ্চিত আছে কারণ অনুসন্ধান ফলাফলের সাইটের একটি পিতামত ডিরেক্টরি You আপনার উইজেটের একমাত্র পার্থক্য হ'ল আপনি লগফিল ব্যবহার করেন, কোনও ব্যবহারকারী-এজেন্ট নির্দিষ্ট না করে এবং যথাক্রমে ধারাটি প্রত্যাখ্যান করেন না। আমি মনে করি না যে এটি অনুসন্ধানের ফলাফলের লিঙ্কগুলিতে এগিয়ে যায় ...
কিলটেক

আমি এটিকে মূলত এড়িয়ে গিয়েছিলাম কারণ উইন্ডোজে আমার সেই বিকল্পটি নিয়ে কিছু সমস্যা ছিল ... যে কোনও হারে এই আদেশটি আমাকে অনুসন্ধানের ফলাফলগুলিকে ক্রল করতে পরিচালিত করে, যদিও এটি তার সাথে সবকিছু নিয়েছিল। আমার ধারণা হ'ল এটি আপনি যেমন লিখেছেন ঠিক তেমন কাজ করবে, যদি আপনি ব্যবহারকারী এজেন্টকে বাইরে নেন।
ডোক্টোরো রিচার্ড

এটি এখনও "হোম, ইউএসএ, আফ্রিকা, এশিয়া, ..." - নেভিগেশন বারের লিঙ্কগুলি (এবং তাদের সামগ্রীগুলি) ডাউনলোড করে। আমার ধারণা, এই ফলাফলগুলি পেতে আমাকে পাইথন স্ক্রিপ্ট লিখতে হবে।
কিলটেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.