উইজেট সংবাদ ওয়েবসাইটের ক্রলিং অনুসন্ধান ফলাফল

আমি উইজেট ব্যবহার করে একটি নিউজ ওয়েবসাইটের অনুসন্ধান ফলাফলগুলি ক্রল করার চেষ্টা করছি ।

ওয়েবসাইটটির নাম www.voanews.com ।

আমার অনুসন্ধান কীওয়ার্ড টাইপ করার পরে এবং অনুসন্ধানে ক্লিক করার পরে , এটি ফলাফলের দিকে এগিয়ে যায়। তারপরে আমি একটি "থেকে" এবং "" থেকে "তারিখটি নির্দিষ্ট করতে পারি এবং আবার অনুসন্ধান অনুসন্ধান করতে পারি।

এর পরে ইউআরএল হয়ে যায়:

http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article

এবং ফলাফলগুলির আসল সামগ্রীটি আমি ডাউনলোড করতে চাই।

এটি অর্জনের জন্য আমি নিম্নলিখিত উইজেট-কমান্ডটি তৈরি করেছি:

wget --reject=js,txt,gif,jpeg,jpg \
     --accept=html \
     --user-agent=My-Browser \
     --recursive --level=2 \
     www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article

দুর্ভাগ্যক্রমে, ক্রলার অনুসন্ধান ফলাফলগুলি ডাউনলোড করে না। এটি কেবল উপরের লিঙ্ক বারে প্রবেশ করে, এতে "হোম, মার্কিন যুক্তরাষ্ট্র, আফ্রিকা, এশিয়া, ..." লিঙ্ক রয়েছে এবং তাদের লিঙ্ক করা নিবন্ধগুলি সংরক্ষণ করে।

দেখে মনে হচ্ছে তিনি ক্রলারের অনুসন্ধান ফলাফলের লিঙ্কগুলি একেবারেই পরীক্ষা করেন না ।

আমি কী ভুল করছি এবং ফলাফল অনুসন্ধান তালিকার লিঙ্কগুলি (এবং অবশ্যই তারা যে সাইটগুলিতে লিঙ্ক করেছেন) ডাউনলোড করতে আমি কীভাবে উইজেট কমান্ডটি সংশোধন করতে পারি?

download search wget

— kiltek
সূত্র

এটি প্রতি সেউ উত্তর নয় ... তবে স্ট্যান্ডার্ড ব্যবহার করছে:

wget.exe -o logfile -r -l 2 http://www.voanews.com/search/?st=article&k=german&df=11%2F01%2F2013&dt=11%2F03%2F2013&ob=dt#article

সমস্ত পৃষ্ঠা ক্রল করে (এবং আরও কিছু)। আমি ব্যবহারকারীর এজেন্টের ধারা ~~এবং একটি -npপিতামাতার ডিরেক্টরি বর্জন করব।~~

একটি ব্যক্তিগত নোটে ... একটি একক অনুসন্ধানে প্রচুর লিঙ্ক রয়েছে (যেমন ট্যাগগুলি) যাতে আপনি স্ট্যান্ডার্ড পুনরাবৃত্তি সহ বেশ কয়েকটি গোলমাল পাবেন।

— ডোক্টোরো রিচার্ড
সূত্র

আপনি প্রকৃত নিবন্ধগুলি www.voanews.com / কন্টেন্ট / ডিরেক্টরিতে সঞ্চিত আছে কারণ অনুসন্ধান ফলাফলের সাইটের একটি পিতামত ডিরেক্টরি You আপনার উইজেটের একমাত্র পার্থক্য হ'ল আপনি লগফিল ব্যবহার করেন, কোনও ব্যবহারকারী-এজেন্ট নির্দিষ্ট না করে এবং যথাক্রমে ধারাটি প্রত্যাখ্যান করেন না। আমি মনে করি না যে এটি অনুসন্ধানের ফলাফলের লিঙ্কগুলিতে এগিয়ে যায় ...

— কিলটেক

আমি এটিকে মূলত এড়িয়ে গিয়েছিলাম কারণ উইন্ডোজে আমার সেই বিকল্পটি নিয়ে কিছু সমস্যা ছিল ... যে কোনও হারে এই আদেশটি আমাকে অনুসন্ধানের ফলাফলগুলিকে ক্রল করতে পরিচালিত করে, যদিও এটি তার সাথে সবকিছু নিয়েছিল। আমার ধারণা হ'ল এটি আপনি যেমন লিখেছেন ঠিক তেমন কাজ করবে, যদি আপনি ব্যবহারকারী এজেন্টকে বাইরে নেন।

— ডোক্টোরো রিচার্ড

এটি এখনও "হোম, ইউএসএ, আফ্রিকা, এশিয়া, ..." - নেভিগেশন বারের লিঙ্কগুলি (এবং তাদের সামগ্রীগুলি) ডাউনলোড করে। আমার ধারণা, এই ফলাফলগুলি পেতে আমাকে পাইথন স্ক্রিপ্ট লিখতে হবে।

— কিলটেক