আমি উইজেট ব্যবহার করে একটি নিউজ ওয়েবসাইটের অনুসন্ধান ফলাফলগুলি ক্রল করার চেষ্টা করছি ।
ওয়েবসাইটটির নাম www.voanews.com ।
আমার অনুসন্ধান কীওয়ার্ড টাইপ করার পরে এবং অনুসন্ধানে ক্লিক করার পরে , এটি ফলাফলের দিকে এগিয়ে যায়। তারপরে আমি একটি "থেকে" এবং "" থেকে "তারিখটি নির্দিষ্ট করতে পারি এবং আবার অনুসন্ধান অনুসন্ধান করতে পারি।
এর পরে ইউআরএল হয়ে যায়:
http://www.voanews.com/search/?st=article&k=mykeyword&df=10%2F01%2F2013&dt=09%2F20%2F2013&ob=dt#article
এবং ফলাফলগুলির আসল সামগ্রীটি আমি ডাউনলোড করতে চাই।
এটি অর্জনের জন্য আমি নিম্নলিখিত উইজেট-কমান্ডটি তৈরি করেছি:
wget --reject=js,txt,gif,jpeg,jpg \
--accept=html \
--user-agent=My-Browser \
--recursive --level=2 \
www.voanews.com/search/?st=article&k=germany&df=08%2F21%2F2013&dt=09%2F20%2F2013&ob=dt#article
দুর্ভাগ্যক্রমে, ক্রলার অনুসন্ধান ফলাফলগুলি ডাউনলোড করে না। এটি কেবল উপরের লিঙ্ক বারে প্রবেশ করে, এতে "হোম, মার্কিন যুক্তরাষ্ট্র, আফ্রিকা, এশিয়া, ..." লিঙ্ক রয়েছে এবং তাদের লিঙ্ক করা নিবন্ধগুলি সংরক্ষণ করে।
দেখে মনে হচ্ছে তিনি ক্রলারের অনুসন্ধান ফলাফলের লিঙ্কগুলি একেবারেই পরীক্ষা করেন না ।
আমি কী ভুল করছি এবং ফলাফল অনুসন্ধান তালিকার লিঙ্কগুলি (এবং অবশ্যই তারা যে সাইটগুলিতে লিঙ্ক করেছেন) ডাউনলোড করতে আমি কীভাবে উইজেট কমান্ডটি সংশোধন করতে পারি?