আমি সম্প্রতি পাইথন শিখছি এবং একটি ওয়েব-স্ক্র্যাপার তৈরিতে আমার হাত ডুবিয়ে দিচ্ছি। এটা মোটেই অভিনব কিছু নয়; এর একমাত্র উদ্দেশ্য হ'ল কোনও পণ ওয়েবসাইট থেকে ডেটা বন্ধ করা এবং এই ডেটাটি এক্সেলে রাখা।
বেশিরভাগ সমস্যা সমাধানযোগ্য এবং আমার চারপাশে খুব ভাল গণ্ডগোল হচ্ছে। তবে আমি একটি ইস্যুতে একটি বিশাল বাধা পেয়েছি। কোনও সাইট যদি ঘোড়ার একটি টেবিল লোড করে এবং বর্তমান বাজি দামগুলি তালিকা করে তবে এই তথ্য কোনও উত্স ফাইলে নেই। ক্লুটি হ'ল এই ডেটা কখনও কখনও লাইভ হয়, কিছু দূরবর্তী সার্ভার থেকে সংখ্যাগুলি স্পষ্টতই আপডেট হয়। আমার পিসির এইচটিএমএলটিতে কেবল একটি গর্ত রয়েছে যেখানে তাদের সার্ভারগুলি আমার প্রয়োজনীয় সমস্ত আকর্ষণীয় ডেটা দিয়ে চাপ দিচ্ছে।
ডায়নামিক ওয়েব সামগ্রীর সাথে আমার অভিজ্ঞতা এখন কম, সুতরাং এই জিনিসটি এমন কিছু যা আমার মাথা ঘিরে ধরে having
আমি মনে করি জাভা বা জাভাস্ক্রিপ্ট একটি কী, এটি প্রায়শই পপ আপ হয়।
স্ক্র্যাপারটি কেবল একটি বিজোড় তুলনা ইঞ্জিন। কিছু সাইটের এপিআই রয়েছে তবে তাদের জন্য আমার এটি দরকার। আমি পাইথন ২.7 দিয়ে স্কেরাপি গ্রন্থাগারটি ব্যবহার করছি
যদি এই প্রশ্নটি খুব উন্মুক্ত হয় তবে আমি ক্ষমা চাইছি। সংক্ষেপে, আমার প্রশ্ন: স্ক্রেরি কীভাবে এই গতিশীল ডেটা স্ক্র্যাপ করতে ব্যবহার করা যায় যাতে আমি এটি ব্যবহার করতে পারি? যাতে আমি রিয়েল-টাইমে এই পণের প্রতিকূলতার ডেটা স্ক্র্যাপ করতে পারি?
Firefox
এক্সটেনশান ব্যবহার করে দেখুন httpFox
বা liveHttpHeaders
এমন একটি পৃষ্ঠা লোড করুন যা এজ্যাক্স অনুরোধ ব্যবহার করছে। স্কেরাপি স্বয়ংক্রিয়ভাবে এজাক্স অনুরোধগুলি সনাক্ত করে না, আপনাকে যথাযথ এজাক্স ইউআরএলটি ম্যানুয়ালি অনুসন্ধান করতে হবে এবং তারপরে অনুরোধ জানাতে হবে।