আমি সম্প্রতি পাইথন শিখছি এবং একটি ওয়েব-স্ক্র্যাপার তৈরিতে আমার হাত ডুবিয়ে দিচ্ছি। এটা মোটেই অভিনব কিছু নয়; এর একমাত্র উদ্দেশ্য হ'ল কোনও পণ ওয়েবসাইট থেকে ডেটা বন্ধ করা এবং এই ডেটাটি এক্সেলে রাখা।
বেশিরভাগ সমস্যা সমাধানযোগ্য এবং আমার চারপাশে খুব ভাল গণ্ডগোল হচ্ছে। তবে আমি একটি ইস্যুতে একটি বিশাল বাধা পেয়েছি। কোনও সাইট যদি ঘোড়ার একটি টেবিল লোড করে এবং বর্তমান বাজি দামগুলি তালিকা করে তবে এই তথ্য কোনও উত্স ফাইলে নেই। ক্লুটি হ'ল এই ডেটা কখনও কখনও লাইভ হয়, কিছু দূরবর্তী সার্ভার থেকে সংখ্যাগুলি স্পষ্টতই আপডেট হয়। আমার পিসির এইচটিএমএলটিতে কেবল একটি গর্ত রয়েছে যেখানে তাদের সার্ভারগুলি আমার প্রয়োজনীয় সমস্ত আকর্ষণীয় ডেটা দিয়ে চাপ দিচ্ছে।
ডায়নামিক ওয়েব সামগ্রীর সাথে আমার অভিজ্ঞতা এখন কম, সুতরাং এই জিনিসটি এমন কিছু যা আমার মাথা ঘিরে ধরে having
আমি মনে করি জাভা বা জাভাস্ক্রিপ্ট একটি কী, এটি প্রায়শই পপ আপ হয়।
স্ক্র্যাপারটি কেবল একটি বিজোড় তুলনা ইঞ্জিন। কিছু সাইটের এপিআই রয়েছে তবে তাদের জন্য আমার এটি দরকার। আমি পাইথন ২.7 দিয়ে স্কেরাপি গ্রন্থাগারটি ব্যবহার করছি
যদি এই প্রশ্নটি খুব উন্মুক্ত হয় তবে আমি ক্ষমা চাইছি। সংক্ষেপে, আমার প্রশ্ন: স্ক্রেরি কীভাবে এই গতিশীল ডেটা স্ক্র্যাপ করতে ব্যবহার করা যায় যাতে আমি এটি ব্যবহার করতে পারি? যাতে আমি রিয়েল-টাইমে এই পণের প্রতিকূলতার ডেটা স্ক্র্যাপ করতে পারি?
Firefoxএক্সটেনশান ব্যবহার করে দেখুন httpFoxবা liveHttpHeadersএমন একটি পৃষ্ঠা লোড করুন যা এজ্যাক্স অনুরোধ ব্যবহার করছে। স্কেরাপি স্বয়ংক্রিয়ভাবে এজাক্স অনুরোধগুলি সনাক্ত করে না, আপনাকে যথাযথ এজাক্স ইউআরএলটি ম্যানুয়ালি অনুসন্ধান করতে হবে এবং তারপরে অনুরোধ জানাতে হবে।







