আমি এমন একটি ওয়েবসাইট তৈরি করতে চাই যা আমাজন এবং ই-বে পণ্যর দামের মধ্যে তুলনা দেখায়। এর মধ্যে কোনটি আরও ভাল কাজ করবে এবং কেন? আমি বিউটিফুলসুপের সাথে কিছুটা পরিচিত তবে স্কেরাপি ক্রলারের সাথে তেমন কিছু নেই ।
আমি এমন একটি ওয়েবসাইট তৈরি করতে চাই যা আমাজন এবং ই-বে পণ্যর দামের মধ্যে তুলনা দেখায়। এর মধ্যে কোনটি আরও ভাল কাজ করবে এবং কেন? আমি বিউটিফুলসুপের সাথে কিছুটা পরিচিত তবে স্কেরাপি ক্রলারের সাথে তেমন কিছু নেই ।
উত্তর:
স্কেরাপি একটি ওয়েব-স্পাইডার বা ওয়েব স্ক্র্যাপার কাঠামো , আপনি স্ক্রাপিকে ক্রলিং শুরু করার জন্য একটি মূল ইউআরএল দেন, তারপরে আপনি কতগুলি (সংখ্যা) ইউআরএল ক্রল করতে এবং আনতে চান তার সীমাবদ্ধতা নির্দিষ্ট করতে পারেন। এটি ওয়েব-স্ক্র্যাপিং বা ক্রলিংয়ের জন্য একটি সম্পূর্ণ কাঠামো ।
যদিও
বিউটিফুলসপ একটি পার্সিং লাইব্রেরি যা ইউআরএল থেকে সামগ্রী আনতে খুব ভাল কাজ করে এবং আপনাকে কোনও ঝামেলা ছাড়াই সেগুলির কিছু অংশ পার্স করতে দেয়। এটি কেবলমাত্র আপনার দেওয়া URL এর সামগ্রীগুলি আনে এবং তারপরে বন্ধ হয়ে যায়। আপনি ম্যানুয়ালি নির্দিষ্ট মানদণ্ড সহ অসীম লুপের ভিতরে না রাখলে এটি ক্রল হয় না।
সহজ কথায়, বিউটিফুল স্যুপ দিয়ে আপনি স্কেরাপির মতো কিছু তৈরি করতে পারেন। বিউটিফুল স্যুপ একটি লাইব্রেরি যেখানে স্কেরাপি একটি সম্পূর্ণ কাঠামো ।
আমি মনে করি উভয়ই ভাল ... আমি এখনই একটি প্রকল্প করছি যা উভয়ই ব্যবহার করে। প্রথমে আমি সমস্ত পৃষ্ঠাগুলি স্কেরাপি ব্যবহার করে স্ক্র্যাপ করি এবং সেগুলির পাইপলাইন ব্যবহার করে একটি মঙ্গোদব সংগ্রহের মধ্যে সংরক্ষণ করি এবং পৃষ্ঠায় বিদ্যমান চিত্রগুলি ডাউনলোড করে। এর পরে আমি একটি পোস্ট-প্রসেসিং তৈরি করতে বিউটিউলসৌপ 4 ব্যবহার করি যেখানে আমার অবশ্যই গুণাবলী মানগুলি পরিবর্তন করতে হবে এবং কিছু বিশেষ ট্যাগ পেতে পারি।
আপনি কোন পৃষ্ঠাগুলির পণ্যগুলি চান তা যদি না জানেন তবে একটি ভাল সরঞ্জাম হ'ল চিকিত্সা হবে কারণ আপনি লুপের জন্য স্পষ্ট না করে পণ্যগুলির সন্ধানে সমস্ত অ্যামাজন / ইবে ওয়েবসাইট চালাতে তাদের ক্রলারগুলি ব্যবহার করতে পারেন।
স্কেরাপির ডকুমেন্টেশনগুলি একবার দেখুন, এটি ব্যবহার করা খুব সহজ।
উভয়ই ডেটা পার্স করতে ব্যবহার করছে।
থেরাপি :
বিউটিউসসপ :
বিউটিফুল স্যুপ হ'ল এইচটিএমএল এবং এক্সএমএল ফাইলগুলির বাইরে ডেটা টানানোর জন্য পাইথন লাইব্রেরি।
আমরা এই প্যাকেজটি জাভা স্ক্রিপ্ট থেকে ডেটা পেতে বা গতিশীল পাতাগুলি লোড করার জন্য ব্যবহার করতে পারি।
স্ট্যাটিক এবং গতিশীল বিষয়বস্তুগুলি স্ক্র্যাপ করার জন্য আমরা কাজ করতে পারি এমন একটি সেরা কম্বো হ'ল বিউটিফুলসুপের সাথে স্কেরাপি
আমি যেভাবে এটি করি তা হ'ল স্ক্রাপির পরিবর্তে ইবে / অ্যামাজন এপিআই ব্যবহার করা এবং তারপরে বিউটিফুলসুপ ব্যবহার করে ফলাফলগুলি পার্স করা।
আপনার পরিচয় গোপন করা, প্রক্সিগুলির সাথে জগাখিচুড়ি ইত্যাদির বিষয়ে উদ্বিগ্ন হওয়া নিয়ে কোনও চিন্তা করার দরকার নেই, এপিআইগুলি আপনাকে স্ক্র্যাপি ক্রলারের কাছ থেকে পাওয়া একই ডেটা পাওয়ার আনুষ্ঠানিক উপায় দেয়।
স্কেরাপি এটি একটি ওয়েব স্ক্র্যাপিং ফ্রেমওয়ার্ক যা অনেকগুলি গুডি নিয়ে আসে যা সহজেই স্ক্র্যাপিংকে সহজ করে দেয় যাতে আমরা কেবল ক্রলিংয়ের যুক্তিতে ফোকাস করতে পারি। আমার পছন্দের কয়েকটি জিনিস থেরাপি আমাদের যত্ন নেয় নিচে রয়েছে।
প্রক্সি, ব্যবহারকারী এজেন্ট, শিরোলেখ ইত্যাদি সেট করা: স্কেরাপি আমাদের প্রক্সি এবং অন্যান্য শিরোনামকে গতিশীলভাবে সেট এবং ঘোরাতে দেয়।
আইটেম পাইপলাইনস : পাইপলাইনগুলি নিষ্কাশনের পরে ডেটা প্রক্রিয়া করতে আমাদের সক্ষম করে। উদাহরণস্বরূপ আমরা আপনার মাইএসকিএল সার্ভারে ডেটা ধাক্কা দিতে পাইপলাইনটি কনফিগার করতে পারি।
কুকিজ: স্কেরাপি আমাদের জন্য স্বয়ংক্রিয়ভাবে কুকিজ পরিচালনা করে।
প্রভৃতি
টিএলডিআর: স্কেরাপি এমন একটি কাঠামো যা এমন সমস্ত কিছু সরবরাহ করে যা বড় আকারের ক্রলগুলি তৈরি করতে প্রয়োজন হতে পারে। এটি বিভিন্ন বৈশিষ্ট্য সরবরাহ করে যা ওয়েবগুলিকে ক্রল করার জটিলতা আড়াল করে। সেটআপ বোঝা নিয়ে চিন্তা না করেই কেবল ওয়েব ক্রলারগুলি লেখা শুরু করা যায়।
বিউটিফুল স্যুপ বিউটিফুল স্যুপ এইচটিএমএল এবং এক্সএমএল ডকুমেন্টগুলি পার্স করার জন্য একটি পাইথন প্যাকেজ। বিউটিফুল স্যুপ দিয়ে আপনি ইতিমধ্যে ডাউনলোড করা ওয়েবপৃষ্ঠাটি পার্স করতে পারেন। BS4 খুব জনপ্রিয় এবং পুরানো। থেরাপির বিপরীতে, আপনি কেবল ক্রলার তৈরি করতে সুন্দর স্যুপ ব্যবহার করতে পারবেন না । বিএস 4 দিয়ে ক্রোলার তৈরি করতে আপনার অন্যান্য গ্রন্থাগারগুলির অনুরোধ হবে যেমন অনুরোধ, urllib ইত্যাদি। আবার, এর অর্থ হ'ল আপনার url গুলির ক্রল হওয়া, ক্রল হওয়া, কুকিজ পরিচালনা করা, প্রক্সি পরিচালনা করা, ত্রুটিগুলি পরিচালনা করা, সিএসভি, জেএসএন, এক্সএমএল ইত্যাদিতে ডেটা ঠেকাতে আপনার নিজস্ব ক্রিয়াকলাপ তৈরি করা দরকার যদি আপনি গতি বাড়িয়ে নিতে চান মাল্টিপ্রসেসিংয়ের মতো আপনাকে অন্যান্য লাইব্রেরি ব্যবহার করতে হবে তার চেয়ে বেশি ।
যোগফল।
স্কেরাপি একটি সমৃদ্ধ কাঠামো যা আপনি কোনও ঝামেলা ছাড়াই ক্রলারের লেখা শুরু করতে ব্যবহার করতে পারেন।
সুন্দর স্যুপ একটি লাইব্রেরি যা আপনি কোনও ওয়েবপৃষ্ঠা বিশ্লেষণ করতে ব্যবহার করতে পারেন। এটি ওয়েব স্ক্র্যাপ করতে একা ব্যবহৃত হতে পারে না।
আপনার অ্যামাজন এবং ই-বে পণ্য মূল্য তুলনা ওয়েবসাইটের জন্য অবশ্যই আপনার অবশ্যই স্কেরিপি ব্যবহার করা উচিত। আপনি ইউআরএলগুলির একটি ডেটাবেস তৈরি করতে এবং ক্রোলারটি প্রতিদিন চালাতে পারেন (ক্রোন জবস, ক্রোলিংয়ের সময়সূচীর জন্য সেলারি) এবং আপনার ডাটাবেসে দাম আপডেট করতে পারেন your এইভাবে আপনার ওয়েবসাইটটি সর্বদা ডাটাবেস থেকে টানবে এবং ক্রলার এবং ডাটাবেস পৃথক উপাদান হিসাবে কাজ করবে।
বিউটিফুলসপ একটি লাইব্রেরি যা আপনাকে একটি ওয়েব পৃষ্ঠা থেকে তথ্য বের করতে দেয়।
অন্যদিকে স্কেরাপি হ'ল একটি কাঠামো, যা উপরের কাজটি করে এবং ডেটা সংরক্ষণের জন্য পাইপলাইনের মতো আপনার স্ক্র্যাপিং প্রজেক্টে সম্ভবত আপনার আরও অনেক কিছুই প্রয়োজন।
আপনি এই ব্লগটি স্ক্র্যাপি https://www.inkoop.io/blog/web-scraping- using-python-and-scrap/ দিয়ে শুরু করতে চেক করতে পারেন
পার্থক্যগুলি অনেকগুলি এবং কোনও সরঞ্জাম / প্রযুক্তি নির্বাচন পৃথক প্রয়োজনের উপর নির্ভর করে।
কয়েকটি বড় পার্থক্য হ'ল: