আমি অনেক পার্সার কোড করি। এখনও অবধি, আমি পার্সিং এবং ব্রাউজার অটোমেশনের জন্য এইচটিএমএলউইন্ট হেডলেস ব্রাউজার ব্যবহার করছিলাম।
এখন, আমি উভয় কাজ পৃথক করতে চাই।
যেহেতু আমার কাজের ৮০% কেবল পার্সিংয়ের সাথে জড়িত, তাই আমি হালকা এইচটিএমএল পার্সার ব্যবহার করতে চাই কারণ এইচটিএমএলইনাইটে প্রথমে কোনও পৃষ্ঠা লোড করতে, তারপরে উত্সটি পাওয়ার পরে এবং এটি বিশ্লেষণ করতে অনেক সময় লাগে।
আমি জানতে চাই কোন HTML পার্সারটি সেরা। পার্সারটি এইচটিএমএল ইউনিত পার্সারের কাছাকাছি থাকলে আরও ভাল।
সম্পাদনা করুন:
সর্বোপরি, আমি কমপক্ষে নিম্নলিখিত বৈশিষ্ট্যগুলি চাই:
- গতি
- কোনও "এইচটিএমএল" উপাদানটি তার "আইডি" বা "নাম" বা "ট্যাগের ধরণ" দ্বারা সনাক্ত করা সহজ।
এটি নোংরা এইচটিএমএল কোডটি পরিষ্কার না করলে আমার পক্ষে ঠিক হবে। আমার কোনও HTML উত্স পরিষ্কার করার দরকার নেই। আমার এইচটিএমএল উপাদানগুলি জুড়ে সরানো এবং সেগুলি থেকে ডেটা সংগ্রহের খুব সহজ উপায় দরকার need