রুবি মত সেখানে কিছু nokogiri nodejs উপর? আমি ব্যবহারকারী-বান্ধব এইচটিএমএল-পার্সার বলতে চাইছি।
আমি নোড.জেএস মডিউল পৃষ্ঠায় কিছু পার্সার দেখেছি, তবে আমি সুন্দর এবং সতেজ কিছু খুঁজে পাচ্ছি না।
রুবি মত সেখানে কিছু nokogiri nodejs উপর? আমি ব্যবহারকারী-বান্ধব এইচটিএমএল-পার্সার বলতে চাইছি।
আমি নোড.জেএস মডিউল পৃষ্ঠায় কিছু পার্সার দেখেছি, তবে আমি সুন্দর এবং সতেজ কিছু খুঁজে পাচ্ছি না।
উত্তর:
আপনি নির্মাণ করতে চান করে DOM আপনি ব্যবহার করতে পারেন jsdom ।
এর রয়েছে চীয়ারীত্ত , এটা হয়েছে jQuery এর ইন্টারফেস এবং এটা jsdom এর পুরোনো সংস্করণগুলি তুলনায় অনেক দ্রুত, যদিও এই দিন তারা কর্মক্ষমতা একই রকম।
আপনি htmlparser2 , যা একটি স্ট্রিমিং পার্সার, এবং তার মানদণ্ড অনুসারে এটি অন্যদের চেয়ে দ্রুত এবং ডিফল্টরূপে কোনও ডিওএম বলে মনে হতে পারে। এটি একটি ডিওএম উত্পাদন করতে পারে, কারণ এটি হ্যান্ডলারের সাথেও বান্ডিল রয়েছে যা একটি ডিওএম তৈরি করে। এটি পার্সার যা চিরিও ব্যবহার করে।
parse5 এও দেখতে ভাল সমাধানের মতো লাগে। এটা তোলে মোটামুটি সক্রিয় (11 দিন থেকে গত এই আপডেটে হিসাবে কমিট) WHATWG-অনুবর্তী হয়, এবং ব্যবহার করা হয় jsdom , কৌণিক এবং পলিমার ।
এবং যদি আপনি ওয়েব স্ক্র্যাপিংয়ের জন্য এইচটিএমএল বিশ্লেষণ করতে চান তবে আপনি ওয়াইকিউএল 1 ব্যবহার করতে পারেন । এটির জন্য একটি নোড মডিউল রয়েছে । ওয়াইকিউএল আমি মনে করি যদি আপনার এইচটিএমএল কোনও স্থির ওয়েবসাইট থেকে থাকে তবে আপনি নিজের কোড এবং প্রক্রিয়াকরণ ক্ষমতা নয়, কোনও পরিষেবায় নির্ভর করছেন the যদিও নোট করুন যে পৃষ্ঠাটির ওয়েবসাইটের রোবট টেক্সটটি অনুমোদিত না হলে এটি কাজ করবে না, ওয়াইকিউএল এটি দিয়ে কাজ করবে না।
আপনি যে ওয়েবসাইটটি স্ক্র্যাপ করার চেষ্টা করছেন তা যদি গতিশীল হয় তবে আপনার উচিত ফ্যান্টমজসের মতো একটি হেডলেস ব্রাউজার ব্যবহার করা । এছাড়াও কটাক্ষপাত আছে casperjs আপনি phantomjs বিবেচনাধীন। আর আপনার সাথে নোড থেকে casperjs নিয়ন্ত্রণ করতে পারেন SpookyJS ।
Phantomjs পাশে আছে zombiejs । ন্যানডজে এম্বেড করা যায় না এমন ফ্যান্টমজগুলির থেকে পৃথক, জম্বিজেস কেবল একটি নোড মডিউল।
পরবর্তী সমাধানগুলির জন্য একটি নেটটুট + সারসংক্ষেপ রয়েছে ।
1 আগস্ট ২০১৪ সাল থেকে, ওয়াইকিউ লাইব্রেরি, যা ওয়াইকিউএল-এর প্রয়োজনীয়তা, এখন আর সক্রিয়ভাবে পরিচালিত হয় না, উত্স
ব্যবহার করে দেখুন https://github.com/tmpvar/jsdom - আপনি এটি কিছু HTML দিতে এবং আপনার একটি DOM দেয়।
আপনি এক্স-রেতেও একবার দেখতে পারেন: https://github.com/lapwinglabs/x-ray