আমি রুবিতে একটি ক্রলার লিখছি (1.9) যা এলোমেলো সাইট থেকে প্রচুর এইচটিএমএল গ্রহণ করে।
লিঙ্কগুলি নিষ্কাশনের চেষ্টা করার সময়, আমি ঠিক করেছি .scan(/href="(.*?)"/i)
নোকোগিরি / এইচপ্রিকোট (মেজর স্পিডআপ) এর পরিবর্তে কেবল ব্যবহার করার সিদ্ধান্ত নিয়েছি । সমস্যাটি হ'ল আমি এখন প্রচুর invalid byte sequence in UTF-8
ত্রুটি পেয়েছি ।
আমি যা বুঝতে পেরেছি তা থেকে, net/http
গ্রন্থাগারের কোনও এনকোডিং নির্দিষ্ট বিকল্প নেই এবং যে জিনিসগুলি আসে তা মূলত সঠিকভাবে ট্যাগ হয় না।
প্রকৃতপক্ষে আগত ডেটার সাথে কাজ করার সর্বোত্তম উপায় কী হবে? আমি .encode
প্রতিস্থাপন এবং অবৈধ বিকল্পগুলি সেট করে চেষ্টা করেছি , তবে এখন পর্যন্ত কোনও সাফল্য নেই ...
'U*'
পূর্বাবস্থায় ফিরে এসেছেন 'C*'
?