আমার একটি সকেট সার্ভার রয়েছে যা ক্লায়েন্টদের কাছ থেকে ইউটিএফ -8 বৈধ অক্ষর পাওয়ার কথা।
সমস্যাটি হ'ল কিছু ক্লায়েন্ট (প্রধানত হ্যাকার) এর মাধ্যমে সমস্ত ভুল ধরণের ডেটা প্রেরণ করছে।
আমি সহজেই খাঁটি ক্লায়েন্টকে আলাদা করতে পারি, তবে আমি প্রেরিত সমস্ত ডেটা ফাইলগুলিতে লগ করছি যাতে আমি এটি পরে বিশ্লেষণ করতে পারি।
কখনও কখনও আমি এই জাতীয় অক্ষর পাই œ
যা UnicodeDecodeError
ত্রুটির কারণ হয় ।
আমার এই অক্ষরগুলি দিয়ে বা ছাড়াই UTF-8 স্ট্রিংটি তৈরি করতে সক্ষম হওয়া দরকার।
হালনাগাদ:
আমার বিশেষ ক্ষেত্রে সকেট পরিষেবাটি একটি এমটিএ ছিল এবং সুতরাং আমি কেবল ASCII কমান্ড যেমন প্রত্যাশা করতাম তা প্রত্যাশা করি:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
আমি জেএসএনে এই সমস্ত লগ করছি।
তারপরে কিছু লোক ভাল উদ্দেশ্য ছাড়াই সমস্ত ধরণের জাঙ্ক বিক্রি করার সিদ্ধান্ত নিয়েছে।
এ কারণেই আমার নির্দিষ্ট কেসটির জন্য এটি ASCII নয় এমন অক্ষরগুলি ছাঁটাই করা পুরোপুরি ঠিক।