আমার ফাইল সিস্টেমে (উইন্ডোজ)) আমার কিছু পাঠ্য ফাইল রয়েছে (এটি যদি এসকিউএল স্ক্রিপ্ট ফাইল হয় তবে তা গুরুত্বপূর্ণ)।
নোটপ্যাড ++ দিয়ে খোলার পরে , "এনকোডিং" মেনুতে তাদের কিছুগুলির "ইউসিএস -2 লিটল এন্ডিয়ান" এবং কিছু "বিওএম ছাড়াই ইউটিএফ -8" এর এনকোডিং রয়েছে বলে জানা গেছে।
এখানে পার্থক্য কী? এগুলি সমস্তই পুরোপুরি বৈধ স্ক্রিপ্ট বলে মনে হচ্ছে। নোটপ্যাড ++ ছাড়া ফাইলের কী এনকোডিং রয়েছে তা আমি কীভাবে বলতে পারি?
enca
এবং chardet
পসিক্স সিস্টেমের জন্য।
iconv
বিশেষত এই উদ্দেশ্যে দরকারী। মূলত আপনি কোনটি কাজ করে তা দেখতে বিভিন্ন এনকোডিংয়ের মাধ্যমে দূষিত অক্ষরগুলির স্ট্রিং / পাঠকে পুনরাবৃত্তি করুন। আপনি জিতেছেন, যখন চরিত্রগুলি আর দূষিত হয় না। আমি এখানে প্রোগ্রামাগুলি উদাহরণ সহ উত্তর দিতে পছন্দ করব। তবে দুর্ভাগ্যক্রমে এটি একটি সুরক্ষিত প্রশ্ন।
chardet
বা chardetect
আপনার সিস্টেমে উপলব্ধ নয়, তাহলে আপনি আপনার প্যাকেজ ম্যানেজার মাধ্যমে প্যাকেজ ইনস্টল করতে পারেন (যেমন apt search chardet
- Ubuntu / ডেবিয়ান প্যাকেজ সাধারণত বলা হয় python-chardet
বা python3-chardet
) অথবা মাধ্যমে পিপ সঙ্গে pip install chardet
(অথবা pip install cchardet
জন্য দ্রুত সি-অপ্টিমাইজ সংস্করণ)।