আমাদের অ্যাপ্লিকেশন, আমরা টেক্সট ফাইল (গ্রহণ .txt
, .csv
বিভিন্ন উৎস থেকে, ইত্যাদি)। পড়ার সময়, এই ফাইলগুলিতে কখনও কখনও আবর্জনা থাকে, কারণ ফাইলগুলি যেখানে অন্য / অজানা কোডেজে তৈরি হয়েছিল।
কোনও পাঠ্য ফাইলের কোডপেজ সনাক্ত করার (স্বয়ংক্রিয়ভাবে) উপায় আছে কি?
detectEncodingFromByteOrderMarks
, উপর StreamReader
কন্সট্রাকটর, জন্য কাজ করে UTF8
এবং অন্যান্য ইউনিকোড চিহ্নিত ফাইল, কিন্তু আমি, কোড পৃষ্ঠাগুলি মুছে ফেলার মত একটি উপায় খুঁজছি ibm850
, windows1252
।
আপনার উত্তরগুলির জন্য ধন্যবাদ, আমি এটিই করেছি।
আমরা যে ফাইলগুলি পেয়েছি সেগুলি শেষ ব্যবহারকারীদের, তাদের কোডপেজ সম্পর্কে কোনও ধারণা নেই। রিসিভারগুলিও শেষ ব্যবহারকারীরা, এখনই তারা কোডপেজ সম্পর্কে যা জানে: কোডপেজগুলি বিদ্যমান এবং বিরক্তিকর।
সমাধান:
- নোটপ্যাডে প্রাপ্ত ফাইলটি খুলুন, টুকরো টুকরো টুকরো টুকরো টুকরোটি দেখুন। যদি কাউকে ফ্রানসোয়া বা কিছু বলা হয়, আপনার মানব বুদ্ধিমত্তার সাথে আপনি এটি অনুমান করতে পারেন।
- আমি একটি ছোট অ্যাপ্লিকেশন তৈরি করেছি যা ব্যবহারকারী ফাইলটি খোলার জন্য ব্যবহার করতে পারেন এবং একটি পাঠ্য লিখুন যা ব্যবহারকারী জানেন যে এটি ফাইলটিতে প্রদর্শিত হবে, যখন সঠিক কোডপেজ ব্যবহার করা হবে।
- সমস্ত কোডপেজের মধ্য দিয়ে লুপ করুন এবং ব্যবহারকারীর সরবরাহিত পাঠ্যের সাথে সমাধান দিন give
- যদি আরও একটি কোডপেজ পপ আপ হয় তবে ব্যবহারকারীকে আরও পাঠ্য নির্দিষ্ট করতে বলুন।