আমাদের অ্যাপ্লিকেশন, আমরা টেক্সট ফাইল (গ্রহণ .txt, .csvবিভিন্ন উৎস থেকে, ইত্যাদি)। পড়ার সময়, এই ফাইলগুলিতে কখনও কখনও আবর্জনা থাকে, কারণ ফাইলগুলি যেখানে অন্য / অজানা কোডেজে তৈরি হয়েছিল।
কোনও পাঠ্য ফাইলের কোডপেজ সনাক্ত করার (স্বয়ংক্রিয়ভাবে) উপায় আছে কি?
detectEncodingFromByteOrderMarks, উপর StreamReaderকন্সট্রাকটর, জন্য কাজ করে UTF8 এবং অন্যান্য ইউনিকোড চিহ্নিত ফাইল, কিন্তু আমি, কোড পৃষ্ঠাগুলি মুছে ফেলার মত একটি উপায় খুঁজছি ibm850, windows1252।
আপনার উত্তরগুলির জন্য ধন্যবাদ, আমি এটিই করেছি।
আমরা যে ফাইলগুলি পেয়েছি সেগুলি শেষ ব্যবহারকারীদের, তাদের কোডপেজ সম্পর্কে কোনও ধারণা নেই। রিসিভারগুলিও শেষ ব্যবহারকারীরা, এখনই তারা কোডপেজ সম্পর্কে যা জানে: কোডপেজগুলি বিদ্যমান এবং বিরক্তিকর।
সমাধান:
- নোটপ্যাডে প্রাপ্ত ফাইলটি খুলুন, টুকরো টুকরো টুকরো টুকরো টুকরোটি দেখুন। যদি কাউকে ফ্রানসোয়া বা কিছু বলা হয়, আপনার মানব বুদ্ধিমত্তার সাথে আপনি এটি অনুমান করতে পারেন।
- আমি একটি ছোট অ্যাপ্লিকেশন তৈরি করেছি যা ব্যবহারকারী ফাইলটি খোলার জন্য ব্যবহার করতে পারেন এবং একটি পাঠ্য লিখুন যা ব্যবহারকারী জানেন যে এটি ফাইলটিতে প্রদর্শিত হবে, যখন সঠিক কোডপেজ ব্যবহার করা হবে।
- সমস্ত কোডপেজের মধ্য দিয়ে লুপ করুন এবং ব্যবহারকারীর সরবরাহিত পাঠ্যের সাথে সমাধান দিন give
- যদি আরও একটি কোডপেজ পপ আপ হয় তবে ব্যবহারকারীকে আরও পাঠ্য নির্দিষ্ট করতে বলুন।