আমার কাছে ঠিকানাগুলির অনেকগুলি স্ট্রিং রয়েছে:
1600 Pennsylvania Ave, Washington, DC 20500 USA
আমি তাদের উপাদানগুলিতে পার্স করতে চাই:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
তবে অবশ্যই ডেটাটি নোংরা: এটি বিভিন্ন ভাষায় বিভিন্ন দেশ থেকে আসে, বিভিন্ন উপায়ে লেখা থাকে, ভুল বানান থাকে, টুকরা হারিয়ে যায়, অতিরিক্ত জাঙ্ক থাকে etc.
এই মুহূর্তে আমাদের দৃষ্টিভঙ্গি হ'ল ফাজি গেজেটিয়ার মিলের সাথে নিয়মগুলি ব্যবহার করা, তবে আমরা মেশিন শিখার কৌশলগুলি আবিষ্কার করতে চাই। তদারকি করা শিক্ষার জন্য আমরা প্রশিক্ষণের ডেটা লেবেল করেছি। প্রশ্নটি হচ্ছে, এটি কোন ধরণের মেশিন লার্নিংয়ের সমস্যা? এটি সত্যিই ক্লাস্টারিং, বা শ্রেণিবিন্যাস, বা রিগ্রেশন বলে মনে হচ্ছে না ...
আমি যে নিকটতম সামনে আসতে পারি তা প্রতিটি টোকেনকে শ্রেণিবদ্ধ করা হবে, তবে তারপরে আপনি "একযোগে একটি দেশে থাকতে হবে" এর মতো সন্তুষ্টিক সীমাবদ্ধতাগুলি একই সাথে সেগুলি সমস্তকে শ্রেণিবদ্ধ করতে চান; এবং সত্যিই স্ট্রিংকে টোকানাইজ করার অনেকগুলি উপায় রয়েছে এবং আপনি প্রত্যেকে চেষ্টা করে সেরাটি বেছে নিতে চান .... আমি জানি যে এখানে স্ট্যাটিস্টিকাল পার্সিং নামে একটি জিনিস রয়েছে তবে এটি সম্পর্কে কিছুই জানেন না।
সুতরাং: ঠিকানার পার্সিংয়ের জন্য আমি কোন মেশিন লার্নিংয়ের কৌশলগুলি আবিষ্কার করতে পারি?