স্ট্রিং প্যাটার্ন শেখার জন্য মেশিন লার্নিং কৌশল


11

আমার কাছে শব্দের একটি তালিকা রয়েছে যা বিভিন্ন স্ব-সংজ্ঞায়িত বিভাগের অন্তর্ভুক্ত। প্রতিটি বিভাগের নিজস্ব প্যাটার্ন রয়েছে (উদাহরণস্বরূপ, একটি বিশেষ অক্ষরের সাথে একটি নির্দিষ্ট দৈর্ঘ্য থাকে, অন্য একটি অক্ষর উপস্থিত থাকে যা কেবলমাত্র "শব্দ", এই বিভাগে ঘটে ...)।

উদাহরণ স্বরূপ:

"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...

প্রশিক্ষণ ডেটার ভিত্তিতে এই প্যাটার্নগুলি নিজে থেকে শিখতে আমি একটি মেশিন লার্নিং কৌশল অনুসন্ধান করছি। আমি ইতিমধ্যে কিছু ভবিষ্যদ্বাণীশীল ভেরিয়েবলগুলি নিজেরাই সংজ্ঞায়িত করার চেষ্টা করেছি (উদাহরণস্বরূপ শব্দদৈর্ঘ্য, বিশেষ অক্ষরের সংখ্যা, ...) এবং তারপরে বিভাগটি শিখতে এবং ভবিষ্যদ্বাণী করতে একটি নিউরাল-নেটওয়ার্ক ব্যবহার করেছি। তবে আমি যা চাই তা তীব্রভাবে জানায় না। আমি প্রতিটি বিভাগের নিজস্ব জন্য প্যাটার্ন শিখতে একটি কৌশল চাই - এমনকি এমন নিদর্শনগুলি শিখতেও যা আমি কখনও ভাবি নি।

সুতরাং আমি অ্যালগরিদম শেখার ডেটা দেই (শব্দ-বিভাগের উদাহরণগুলির সমন্বয়ে) এবং প্রতিটি বিভাগের জন্য অনুরূপ বা সমান শব্দের থেকে পরবর্তী বিভাগটি পূর্বাভাস দেওয়ার জন্য নিদর্শনগুলি শিখতে চাই।

এটি করার কি কোনও অত্যাধুনিক উপায় আছে?

আপনার সাহায্যের জন্য ধন্যবাদ


আমার দৃষ্টিকোণ থেকে, আপনি এই সিস্ট্রোম.অর্গ / সিআর / আইমেজস / ফিগ্যুর 4.png এর মতো স্মিথ করতে পারেন তবে এসিজিটির পরিবর্তে আপনি "সংখ্যা, বড় হাতের অক্ষর, ছোট হাতের স্পেস" ইত্যাদির মতো নিদর্শনগুলি ব্যবহার করতে পারেন
জার্মান ডেমিডভ

@ জেরমানডেমিডভ আপনার মন্তব্যের জন্য ধন্যবাদ। আমি ইতিমধ্যে এরকম কিছু সম্পর্কে ভেবেছিলাম তবে আমি আসলে শিখতে চাইছি অ্যালগরিদম নিজে থেকে এটি করতে পারে এবং নিদর্শনগুলি সনাক্ত করতে পারে। (এমএল এর পক্ষে এটি সম্ভব কিনা আমি জানি না)।
13

আসলে এই নিদর্শনগুলি মেশিন লার্নিং। অবশ্যই আপনি এটি মেশিন লার্নিং দিয়ে করতে পারেন তবে এমএল অ্যালগরিদমের ইনপুট হিসাবে দেওয়ার আগে কোনও ব্যক্তিকে প্রথমে একটি বৈশিষ্ট্য নিষ্কাশন করা দরকার। এই উদাহরণগুলি থেকে আপনি কোন বৈশিষ্ট্যগুলি নিষ্কাশন করবেন? আমি হ্যাশ ফাংশন সম্পর্কে ভাবতে পারি, তবে এটি অসম দৈর্ঘ্যের স্ট্রিংগুলির জন্য বেশ খারাপ কাজ করবে। সুতরাং যেহেতু আপনি কীভাবে বৈশিষ্ট্যগুলি নিষ্কাশন করার উপায় খুঁজে পাবেন, আপনি এমএল পদ্ধতি ব্যবহার করতে সক্ষম হবেন। আপনি বিভিন্ন শ্রেণীর প্রতীকগুলির মধ্যে লেভেনস্টেইনের দূরত্বের মতো স্মিথ করতে পারেন, তাদেরকে ক্লাস্টারাইজ করতে পারেন এবং শ্রেণিবিন্যাসের জন্য সেন্ট্রয়েডের সর্বনিম্ন দূরত্ব ব্যবহার করতে পারেন।
জার্মান ডেমিডভ

@ চাপ আপনি নিজের প্রশ্নে নিরীক্ষণযোগ্য শেখার ট্যাগ যুক্ত করতে চান । নিউরাল নেটওয়ার্কগুলির সাথে এটি করার জন্য, এই লেকন কাগজটি আগ্রহী হতে পারে। যেহেতু পাঠ্য খনন বা নিউরাল নেটওয়ার্কগুলির সাথে আমার খুব বেশি অভিজ্ঞতা নেই, তাই এই পদ্ধতির পক্ষে কতটা ভাল হতে পারে তা আমি বলতে পারি না।
GeoMatt22

1
সুতরাং আপনি প্রাকৃতিকভাবে ব্যবহারযোগ্য বৈশিষ্ট্যগুলি ব্যবহার করে আপনার ভেক্টরগুলিকে রূপান্তর করুন (ইউ - বড় হাতের অক্ষর, এল - লোয়ারकेস, এন - সংখ্যা, গুলি - স্পেস), সুতরাং আপনার ভেক্টরগুলি "এবিসি" - "ইউউউ", "এ 8 219" - "ল্যান্সএনএন" এবং তাই হবে চালু. তারপর আপনি, কিছু দুরত্ব পরিমাপ পরিচয় করিয়ে দিতে উদাহরণস্বরূপ এই অ্যালগোরিদম ব্যবহার করে প্রয়োজন en.wikipedia.org/wiki/Smith -Waterman_algorithm। এর পরে আপনি আপনার ডেটাটির শ্রেণিবদ্ধকরণ / গুচ্ছকরণ / দৃশ্যায়ন করতে সক্ষম হবেন।
জার্মান ডেমিডভ

উত্তর:


6

আপনার বিভাগটি প্রতিটি বিভাগের স্ট্রিংগুলির সাথে মেলে এমন নিয়মিত প্রকাশগুলি আবিষ্কার করতে চাইলে পুনরায় পুনরুদ্ধার করা যেতে পারে? এটি একটি "রেইজেক্স জেনারেশন" সমস্যা, ব্যাকরণ আনয়ন সমস্যার একটি উপসেট (এছাড়াও আলেকজান্ডার ক্লার্কের ওয়েবসাইট দেখুন )।

নিয়মিত প্রকাশের সমস্যাটি সহজ। আমি আপনাকে কোড ফ্রেইক এবং রেজেক্সজিনেটরে নির্দেশ করতে পারিঅনলাইন RegexGenerator ++, সমস্যা তাদের একাডেমিক কাগজপত্র উল্লেখ হয়েছে।


5

আপনি পুনরাবৃত্ত নিউরাল নেটওয়ার্ক চেষ্টা করতে পারেন, যেখানে আপনার ইনপুটটি শব্দের মধ্যে বর্ণগুলির একটি ক্রম এবং আপনার আউটপুট একটি বিভাগ। এটি আপনার প্রয়োজনীয়তার সাথে খাপ খায় যাতে আপনি কোনও বৈশিষ্ট্য কোড হ্যান্ড করেন না।

তবে এই পদ্ধতিটি বাস্তবে কাজ করার জন্য আপনার মোটামুটি বড় প্রশিক্ষণের ডেটা সেট প্রয়োজন।

আপনি আরও তথ্যের জন্য অ্যালেক্স গ্রাভস অধ্যায় 2 দ্বারা পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে তদারকি সিকোয়েন্স লেবেলিংটি উল্লেখ করতে পারেন ।

এটি প্রিপ্রিন্টের একটি লিঙ্ক


1
ভবিষ্যতে "প্রিপ্রিন্ট.পিডিএফ" লিঙ্কটি ভাঙ্গার ক্ষেত্রে, আপনি কি আপনার চূড়ান্ত রেফারেন্সের জন্য একটি সম্পূর্ণ প্রশংসা যুক্ত করতে পারেন? (আমি বিশ্বাস করি এই প্রাসঙ্গিক অধ্যায় রয়েছে?)
GeoMatt22
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.