যথাযথ ভাল পরবর্তী শব্দ পূর্বাভাস অর্জন করতে কোন অ্যালগরিদম (গুলি) ব্যবহার করা যেতে পারে?


10

"পরবর্তী শব্দ ভবিষ্যদ্বাণী" বাস্তবায়নের একটি ভাল উপায় কী? উদাহরণস্বরূপ, ব্যবহারকারী "আমি আছি" টাইপ করে এবং সিস্টেমটি "ক" এবং "না" (বা সম্ভবত অন্যরা) পরবর্তী শব্দ হিসাবে পরামর্শ দেয়। আমি এমন একটি পদ্ধতি সম্পর্কে অবগত যা মার্কোভ চেইন এবং কিছু প্রশিক্ষণের পাঠ্য (স্পষ্টতই) কমবেশি এটি অর্জন করতে ব্যবহার করে। তবে আমি কোথাও পড়েছি যে এই পদ্ধতিটি অত্যন্ত সীমাবদ্ধ এবং খুব সাধারণ ক্ষেত্রে প্রযোজ্য।

আমি নিউরাল নেটওয়ার্ক এবং জেনেটিক অ্যালগরিদমের বুনিয়াদি বুঝতে পারি (যদিও এগুলি কখনও কোনও গুরুতর প্রকল্পে ব্যবহার করেনি) এবং সম্ভবত তারা কিছুটা সাহায্য করতে পারে। আমি অবাক হয়েছি যদি এমন কোনও অ্যালগরিদম থাকে যা যথাযথ প্রশিক্ষণের পাঠ্য দেওয়া হয় (যেমন, সংবাদপত্রের নিবন্ধ এবং ব্যবহারকারীর নিজস্ব টাইপিং) পরবর্তী শব্দটির জন্য যুক্তিসঙ্গতভাবে উপযুক্ত পরামর্শ নিয়ে আসতে পারে। যদি না হয় (লিঙ্ক) অ্যালগরিদম, এই সমস্যাটি আক্রমণ করার জন্য সাধারণ উচ্চ-স্তরের পদ্ধতিগুলি স্বাগত।

উত্তর:


9

কটাক্ষপাত এন-গ্রাম । একটি এন-গ্রাম nশব্দের ক্রম । আপনার ক্ষেত্রে আপনি nহতে চান 3, যেহেতু আপনার দুটি query wordsএবং একটি প্রয়োজন resulting word। একটি 3-গ্রাম উদাহরণস্বরূপ "আমি ক্লান্ত", অন্য একটি "আমি খুশি" would

আপনার যা প্রয়োজন তা হ'ল এই 3-গ্রামগুলির সংগ্রহ যা আপনার লক্ষ্য ভাষায় সংগ্রহ করা হয়, ইংরেজী বলুন। যেহেতু আপনি ইংরেজিতে লেখা সমস্ত কিছুর উপরে এটি সংগ্রহ করতে পারবেন না তাই আপনার একটি নির্বাচন করা প্রয়োজন। প্রতিনিধি পাঠ্যের সেই নির্বাচনকে বলা হয় ক corpus। যদি আপনার কর্পাস ভাল হয় তবে এটি আপনাকে বলবে যে ইংরেজিতে তিনটি নির্দিষ্ট শব্দের ক্রম একসাথে কতবার ঘটে। সেখান থেকে আপনি 3-গ্রাম সম্ভাবনার গণনা করতে পারেন।

এই জাতীয় ডেটা সংগ্রহ করা সবচেয়ে শক্ত অংশ। আপনার সম্ভাব্যতার সাথে সমস্ত 3-গ্রামের তালিকা একবারে এলে আপনি "আমি" থেকে শুরু করে সমস্ত 3-গ্রামে আপনার তালিকাটি ফিল্টার করতে পারেন। তারপরে আপনি এই সমস্ত তালিকাটি সম্ভাবনা এবং ভয়েলে অনুসারে বাছাই করুন: আপনার পূর্বাভাস।


ঠিক আছে, এবং এর কোন সর্বোত্তম মান আছে nযে ভাল ফলাফল দেয়? এটা সবসময় হয় না আছে তৃতীয় শব্দ পূর্বাভাস দেওয়া যায় হতে, আপনি দেখতে
yati sagade

2
ভাল, একটি বৃহত্তর nফলন একটি দীর্ঘ তালিকা দেয় যা আপনাকে আরও সুনির্দিষ্ট পূর্বাভাস দেয় তবে এটি অনুসন্ধান করা আরও ব্যয়বহুল So সুতরাং এটি নির্ভুলতা এবং গণনার সময়কালের মধ্যে একটি বাণিজ্য।
সেবাস্তেঞ্জিগার

2
এছাড়াও, বৃহত্তর এন-গ্রাম ব্যবহারিকভাবে কার্যকর হওয়ার জন্য আপনার আরও বৃহত্তর কর্পাসের প্রয়োজন।
লাইওরি

4
উম এটি আক্ষরিক অর্থে একটি মার্কভ চেইন ... কেবল তা-ই নয়, তবে আক্ষরিক অর্থেই এটি সর্বাধিক পাঠ্যপুস্তকের উদাহরণ ...
জাস্টিন এল।

2

দেখে মনে হচ্ছে সমস্যা ডোমেনটি স্ট্রিং অনুসন্ধানের একটি উপসেট। সাদা স্পেসগুলি অন্তর্ভুক্ত করার জন্য শব্দগুলি প্রসারিত করে, अस्पष्ट স্ট্রিংয়ের মিলটি এখানে প্রয়োগ করা যেতে পারে।

আপনি আপনার অভিধান ছাড়াও প্রশিক্ষণের সময় সমস্ত ব্যবহারকারীর ইনপুটকে একটি শব্দ হিসাবে বিবেচনা / মঞ্জুরি দিতে চাইতে পারেন। এটি আপনাকে পরবর্তী শব্দটি পরামর্শ দেওয়ার অনুমতি দেয় তবে শব্দ বা বাক্যাংশগুলিকে স্বয়ংক্রিয়ভাবে সম্পূর্ণ করার পরামর্শ দেয়।

ফাজি স্ট্রিং অনুসন্ধান অ্যালগরিদমের সংকলনের লিঙ্কটি এখানে

http://ntz-develop.blogspot.com/2011/03/fuzzy-string-search.html


1

আপনি একটি (পরিসংখ্যান) ভাষার মডেল সন্ধান করছেন

একটি পরিসংখ্যানগত ভাষার মডেল P(w_1,...,w_m)সম্ভাব্যতা বিতরণের মাধ্যমে মি শব্দের ক্রমকে সম্ভাব্যতা নির্ধারণ করে ...

বক্তৃতা স্বীকৃতিতে এবং ডেটা সংকোচনে, এই জাতীয় মডেল একটি ভাষার বৈশিষ্ট্য ক্যাপচার করার চেষ্টা করে এবং একটি বাক্য ক্রমের পরবর্তী শব্দটির পূর্বাভাস দেয় ...


কি দারুন. তবে আমি মনে করি @ সেবাস্তেঞ্জিয়ার উত্তরটি n = 3 এর জন্য ব্যাখ্যা করে explains
ইয়াতী সাগাদ

তার উত্তরটি একটি নির্দিষ্ট ভাষার মডেল, যথা এন-গ্রাম মডেলগুলি বর্ণনা করে। অন্যান্য ভাষার মডেল রয়েছে, উদাহরণস্বরূপ, সিনট্যাকটিক ভাষার মডেল ( goo.gl/ffPOg )।
ব্যবহারকারী 3287
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.