কিভাবে একটি চ্যাটবট প্রশিক্ষণ

10

আমি নিউরাল নেটওয়ার্ক নিয়ে পরীক্ষা-নিরীক্ষা শুরু করতে চেয়েছিলাম এবং খেলনার সমস্যা হিসাবে আমি একজনকে চ্যাট করার প্রশিক্ষণ দিতে চাইছিলাম, অর্থাৎ চতুরতার মতো চ্যাটিং বট প্রয়োগ করতে পারি। যাইহোক যে চালাক না।

আমি কিছু ডকুমেন্টেশনের জন্য আশেপাশে সন্ধান করলাম এবং আমি সাধারণ কাজের উপর অনেক টিউটোরিয়াল পেয়েছি তবে এই নির্দিষ্ট বিষয়ে কয়েকটি ছিল few আমি যেটি সবেমাত্র পেয়েছি তা বাস্তবায়নের বিষয়ে অন্তর্দৃষ্টি না দিয়েই ফলাফলগুলি উন্মোচিত করেছি। যেগুলি করেছে, এটি কি খুব অগভীর হয়ে আছে (সেক 2 সেকের টেনসরফ্লো ডকুমেন্টেশন পৃষ্ঠায় ইমোর অভাব রয়েছে)।

এখন, আমি অনুভব করছি আমি নীতিটি কমবেশি বুঝতে পেরেছি তবে আমি নিশ্চিত নই এবং কীভাবে শুরু করব তা সম্পর্কে আমি নিশ্চিত নই। এইভাবে আমি ব্যাখ্যা করব যে আমি কীভাবে সমস্যাটি মোকাবিলা করব এবং আমি এই সমাধান সম্পর্কে একটি প্রতিক্রিয়া চাইব, আমাকে বলছি কোথায় আমি ভুল করছি এবং সম্ভবত প্রক্রিয়াটির বিস্তারিত ব্যাখ্যা এবং ব্যবহারিক জ্ঞানের কোনও লিঙ্ক আছে।

আমি কাজের জন্য যে ডেটাসেটটি ব্যবহার করব তা হ'ল আমার সমস্ত ফেসবুক এবং হোয়াটসঅ্যাপ চ্যাটের ইতিহাসের ডাম্প। আমি জানি না এটি কতটা বড় হবে তবে সম্ভবত এখনও যথেষ্ট পরিমাণে বড় নয়। টার্গেট ল্যাঙ্গুয়েজ ইংরাজী নয়, সুতরাং অর্থপূর্ণ কথোপকথনের নমুনাগুলি কোথায় দ্রুত সংগ্রহ করতে হয় তা আমি জানি না।
আমি প্রতিটি বাক্য থেকে একটি চিন্তার ভেক্টর তৈরি করতে যাচ্ছি। এখনও জানি না আসলে কীভাবে; আমি গভীরতার জন্য 4j ওয়েবসাইটে ওয়ার্ড 2vec এর জন্য একটি দুর্দান্ত উদাহরণ পেয়েছি, তবে বাক্যগুলির জন্য কিছুই নেই। আমি বুঝতে পারি কীভাবে শব্দের ভেক্টরগুলি তৈরি করা হয় এবং কেন, তবে বাক্য ভেক্টরগুলির জন্য আমি কোনও বিস্তৃত ব্যাখ্যা খুঁজে পাইনি।
ইনপুট এবং আউটপুট হিসাবে চিন্তার ভেক্টরগুলি ব্যবহার করে আমি নিউরাল নেটওয়ার্কটি প্রশিক্ষণ দিতে যাচ্ছি। আমি জানি না এর কত স্তর থাকা উচিত এবং কোনটি এলএসটিএম স্তর হতে হবে।
তারপরে আর একটি নিউরাল নেটওয়ার্ক থাকা উচিত যা একটি চিন্তার ভেক্টরকে একটি বাক্য রচনার চরিত্রের অনুক্রমে রূপান্তর করতে সক্ষম। আমি পড়েছি যে বিভিন্ন বাক্য দৈর্ঘ্যের জন্য আমার প্যাডিং ব্যবহার করা উচিত তবে আমি কীভাবে অক্ষরগুলিকে এনকোড করতে পারি তা মিস করি (কোডড পয়েন্টগুলি যথেষ্ট?)।

— টোট্যাম
সূত্র

7

আমি এই ব্লগপোস্টটি পড়ে শুরু করার পরামর্শ দেব । আপনি সম্ভবত কোনও আরএনএন তৈরি করতে কোডটি ন্যাংবালাইজ করতে পারেন যা একটি কথোপকথনের একটি বিবৃতি গ্রহণ করে এবং তারপরে সেই বিবৃতিটির উত্তর আউটপুট করতে এগিয়ে যায়।

শব্দের ভেক্টর এবং চিন্তার ভেক্টর ব্যতীত এটিই আপনার প্রকল্পের সহজ সংস্করণ। আপনি কেবল অক্ষরগুলি ইনপুট করছেন, তাই টাইপগুলি আপনার উদ্বেগের দরকার নেই।

পরবর্তী আরও জটিল পদক্ষেপটি অক্ষরের পরিবর্তে শব্দ ভেক্টরদের ইনপুট করা হবে। এটি আপনাকে এমন শব্দগুলিতে সাধারণীকরণ করতে দেয় যা আপনার প্রশিক্ষণের ডেটার অংশ নয়। এবং এটি সম্ভবত এখনও কোডের একটি সামান্য পরিবর্তন।

আপনি যদি চিন্তার ভেক্টরগুলি ব্যবহার করার জন্য জোর দিয়ে থাকেন তবে আপনার এনএন অনুবাদ পড়া উচিত । এবং সম্ভবত একটি প্রাক প্রশিক্ষিত এনকোডার নেটওয়ার্ক পাওয়ার চেষ্টা করুন। অথবা এটি আপনার ভাষার জন্য একটি বৃহত অনুবাদ কর্পাসে নিজেকে প্রাক প্রশিক্ষণ দিন।

আপনার ছোট প্রশিক্ষণের সর্বোত্তম সেটটি আপনার সিস্টেমটি আপনার প্রশিক্ষণের ডেটা ভারব্যাটিম পুনরায় তৈরি না করা পর্যন্ত সম্ভবত যথেষ্ট পরিমাণে উপযোগী হতে পারে। ভেক্টর শব্দ ব্যবহার করে আপনার সিস্টেমটিকে "আমি আজ বিড়ালটিকে পরাজিত করেছি" তে একই উত্তর দেওয়ার অনুমতি দেবে। যেমন আপনি প্রশিক্ষণের তথ্য দিয়েছিলেন "আমি গতকাল কুকুরটিকে লাথি মারলাম।"

আমি নিশ্চিত না ভেবে ভেক্টররা একটি বড় পার্থক্য আনবে। আপনি যদি ডিকোডারটি পান তবে তা শিখুন।

— BlindKungFuMaster
সূত্র

কিছুক্ষণ আগে আমি প্রথম নিবন্ধটি ইতিমধ্যে পড়েছি এবং আমি মনে করি অক্ষরগুলি বিমূর্তির সঠিক স্তর নয়। আমি একবারে শব্দ ভেক্টরগুলির সাথে একবারে যাওয়ার কথা ভাবিনি তবে আমার ধারণা এটিও একটি আকর্ষণীয় এবং কম জটিল উপায়। আমি কাগজ, সম্ভবত আমি পরে ছিল ... পড়ব

— টোটেম

আমি ব্যবহার করতে একটি বট কোর পেয়েছি ... তবে আমি পাঠ্য প্রজন্মের সাথে আটকে আছি। ai.stackexchange.com/questions/5963/… ভেক্টর, এবং শিক্ষার হার সত্ত্বেও আমি যা ভাবছি তা এখনও এটি যেমনটি করা উচিত তেমন কাজ করছে না ... আমি আশঙ্কা করছি যে এটি আমার হতে পারে যে লাইব্রেরির সংস্থান হতে পারে ব্যবহার করে, তবে আমি মনে করি না যে এটি একটি স্তর আকারের 300 এর পক্ষে সম্ভব হতে পারে ... বা প্রশিক্ষণের পরিমাণটি স্তরটির আকারের সাথে সম্পর্কিত? কোন সাহায্য প্রশংসা করা হবে। লাইব্রেরি ব্যবহৃত হচ্ছে নোট করুন।

— ফ্রিজফিনিক্স

0

আপনার প্রকল্প ধারণা অনুসারে, প্রারম্ভিকদের জন্য, আমি আপনাকে কিছু পরীক্ষা চালিত বিকাশের কৌশল প্রয়োগ করার জন্য অনুরোধ করব। প্রথমে একটি ছোট আকারের ডাটাবেস তৈরি করার চেষ্টা করুন যা আপনি স্বল্প পরিমাণে ডেটাসেট পরিচালনা করতে পারেন যা পছন্দসই উন্নতি করতে পারে।

এতে বলা হয়েছে, নোড হিসাবে আপনার ডেটা দিয়ে সংগঠিত গাছের ইনলাইন তৈরি করতে সেই ডাটাবেসটি ব্যবহার করুন o সুতরাং যদি কোনও বট আপনার নির্দিষ্ট ডেটাसेट থেকে ডেটা পয়েন্ট সহ চিহ্নিত করা হয়, ডাটাবেস থেকে কিছু প্রতিক্রিয়া উত্পন্ন করা শুরু করে thus এবং সুতরাং প্রতিক্রিয়া বা উত্তরটি উপায় নয় গাছের পরবর্তী নোডে

দ্রষ্টব্য : প্রারম্ভিকদের জন্য, আপনার বৃহত্তর চ্যাট ইতিহাসকে সামগ্রিকভাবে ব্যবহার করবেন না, কারণ এটি একটি সাধারণ টাস্ক..এই খুব বেশি ইনপুট == ওভারফিটিং।

— quintumnia
সূত্র