আপনার একটি ডেটাসেট রয়েছে:
- চিত্র I1, I2, ...
- আই 1, আই 2, ... চিত্রগুলির জন্য জমি সত্য গ্রন্থগুলি টি 1, টি 2, ...
সুতরাং আপনার ডেটাসেটটি এর মতো দেখতে পারে:
একটি নিউরাল নেটওয়ার্ক (এনএন) চিত্রের প্রতিটি সম্ভাব্য অনুভূমিক অবস্থানের জন্য স্কোর আউটপুট দেয় (প্রায়শই সাহিত্যে টাইম-স্টেপ টি নামে পরিচিত )। প্রস্থ 2 (t0, t1) এবং 2 সম্ভাব্য অক্ষর ("a", "খ") সহ একটি চিত্রের জন্য এটি দেখতে এমন কিছু দেখাচ্ছে:
| t0 | t1
--+-----+----
a | 0.1 | 0.6
b | 0.9 | 0.4
এই জাতীয় এনএন প্রশিক্ষণ দেওয়ার জন্য আপনাকে অবশ্যই প্রতিটি চিত্রের জন্য নির্দিষ্ট করতে হবে যেখানে চিত্রটিতে গ্রাউন্ড ট্রুথ পাঠ্যের একটি অক্ষর অবস্থান রয়েছে। উদাহরণস্বরূপ, "হ্যালো" পাঠ্যযুক্ত একটি চিত্র মনে করুন। আপনাকে এখন অবশ্যই উল্লেখ করতে হবে যে "এইচ" শুরু হয় এবং শেষ হয় (যেমন "এইচ" 10 তম পিক্সেল থেকে শুরু হয় এবং 25 তম পিক্সেল পর্যন্ত যায়)। "ই", "এল, ... এর জন্য একই কথাটি বিরক্তিকর শোনায় এবং বড় ডেটাসেটের জন্য কঠোর পরিশ্রম।
এমনকি যদি আপনি এইভাবে একটি সম্পূর্ণ ডেটাসেটটি টীকায়িত করতে সক্ষম হন তবে অন্য সমস্যা আছে। এনএন প্রতিটি সময়-ধাপে প্রতিটি চরিত্রের জন্য স্কোর আউটপুট দেয়, খেলনার উদাহরণের জন্য আমি উপরে প্রদর্শিত টেবিলটি দেখুন। আমরা এখন সময়-ধাপে সর্বাধিক সম্ভাব্য চরিত্রটি গ্রহণ করতে পারি, এটি খেলনার উদাহরণে "খ" এবং "ক"। এখন একটি বড় পাঠ্য সম্পর্কে চিন্তা করুন, যেমন "হ্যালো"। লেখকের যদি লেখার শৈলী থাকে যা অনুভূমিক অবস্থানে অনেক জায়গা ব্যবহার করে তবে প্রতিটি চরিত্র একাধিক সময়-পদক্ষেপ দখল করবে। সময়-পদক্ষেপে সর্বাধিক সম্ভাবনাময় চরিত্রটি গ্রহণ করা, এটি আমাদের "এইচএইচএইচএইচএইচএইচএইচইইইচেল্ল্লল্লুও" এর মতো একটি পাঠ্য দিতে পারে। কীভাবে আমাদের এই পাঠ্যটিকে সঠিক আউটপুটে রূপান্তর করা উচিত? প্রতিটি সদৃশ চরিত্র সরান? এটি "হেলো" দেয়, যা সঠিক নয়। সুতরাং, আমাদের কিছু চালাক পোস্ট প্রসেসিংয়ের প্রয়োজন হবে।
সিটিসি উভয় সমস্যার সমাধান করে:
- আপনি সিটিসি ক্ষতি ব্যবহার করে কোন অবস্থানে কোন অক্ষর ঘটে তা নির্দিষ্ট না করেই আপনি জোড় (আই, টি) থেকে নেটওয়ার্কটি প্রশিক্ষণ দিতে পারেন
- আপনাকে আউটপুট পোস্টপ্রসেস করতে হবে না, কারণ কোনও সিটিসি ডিকোডার এনএন আউটপুটকে চূড়ান্ত পাঠ্যে রূপান্তরিত করে
এটি কীভাবে অর্জিত হয়?
- একটি নির্দিষ্ট অক্ষর (সিটিসি-ফাঁকা, এই পাঠ্যটিতে "-" হিসাবে চিহ্নিত) পরিচয় করিয়ে দিন যাতে কোনও নির্দিষ্ট সময়-ধারে কোনও অক্ষর দেখা যায় না
- সিটিসি-ফাঁকা সন্নিবেশ করে এবং সমস্ত সম্ভাব্য উপায়ে অক্ষর পুনরাবৃত্তি করে গ্রাউন্ড ট্রুয়াইট টি টু টি টু পরিবর্তন করুন
- আমরা চিত্রটি জানি, আমরা পাঠ্যটি জানি, তবে পাঠ্যটি কোথায় অবস্থিত তা আমরা জানি না। সুতরাং, আসুন আমরা "হাই ----", "-হী ---", "- হি -" "... পাঠ্যের সমস্ত সম্ভাব্য অবস্থানগুলি চেষ্টা করি
- চিত্রটিতে প্রতিটি অক্ষর কতটা জায়গা দখল করে তা আমরা জানি না। সুতরাং আসুন "HHi ----", "এইচএইচআই ---", "এইচএইচএইচআই ---", ... এর মতো অক্ষরগুলিকে পুনরাবৃত্তি করার অনুমতি দিয়ে সমস্ত সম্ভাব্য প্রান্তিককরণ চেষ্টা করে দেখুন ...
- তুমি কি এখানে কোন সমস্যা দেখছ? অবশ্যই, আমরা যদি কোনও চরিত্রকে একাধিকবার পুনরাবৃত্তি করার অনুমতি দিই, তবে আমরা কীভাবে "হ্যালো" এর "এল" এর মতো প্রকৃত সদৃশ অক্ষরগুলি পরিচালনা করব ? ঠিক আছে, এই পরিস্থিতিতেগুলির মধ্যে কেবল সর্বদা একটি ফাঁকা সন্নিবেশ করান, উদাহরণস্বরূপ "হেল-লো" বা "হেইল ------- llo"
- প্রতিটি সম্ভাব্য টি'র জন্য স্কোর গণনা করুন (এটি প্রতিটি রূপান্তর এবং এর প্রতিটি সংমিশ্রনের জন্য), সমস্ত স্কোরের যোগফল যা জোড়ার জন্য ক্ষতির পরিমাণ দেয় (আই, টি)
- ডিকোডিং সহজ: প্রতিবারের পদক্ষেপের জন্য সর্বোচ্চ স্কোর সহ চরিত্র বেছে নিন, যেমন "HHHHHH-eeellll-lll - oo ---", নকল অক্ষর "এইচ-এল-লো" ফেলে দিন, ফাঁকা ফেলে দিন "হ্যালো", এবং আমরা শেষ.
এটি চিত্রিত করতে নীচের চিত্রটি দেখুন a এটি বক্তৃতা স্বীকৃতি প্রসঙ্গে, তবে পাঠ্য স্বীকৃতি একই the ডিকোডিং উভয় স্পিকারের জন্য একই পাঠ্য দেয়, যদিও অক্ষরের সারিবদ্ধকরণ এবং অবস্থান পৃথক হয়।
আরও পড়া: