সংযোগবাদী টেম্পোরাল শ্রেণিবিন্যাস (সিটিসি) কী?

আমি একটি অপটিকাল চরিত্র স্বীকৃতি (ওসিআর) প্রকল্প করতে চাইছি। কিছু গবেষণা করার পরে আমি এমন একটি স্থাপত্য জুড়ে এসেছি যা আকর্ষণীয় বলে মনে হচ্ছে: সিএনএন + আরএনএন + সিটিসি। আমি কনভলিউটেড নিউরাল নেটওয়ার্কগুলি (সিএনএন), এবং পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলি (আরএনএন) এর সাথে পরিচিত, তবে সংযোগবাদী টেম্পোরাল ক্লাসিফিকেশন (সিটিসি) কী? আমি সাধারণ ব্যক্তির শর্তাবলী একটি ব্যাখ্যা চাই।

— রায়ান জোতি
সূত্র

আমি আপনাকে মূল কাগজ পড়ার জন্য পরামর্শ দিচ্ছি: কবরস, ইত্যাদি। (২০০)) সংযোগবিদ টেম্পোরাল শ্রেণিবিন্যাস: পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে আনসিসমেটেড সিকোয়েন্স ডেটা লেবেল করা, মেশিন লার্নিংয়ের ২৩ তম আন্তর্জাতিক সম্মেলনের কার্যক্রম ( পিডিএফ )।

— নিও লি

আপনার একটি ডেটাসেট রয়েছে:

চিত্র I1, I2, ...
আই 1, আই 2, ... চিত্রগুলির জন্য জমি সত্য গ্রন্থগুলি টি 1, টি 2, ...

সুতরাং আপনার ডেটাসেটটি এর মতো দেখতে পারে:

একটি নিউরাল নেটওয়ার্ক (এনএন) চিত্রের প্রতিটি সম্ভাব্য অনুভূমিক অবস্থানের জন্য স্কোর আউটপুট দেয় (প্রায়শই সাহিত্যে টাইম-স্টেপ টি নামে পরিচিত )। প্রস্থ 2 (t0, t1) এবং 2 সম্ভাব্য অক্ষর ("a", "খ") সহ একটি চিত্রের জন্য এটি দেখতে এমন কিছু দেখাচ্ছে:

| t0 | t1 --+-----+---- a | 0.1 | 0.6 b | 0.9 | 0.4

এই জাতীয় এনএন প্রশিক্ষণ দেওয়ার জন্য আপনাকে অবশ্যই প্রতিটি চিত্রের জন্য নির্দিষ্ট করতে হবে যেখানে চিত্রটিতে গ্রাউন্ড ট্রুথ পাঠ্যের একটি অক্ষর অবস্থান রয়েছে। উদাহরণস্বরূপ, "হ্যালো" পাঠ্যযুক্ত একটি চিত্র মনে করুন। আপনাকে এখন অবশ্যই উল্লেখ করতে হবে যে "এইচ" শুরু হয় এবং শেষ হয় (যেমন "এইচ" 10 তম পিক্সেল থেকে শুরু হয় এবং 25 তম পিক্সেল পর্যন্ত যায়)। "ই", "এল, ... এর জন্য একই কথাটি বিরক্তিকর শোনায় এবং বড় ডেটাসেটের জন্য কঠোর পরিশ্রম।

এমনকি যদি আপনি এইভাবে একটি সম্পূর্ণ ডেটাসেটটি টীকায়িত করতে সক্ষম হন তবে অন্য সমস্যা আছে। এনএন প্রতিটি সময়-ধাপে প্রতিটি চরিত্রের জন্য স্কোর আউটপুট দেয়, খেলনার উদাহরণের জন্য আমি উপরে প্রদর্শিত টেবিলটি দেখুন। আমরা এখন সময়-ধাপে সর্বাধিক সম্ভাব্য চরিত্রটি গ্রহণ করতে পারি, এটি খেলনার উদাহরণে "খ" এবং "ক"। এখন একটি বড় পাঠ্য সম্পর্কে চিন্তা করুন, যেমন "হ্যালো"। লেখকের যদি লেখার শৈলী থাকে যা অনুভূমিক অবস্থানে অনেক জায়গা ব্যবহার করে তবে প্রতিটি চরিত্র একাধিক সময়-পদক্ষেপ দখল করবে। সময়-পদক্ষেপে সর্বাধিক সম্ভাবনাময় চরিত্রটি গ্রহণ করা, এটি আমাদের "এইচএইচএইচএইচএইচএইচএইচইইইচেল্ল্লল্লুও" এর মতো একটি পাঠ্য দিতে পারে। কীভাবে আমাদের এই পাঠ্যটিকে সঠিক আউটপুটে রূপান্তর করা উচিত? প্রতিটি সদৃশ চরিত্র সরান? এটি "হেলো" দেয়, যা সঠিক নয়। সুতরাং, আমাদের কিছু চালাক পোস্ট প্রসেসিংয়ের প্রয়োজন হবে।

সিটিসি উভয় সমস্যার সমাধান করে:

আপনি সিটিসি ক্ষতি ব্যবহার করে কোন অবস্থানে কোন অক্ষর ঘটে তা নির্দিষ্ট না করেই আপনি জোড় (আই, টি) থেকে নেটওয়ার্কটি প্রশিক্ষণ দিতে পারেন
আপনাকে আউটপুট পোস্টপ্রসেস করতে হবে না, কারণ কোনও সিটিসি ডিকোডার এনএন আউটপুটকে চূড়ান্ত পাঠ্যে রূপান্তরিত করে

এটি কীভাবে অর্জিত হয়?

একটি নির্দিষ্ট অক্ষর (সিটিসি-ফাঁকা, এই পাঠ্যটিতে "-" হিসাবে চিহ্নিত) পরিচয় করিয়ে দিন যাতে কোনও নির্দিষ্ট সময়-ধারে কোনও অক্ষর দেখা যায় না
সিটিসি-ফাঁকা সন্নিবেশ করে এবং সমস্ত সম্ভাব্য উপায়ে অক্ষর পুনরাবৃত্তি করে গ্রাউন্ড ট্রুয়াইট টি টু টি টু পরিবর্তন করুন
আমরা চিত্রটি জানি, আমরা পাঠ্যটি জানি, তবে পাঠ্যটি কোথায় অবস্থিত তা আমরা জানি না। সুতরাং, আসুন আমরা "হাই ----", "-হী ---", "- হি -" "... পাঠ্যের সমস্ত সম্ভাব্য অবস্থানগুলি চেষ্টা করি
চিত্রটিতে প্রতিটি অক্ষর কতটা জায়গা দখল করে তা আমরা জানি না। সুতরাং আসুন "HHi ----", "এইচএইচআই ---", "এইচএইচএইচআই ---", ... এর মতো অক্ষরগুলিকে পুনরাবৃত্তি করার অনুমতি দিয়ে সমস্ত সম্ভাব্য প্রান্তিককরণ চেষ্টা করে দেখুন ...
তুমি কি এখানে কোন সমস্যা দেখছ? অবশ্যই, আমরা যদি কোনও চরিত্রকে একাধিকবার পুনরাবৃত্তি করার অনুমতি দিই, তবে আমরা কীভাবে "হ্যালো" এর "এল" এর মতো প্রকৃত সদৃশ অক্ষরগুলি পরিচালনা করব ? ঠিক আছে, এই পরিস্থিতিতেগুলির মধ্যে কেবল সর্বদা একটি ফাঁকা সন্নিবেশ করান, উদাহরণস্বরূপ "হেল-লো" বা "হেইল ------- llo"
প্রতিটি সম্ভাব্য টি'র জন্য স্কোর গণনা করুন (এটি প্রতিটি রূপান্তর এবং এর প্রতিটি সংমিশ্রনের জন্য), সমস্ত স্কোরের যোগফল যা জোড়ার জন্য ক্ষতির পরিমাণ দেয় (আই, টি)
ডিকোডিং সহজ: প্রতিবারের পদক্ষেপের জন্য সর্বোচ্চ স্কোর সহ চরিত্র বেছে নিন, যেমন "HHHHHH-eeellll-lll - oo ---", নকল অক্ষর "এইচ-এল-লো" ফেলে দিন, ফাঁকা ফেলে দিন "হ্যালো", এবং আমরা শেষ.

এটি চিত্রিত করতে নীচের চিত্রটি দেখুন a এটি বক্তৃতা স্বীকৃতি প্রসঙ্গে, তবে পাঠ্য স্বীকৃতি একই the ডিকোডিং উভয় স্পিকারের জন্য একই পাঠ্য দেয়, যদিও অক্ষরের সারিবদ্ধকরণ এবং অবস্থান পৃথক হয়।

আরও পড়া:

একটি স্বজ্ঞাতপরিচয়: https://medium.com/@harald_scheidl/intuitively- बुझ বুঝে- সংযোগবিদ-temporal- শ্রেণিবদ্ধকরণ-3797 e43a86c ( আয়না )
আরও গভীরতর ভূমিকা: https://distill.pub/2017/ctc ( আয়না )
পাইথন বাস্তবায়ন যা আপনি এটি ব্যবহার করে সে সম্পর্কে আরও ভাল ধারণা পেতে সিটিসি ডিকোডারদের সাথে "খেলার" জন্য ব্যবহার করতে পারেন: https://github.com/githubharald/CTCDecoder
এবং অবশ্যই কাগজ গ্রাভস, অ্যালেক্স, সান্তিয়াগো ফার্নান্দেজ, ফাউস্টিনো গোমেজ এবং জর্জেন শ্মিধুবার। " সংযোগবাদী টেম্পোরাল শ্রেণিবিন্যাস: পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলির সাথে আনসিমিটেড সিকোয়েন্স ডেটাটিকে লেবেলিং করা হচ্ছে " " মেশিন লার্নিংয়ের 23 তম আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পিপি 369-376। এসিএম, 2006

— লুণ্ঠন করা
সূত্র

একটু বিভ্রান্তিকর, অন্তত আমার কাছে, আপনি কি প্রাথমিকভাবে বলতে "এর স্থল সত্য টেক্সট প্রতিটি ইমেজ T1 এর জন্য, T2, ..."। আপনার এটি ব্যাখ্যা করে শুরু করা উচিত। এছাড়াও, এটি খুব পরিষ্কার নয়, যদি আপনি ধারণাগুলির সাথে পরিচিত না হন, তবে "এ নিউরাল নেটওয়ার্ক (এনএন) বলতে আপনার প্রতিচ্ছবিটি প্রতিটি সম্ভাব্য অনুভূমিক অবস্থানের (সময়ের ধাপের টি) জন্য একটি স্কোর আউটপুট দেয়"। একটি চিত্রের সময় পদক্ষেপগুলি কীভাবে আসে? সংক্ষেপে, আপনার প্রাথমিক কিছু বিবৃতি ধরে মনে হচ্ছে যে আপনি কয়েকটি ধারণা সম্পর্কে অবগত আছেন, যা শেষ পর্যন্ত এই একই উত্তরে বোঝা গেছে, তবে, আইএমএইচও, আপনাকে এই ধারণাগুলি পরিষ্কার করা উচিত।

— nbro

সাহায্য করার জন্য ধন্যবাদ. আমি ডেটাসেট সম্পর্কে একটি চিত্র যুক্ত করেছি এবং বর্ণনটির উন্নতি করেছি। তদ্ব্যতীত, সময়-পদক্ষেপ শব্দটির অর্থ সহজভাবে "অনুভূমিক অবস্থান" বা পাঠ্য স্বীকৃতি প্রসঙ্গে x- সমন্বিত। শব্দটি সম্ভবত স্পিচ স্বীকৃতি (একই ধরণের টাস্ক) থেকে উদ্ভূত, যেখানে সময়-ধাপটি অডিও সিগন্যালের সময় অবস্থানকে বোঝায়।

— হ্যারি