আমি নথি শ্রেণীবদ্ধ করার জন্য সিএনএন (কনভোলিউশনাল নিউরাল নেটওয়ার্ক) ব্যবহার করার চেষ্টা করছি। সংক্ষিপ্ত পাঠ / বাক্যগুলির জন্য সিএনএন অনেকগুলি গবেষণাপত্রে অধ্যয়ন করা হয়েছে। তবে মনে হয় কোনও কাগজই দীর্ঘ পাঠ্য বা নথির জন্য সিএনএন ব্যবহার করে নি।
আমার সমস্যাটি হ'ল ডকুমেন্ট থেকে অনেকগুলি বৈশিষ্ট্য রয়েছে। আমার ডেটাসেটে, প্রতিটি নথিতে 1000 টিরও বেশি টোকেন / শব্দ রয়েছে। প্রতিটি উদাহরণ সিএনএন-তে খাওয়ানোর জন্য, আমি ওয়ার্ড টুভেক বা গ্লোভ ব্যবহার করে একটি বড় ম্যাট্রিক্স ব্যবহার করে প্রতিটি নথিকে ম্যাট্রিক্সে রূপান্তর করি । প্রতিটি ম্যাট্রিক্সের জন্য উচ্চতাটি নথির দৈর্ঘ্য এবং প্রস্থটি শব্দের এমবেডিং ভেক্টরের আকার। আমার ডেটাসেটে 9000 টিরও বেশি উদাহরণ রয়েছে এবং নেটওয়ার্কটি (পুরো সপ্তাহ) প্রশিক্ষণে এটি অনেক সময় নেয় যা প্যারামিটারগুলি সূক্ষ্ম করে তোলে।
আর একটি বৈশিষ্ট্য আহরণের পদ্ধতি হ'ল প্রতিটি শব্দের জন্য এক-হট ভেক্টর ব্যবহার করা, তবে এটি খুব বিচ্ছুরিত ম্যাট্রিক্স তৈরি করবে। এবং অবশ্যই, এই পদ্ধতিটি এমনকি পূর্বের পদ্ধতির চেয়ে প্রশিক্ষণের জন্য আরও বেশি সময় নেয়।
তাহলে বড় ইনপুট ম্যাট্রিক্স তৈরি না করে বৈশিষ্ট্য আহরণের আরও ভাল পদ্ধতি কি আছে?
এবং আমাদের কীভাবে নথির পরিবর্তনশীল দৈর্ঘ্য পরিচালনা করতে হবে? বর্তমানে, নথির একই দৈর্ঘ্য তৈরি করতে আমি বিশেষ স্ট্রিং যুক্ত করছি, তবে আমি মনে করি না এটি একটি ভাল সমাধান।