প্রদত্ত স্ট্রিংটি স্ট্রিংয়ের সংকলনের সাথে কতটা সমান তা নির্ধারণ করে


10

আমি নিশ্চিত নই যে এই প্রশ্নটি এখানে আছে কিনা এবং আমি ক্ষমা চাইব না তবে। আমি যা করতে চাই তা হ'ল একটি প্রোগ্রাম্যাটিক পদ্ধতিটি বিকাশ করা যাতে আমি সম্ভাব্যতার সাথে নির্ধারণ করতে পারি যে প্রদত্ত স্ট্রিংটি একটি স্ট্রিংয়ের "ব্যাবসায়" আছে কিনা "কিনা"। উদাহরণস্বরূপ, যদি আমার 10,000 টি মার্কিন শহরের নাম ব্যাগ থাকে এবং তারপরে আমার কাছে "ফিলাডেলফিয়া" স্ট্রিং থাকে, তবে আমি ইতিমধ্যে জানি যে মার্কিন শহরের নামগুলির ভিত্তিতে 'ফিলাডেলফিয়া' কোনও মার্কিন শহরের নাম হতে পারে তার কিছু পরিমাণগত পরিমাপ চাই। যদিও আমি জানি আমি এই প্রসঙ্গে জাল শহরের নামগুলি থেকে প্রকৃত শহরের নামগুলি পৃথক করতে পারব না, তবে আমি অন্তত "123.75" এবং "দ্রুত লাল শিয়ালটি অলস বাদামী কুকুরের উপরে ঝাঁপিয়ে পড়ে" এর মতো স্ট্রিং থাকার কথা আশা করব না কিছু প্রান্তিক।

শুরু করার জন্য, আমি লেভেনস্টাইন দূরত্বের দিকে তাকিয়েছি এবং সমস্যাগুলি কীভাবে সমাধান করতে চাইছি এর সাথে কিছুটা অনুরূপ কীভাবে এটি প্রয়োগ করা হয়েছে সে সম্পর্কে কিছুটা তাকিয়েছি। একটি আকর্ষণীয় অ্যাপ্লিকেশন আমি খুঁজে পেয়েছি হ'ল চৌর্যবৃত্তি সনাক্তকরণ, যেখানে একটি লেভেনস্টেনের দূরত্ব কীভাবে পরিবর্তিত স্মিথ-ওয়াটারম্যান অ্যালগরিদমের সাথে কাগজপত্র স্কোর করতে ব্যবহৃত হয়েছিল তা কীভাবে সম্ভবত প্রদত্ত বেস পেপারের প্লাগরাইজড সংস্করণ ছিল তার ভিত্তিতে কাগজপত্র স্কোর করতে ব্যবহৃত হয়েছিল। আমার প্রশ্ন হ'ল যদি কেউ আমাকে প্রতিষ্ঠিত অন্যান্য অ্যালগরিদম বা পদ্ধতিগুলি যা আমাকে সহায়তা করতে পারে তার সাথে সঠিক দিক নির্দেশ করতে পারে। আমি এই অনুভূতিটি পেয়েছি যে এটি অতীতে কেউ সমস্যা সমাধানের চেষ্টা করেছে তবে এখন পর্যন্ত আমার গুগল-ফু আমাকে ব্যর্থ করেছে।


আপনার যদি ইতিবাচক এবং নেতিবাচক উদাহরণ উপলব্ধ থাকে তবে আপনি শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার চেষ্টা করতে পারেন। বৈশিষ্ট্যগুলির জন্য, শুরু করার জন্য আমি কিছু সাধারণ পরিসংখ্যান যেমন যুবাল ফিল্মাস দ্বারা প্রস্তাবিত হিসাবে টানা চেষ্টা করব।
নিক


শহরের নামগুলি একটি খারাপ উদাহরণ বলে মনে হচ্ছে; তারা সমস্ত জায়গা জুড়ে, বিশেষত মার্কিন যুক্তরাষ্ট্রে। এখানে, সারণী অনুসন্ধানটি সবচেয়ে কার্যকর উপায় বলে মনে হচ্ছে। আপনার সমস্যা কি আরও সাধারণ?
রাফেল

উত্তর:


5

nnnn=2

হিউরিস্টিকস দেওয়া, আপনি এমন স্কোর পাওয়ার সম্ভাবনাটি ব্যবহার করতে পারেন যা অন্য পাঠ্যের চেয়ে আপনার নমুনা ডেটার চেয়ে বেশি (আশা)। যুক্তিসঙ্গত প্রান্তিক অবস্থান নির্ধারণ করার জন্য, আপনি ক্রস-বৈধতা সম্পাদন করতে পারেন। শহরের নাম নয় এমন নমুনা বাক্যগুলির একটি সেট চয়ন করুন । শহরের নাম দুটি অংশে ভাগ করুন, একটি বৃহত (80% বলুন) অংশ এবং একটি ছোট (20% বলুন) অংশ। আপনার মডেলটিকে বড় অংশে প্রশিক্ষণ দিন (এটি বৃহত অংশের পরিসংখ্যান সংগ্রহ করুন) এবং তারপরে আপনার অংশটি ছোট অংশে এবং খারাপ বাক্যাংশের নমুনায় মূল্যায়ন করুন। কোনও যুক্তিসঙ্গত প্রান্তিকর যদি বেশিরভাগ শহরের নাম পাস করে তবে তা নির্ধারণ করুন, তবে কেবলমাত্র অল্প পরিমাণে খারাপ বাক্যাংশ।


ধন্যবাদ। আমি এন-গ্রামে সন্ধান করতে শুরু করেছিলাম তবে আমি জানতাম না যে আমি পুরোপুরি অফ-বেস কিনা তাই আপনি খুশি হয়েছি আপনি এটি উল্লেখ করেছেন। শব্দের দৈর্ঘ্য আকর্ষণীয় এবং এমন কিছু যা আমি ভেবেও দেখিনি।
অ্যান্ড্রু

আপনি এটিতে অক্ষরের ফ্রিকোয়েন্সি যুক্ত করতে চাইতে পারেন। বিশেষত, এটি সমস্ত সংখ্যক জিনিস থেকে মুক্তি পাওয়া উচিত should একটি সুবিধা হ'ল এই জাতীয় ফ্রিকোয়েন্সিগুলি সংখ্যার ভেক্টর যা বেশ কয়েকটি পরিসংখ্যানের মডেলগুলিতে প্রশিক্ষিত / স্বীকৃত হতে পারে।
রাফেল

1
1n+1n
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.