আমি কীভাবে একটি লেক্সিকাল বিষয়ের কাছে যেতে পারি তার জন্য কিছু ইনপুট এবং তত্ত্বের সন্ধান করছি।
ধরা যাক আমার কাছে স্ট্রিংয়ের সংকলন রয়েছে যা কেবলমাত্র একটি বাক্য বা সম্ভাব্য একাধিক বাক্য হতে পারে। আমি এই স্ট্রিংগুলি বিশ্লেষণ করতে এবং সর্বাধিক গুরুত্বপূর্ণ শব্দগুলিকে ছড়িয়ে দিতে চাই, সম্ভবত এমন একটি স্কোর দিয়ে যা শব্দটি কীভাবে গুরুত্বপূর্ণ হতে পারে তার সম্ভাব্যতা বোঝায়।
আসুন আমি যা বোঝাতে চাইছি তার কয়েকটি উদাহরণ দেখুন।
উদাহরণ # 1:
"আমি সত্যিই একটি কেউরিগ চাই, তবে আমি এটির সামর্থ্য রাখি না!"
এটি একটি খুব মৌলিক উদাহরণ, মাত্র একটি বাক্য। একজন মানুষ হিসাবে আমি সহজেই দেখতে পাচ্ছি যে এখানে "কেউরিগ" সবচেয়ে গুরুত্বপূর্ণ শব্দ। এছাড়াও, "সামর্থ্য" তুলনামূলকভাবে গুরুত্বপূর্ণ, যদিও এটি পরিষ্কারভাবে বাক্যটির প্রাথমিক বিন্দু নয়। "আমি" শব্দটি দু'বার প্রদর্শিত হয়েছে, তবে এটি মোটেও গুরুত্বপূর্ণ নয় কারণ এটি আমাদের কোনও তথ্য সত্যই বলে না। আমি শব্দের / স্কোরগুলির একটি হ্যাশ এমন কিছু দেখার আশা করতে পারি:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
উদাহরণ # 2:
"সবেমাত্র আমার জীবনের অন্যতম সেরা সাঁতার অনুশীলন ছিল। আশা করি প্রতিযোগিতায় আসার সময়টি আমি বজায় রাখতে পারব। যদি আমার নন-ওয়াটারপ্রুফ ওয়াচটি মনে করতে পারত তবেই।"
এই উদাহরণটিতে একাধিক বাক্য রয়েছে, সুতরাং সেখানে আরও গুরুত্বপূর্ণ শব্দ থাকবে। উদাহরণ # 1 থেকে পয়েন্ট ব্যায়ামটির পুনরাবৃত্তি না করে আমি সম্ভবত দুটি বা তিনটি সত্যই গুরুত্বপূর্ণ শব্দটি এখান থেকে বেরিয়ে আসার প্রত্যাশা করব: "সাঁতার" (বা "সাঁতার অনুশীলন"), "প্রতিযোগিতা" এবং "ঘড়ি" (বা "জলরোধী) হাইফেন কীভাবে পরিচালনা করা হয় তার উপর নির্ভর করে "দেখুন" বা "নন-ওয়াটারপ্রুফ ওয়াচ"।
এর মতো কয়েকটি উদাহরণ দেওয়া হল, আপনি কীভাবে অনুরূপ কিছু করতে যাবেন? প্রোগ্রামিংয়ে এমন কোন বিদ্যমান (ওপেন সোর্স) লাইব্রেরি বা অ্যালগরিদম রয়েছে যা ইতিমধ্যে এটি করে?