গুরুত্বপূর্ণ শব্দগুলি খুঁজতে ভাষার বিশ্লেষণ

9

আমি কীভাবে একটি লেক্সিকাল বিষয়ের কাছে যেতে পারি তার জন্য কিছু ইনপুট এবং তত্ত্বের সন্ধান করছি।

ধরা যাক আমার কাছে স্ট্রিংয়ের সংকলন রয়েছে যা কেবলমাত্র একটি বাক্য বা সম্ভাব্য একাধিক বাক্য হতে পারে। আমি এই স্ট্রিংগুলি বিশ্লেষণ করতে এবং সর্বাধিক গুরুত্বপূর্ণ শব্দগুলিকে ছড়িয়ে দিতে চাই, সম্ভবত এমন একটি স্কোর দিয়ে যা শব্দটি কীভাবে গুরুত্বপূর্ণ হতে পারে তার সম্ভাব্যতা বোঝায়।

আসুন আমি যা বোঝাতে চাইছি তার কয়েকটি উদাহরণ দেখুন।

উদাহরণ # 1:

"আমি সত্যিই একটি কেউরিগ চাই, তবে আমি এটির সামর্থ্য রাখি না!"

এটি একটি খুব মৌলিক উদাহরণ, মাত্র একটি বাক্য। একজন মানুষ হিসাবে আমি সহজেই দেখতে পাচ্ছি যে এখানে "কেউরিগ" সবচেয়ে গুরুত্বপূর্ণ শব্দ। এছাড়াও, "সামর্থ্য" তুলনামূলকভাবে গুরুত্বপূর্ণ, যদিও এটি পরিষ্কারভাবে বাক্যটির প্রাথমিক বিন্দু নয়। "আমি" শব্দটি দু'বার প্রদর্শিত হয়েছে, তবে এটি মোটেও গুরুত্বপূর্ণ নয় কারণ এটি আমাদের কোনও তথ্য সত্যই বলে না। আমি শব্দের / স্কোরগুলির একটি হ্যাশ এমন কিছু দেখার আশা করতে পারি:

"Keurig" => 0.9
"afford" => 0.4
"want"   => 0.2
"really" => 0.1
etc...

উদাহরণ # 2:

"সবেমাত্র আমার জীবনের অন্যতম সেরা সাঁতার অনুশীলন ছিল। আশা করি প্রতিযোগিতায় আসার সময়টি আমি বজায় রাখতে পারব। যদি আমার নন-ওয়াটারপ্রুফ ওয়াচটি মনে করতে পারত তবেই।"

এই উদাহরণটিতে একাধিক বাক্য রয়েছে, সুতরাং সেখানে আরও গুরুত্বপূর্ণ শব্দ থাকবে। উদাহরণ # 1 থেকে পয়েন্ট ব্যায়ামটির পুনরাবৃত্তি না করে আমি সম্ভবত দুটি বা তিনটি সত্যই গুরুত্বপূর্ণ শব্দটি এখান থেকে বেরিয়ে আসার প্রত্যাশা করব: "সাঁতার" (বা "সাঁতার অনুশীলন"), "প্রতিযোগিতা" এবং "ঘড়ি" (বা "জলরোধী) হাইফেন কীভাবে পরিচালনা করা হয় তার উপর নির্ভর করে "দেখুন" বা "নন-ওয়াটারপ্রুফ ওয়াচ"।

এর মতো কয়েকটি উদাহরণ দেওয়া হল, আপনি কীভাবে অনুরূপ কিছু করতে যাবেন? প্রোগ্রামিংয়ে এমন কোন বিদ্যমান (ওপেন সোর্স) লাইব্রেরি বা অ্যালগরিদম রয়েছে যা ইতিমধ্যে এটি করে?

parsing languages

— ম্যাট হাগিনস
সূত্র

এছাড়াও, এটি প্রোগ্রামার্স.স্ট্যাকেক্সেক্সঞ্জ.কম এ আমার প্রথম পোস্ট। যদি এটি ভুল জায়গা হয় এবং স্ট্যাকওভারফ্লো বা অন্য কোনও এসই সাইটের সাথে সম্পর্কিত তবে ক্ষমা প্রার্থনা করুন। প্রয়োজনে প্রশ্ন সরিয়ে খুশি।

— ম্যাট হাগিনস

আপনি কী অর্জন করতে চাইছেন তা আমি প্রশ্ন থেকে বুঝতে পারি না। বিশেষত প্রথম উদাহরণ হিসাবে, "কেউরিগ" এবং "সামর্থ্য" শব্দটি একটি সাধারণ পরিসংখ্যানগত চেক দ্বারা চিহ্নিত করা যায়: বাক্যটির শব্দের মধ্যে এই দুটি শব্দ অন্যদের তুলনায় ইংরেজিতে কম দেখা যায়। সুতরাং আপনার যদি শব্দ ফ্রিকোয়েন্সিগুলির একটি ডেটাবেস থাকে তবে আপনি সহজেই এই শব্দগুলি সনাক্ত করতে পারেন।

— কিওয়ারটি

5

আপনার বর্ণিত সমস্যাটি সম্পর্কে অবশ্যই ভাবছেন লোকেরা। জোয়াও ভেনচুরা এবং জোয়াকিম ফেরেরিরা দা সিলভার র‌্যাঙ্কিং এবং প্রাসঙ্গিক একক শব্দগুলির পাঠ্য (পিডিএফ) এক্সট্রাকশন বিদ্যমান র‌্যাঙ্কিংয়ের কৌশলগুলির পাশাপাশি উন্নতির পরামর্শের একটি দুর্দান্ত ভূমিকা। তারা যে সমস্ত কৌশল বর্ণনা করে তা কোনও এক বা দুটি লাইনের বিপরীতে কর্পাসের (প্রচুর পাঠ্য) উপর নির্ভর করে। আপনার কর্পাসটি নির্দিষ্ট উত্স থেকে সমস্ত নমুনা সংগ্রহ করা বা সম্ভবত সংগ্রহ করা নমুনার অনেকগুলি কর্পোরার হতে হবে। মনে রাখবেন যে একক শব্দের (ইউনিগ্রাম) প্রাসঙ্গিকতা হ'ল একটি সমাধানযোগ্য সমস্যা। কাগজ বর্ণনা হিসাবে:

"... নিখুঁত পরিসংখ্যানগত পদ্ধতি ব্যবহার করে, এই ধরণের শ্রেণিবিন্যাস সর্বদা সহজ বা এমনকি সঠিক নয় কারণ প্রাসঙ্গিকতার ধারণাটি সহজেই উপলব্ধি করা সহজ ধারণা, সাধারণত সীমান্ত সম্পর্কে কোনও sensক্যমত্য নেই যা প্রাসঙ্গিকতাটিকে অ-প্রাসঙ্গিকতা থেকে পৃথক করে। উদাহরণস্বরূপ, "প্রজাতন্ত্র" বা "লন্ডন" এর মতো শব্দের তাত্পর্যপূর্ণ প্রাসঙ্গিকতা রয়েছে এবং "বা" এবং "যেহেতু" এর মতো শব্দগুলির কোনও মিল নেই তবে "পড়ুন", "সমাপ্তি" এবং "পরবর্তী" এর মতো শব্দগুলির কী? শব্দগুলির সমস্যা সমস্যাযুক্ত কারণ সাধারণত তাদের শব্দার্থক মান সম্পর্কে কোনও .ক্যমত্য নেই। "

অনেকগুলি ওপেন সোর্স প্রাকৃতিক ভাষা প্রসেসিং টুলকিট রয়েছে । (সাবধানতা অবলম্বন করুন। কিছু সরঞ্জাম গবেষণার জন্য নিখরচায় তবে বাণিজ্যিক ব্যবহারের জন্য বাণিজ্যিক লাইসেন্সের প্রয়োজন)) আপনার চয়ন করা পন্থা নির্বিশেষে তারা আপনার জীবনকে আরও সহজ করে তুলবে।

আমি প্রাকৃতিক ভাষা টুলকিট (এনএলটিকে) এর সাথে সর্বাধিক পরিচিত । এটি ব্যবহার করা সহজ, ভাল-নথিভুক্ত, এবং পাইথনের সাথে প্রাকৃতিক ভাষা প্রসেসিং (নিখরচায় অনলাইনে উপলভ্য) বইটিতে বৈশিষ্ট্যযুক্ত । NLTK আপনার জন্য কী করতে পারে তার একটি সাধারণ উদাহরণ হিসাবে, এর অংশবিধ -স্পিচ ট্যাগারটি ব্যবহার করে কল্পনা করুন । প্রতিটি শব্দের অংশের-বক্তৃতাকে চিহ্নিত করার সাথে সাথে আপনি যথাযথ বিশেষ্যগুলি খুব গুরুত্বপূর্ণ এবং বিশেষণগুলি কম বিবেচনা করতে পারেন। ক্রিয়াগুলি গুরুত্বপূর্ণ এবং অ্যাডওয়্যারের কম হতে পারে। এটি কোনওভাবেই অত্যাধুনিক র‌্যাঙ্কিং নয়, তবে আপনি সামান্য প্রচেষ্টা দিয়ে দরকারী তথ্য পান। আপনি যখন আরও পরিশীলিত বিশ্লেষণে এগিয়ে যাওয়ার জন্য প্রস্তুত হবেন, এনএলটিকি'র টোকেনাইজ, ট্যাগ, অংশ এবং শ্রেণিবদ্ধকরণের অন্তর্নির্মিত ক্ষমতা আপনাকে আপনার সমাধানের অন্যান্য বিবরণগুলিতে ফোকাস করতে দেবে।

— কর্বিন মার্চ
সূত্র

1

প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ এটির নিজস্ব শৃঙ্খলা with আমি সেখানে তাকিয়ে শুরু হবে।

আমি আমার প্রয়োজনগুলি নিয়েও পুনর্বিবেচনা করব। এমনকি 50+ বছর গবেষণার পরেও, সেরা কম্পিউটার বিজ্ঞানীরা সিরি সাথে আসতে পেরেছেন। আমি আশা করব না যে কোনও কম্পিউটার আপনি নিয়মিততার সাথে যা বলছেন তা সফলভাবে করবেন।

যদি বক্তৃতার কিছু সীমাবদ্ধতা থাকে (যেমন সিরি আপনাকে ধরে নিয়েছে যে আপনার একটি সাধারণ আদেশ বা প্রশ্ন রয়েছে) তবে এটি আরও ভাল হতে পারে। আমার প্রয়োজনগুলি নিয়ে পুনর্বিবেচনা করা (আমার এনএলপি প্রয়োজন বলে ধরে নেওয়া) আমার সীমাবদ্ধতাগুলি সংজ্ঞায়িত করার অন্তর্ভুক্ত। এর পরে আমি সম্ভবত এক টন উদাহরণ অনুসন্ধান করব। আংশিকভাবে আমি যা যা কিছু পরীক্ষা করেছি, তবে অনেকগুলি আধুনিক সমাধান মেশিন শেখার সাথে জড়িত। শেখার বক্ররেখার ইনপুট হিসাবে আমার সেই উদাহরণগুলি দরকার need

সুতরাং সংক্ষেপে, আমি গুরুত্ব সহকারে সন্দেহ করি যে কোনও বিষয় আপনাকে এই ধরণের প্রসঙ্গমুক্ত দৃশ্যে ভাল স্কোর দিতে সক্ষম হবে।

— Telastyn
সূত্র

সিরি ডিগ ... বা প্রচারের জন্য +1 ...

— অ্যারন ম্যাকআইভার