আমি কখন ব্যবহার করব?
এছাড়াও ... NLTK লেম্যাটাইজেশন স্পিচ পার্টসের উপর নির্ভরশীল? এটা যদি আরও সঠিক হত না?
আমি কখন ব্যবহার করব?
এছাড়াও ... NLTK লেম্যাটাইজেশন স্পিচ পার্টসের উপর নির্ভরশীল? এটা যদি আরও সঠিক হত না?
উত্তর:
সংক্ষিপ্ত এবং ঘন: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatiization-1.html
স্টেমিং এবং লেম্যাটাইজেশন উভয়ের লক্ষ্য হ'ল প্রতিচ্ছবিযুক্ত ফর্মগুলি এবং কখনও কখনও ব্যতিক্রমীভাবে কোনও শব্দের সম্পর্কিত ফর্মগুলি একটি সাধারণ বেস আকারে হ্রাস করা।
যাইহোক, দুটি শব্দ তাদের স্বাদে পৃথক। স্টেমিং সাধারণত একটি অশোধিত হিউরিস্টিক প্রক্রিয়া বোঝায় যা বেশিরভাগ সময় সঠিকভাবে এই লক্ষ্য অর্জনের আশায় শব্দের প্রান্তকে ছাপিয়ে যায় এবং প্রায়শই ডেরাইভেশনাল অ্যাফিক্সেস অপসারণকে অন্তর্ভুক্ত করে। লেম্যাটাইজেশন সাধারণত শব্দের একটি শব্দভাণ্ডার এবং রূপচর্চা বিশ্লেষণের সাহায্যে জিনিসগুলি যথাযথভাবে করা বোঝায়, সাধারণত লক্ষ্যমাত্রার অন্তর্নিহিত পরিণতিগুলি সরিয়ে দেয় এবং শব্দের ভিত্তি বা অভিধানের ফর্মটি ফিরিয়ে আনে, যা লেমা নামে পরিচিত।
NLTK ডক্স থেকে:
লেম্যাটাইজেশন এবং স্টেমিং সাধারণকরণের বিশেষ ঘটনা। তারা সম্পর্কিত শব্দ ফর্মের একটি সেট জন্য একটি প্রমিত প্রতিনিধি সনাক্ত।
Lemmatisation ঘনিষ্ঠভাবে সম্পর্কিত হয় গৌন । পার্থক্যটি হ'ল স্টেমার প্রসঙ্গের অজান্তে একটি শব্দের উপরেই কাজ করে এবং তাই কথার অংশের উপর নির্ভর করে বিভিন্ন অর্থ থাকা শব্দের মধ্যে পার্থক্য করতে পারে না। তবে, স্টিমারগুলি সাধারণত প্রয়োগ করা এবং দ্রুত চালানো সহজতর হয় এবং কিছু অ্যাপ্লিকেশনগুলির জন্য হ্রাস হওয়া নির্ভুলতা কোনও বিষয় নয়।
এই ক্ষেত্রে:
"আরও ভাল" শব্দটির লেমা হিসাবে "ভাল" রয়েছে। এই লিঙ্কটি স্টেমিং দ্বারা মিস হয়েছে, কারণ এটি অভিধানের চেহারা প্রয়োজন।
"হাঁটা" শব্দটি "হাঁটা" শব্দের মূল ফর্ম, এবং তাই এটি স্টেমিং এবং লেমেটাইজেশন উভয় ক্ষেত্রেই মিলছে।
"সভা" শব্দটি হয় প্রসঙ্গের উপর নির্ভর করে বিশেষ্য বা ক্রিয়া ("দেখা") এর ফর্ম হতে পারে, যেমন, "আমাদের শেষ বৈঠকে" বা "আমরা আগামীকাল আবার দেখা করছি"। স্টেমিংয়ের বিপরীতে, লেম্যাটাইজেশন নীতিগতভাবে প্রসঙ্গের উপর নির্ভর করে উপযুক্ত লেমাকে নির্বাচন করতে পারে।
তাদের পার্থক্য দেখানোর জন্য দুটি দিক রয়েছে:
একটি স্টিমার একটি শব্দের কান্ডকে ফিরিয়ে দেবে, যা শব্দের রূপচিকিত্সের মূলের মতো নয়। এটি প্রায়শই যথেষ্ট যে সম্পর্কিত শব্দগুলি একই কান্ডে ম্যাপ করে , যদিও কান্ডটি নিজেই একটি বৈধ রুট না থাকে, যদিও লেম্যাটাইজেশনে এটি কোনও শব্দের অভিধান রূপটি ফিরিয়ে দেয়, যা অবশ্যই একটি বৈধ শব্দ হতে হবে।
ইন lemmatisation , একটি শব্দ ভাষণের অংশ প্রথম নির্ধারিত করা উচিত এবং নিয়মমাফিককরণ নিয়ম সময় বাক বিভিন্ন অংশের জন্য ভিন্ন হবে, stemmer শব্দ যা বিভিন্ন করেন তাদের মধ্যে বৈষম্য করতে পারবে না প্রসঙ্গের অজ্ঞাতসারে একটি কথাও ওপর কাজ করবে এবং এর ফলে বক্তৃতার অংশের উপর নির্ভর করে এর অর্থ।
রেফারেন্স http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatiization
স্টেমিং এবং লেম্যাটাইজেশন উভয়ের উদ্দেশ্য মোর্ফোলজিকাল প্রকরণকে হ্রাস করা। এটি আরও সাধারণ "টার্ম কনফ্লেশন" পদ্ধতির বিপরীতে যা লিক্সিকো-সিনমেটিক, সিনট্যাকটিক বা অরথোগ্রাফিক প্রকরণগুলিকেও সম্বোধন করতে পারে।
স্টেমিং এবং লেম্যাটাইজেশনের মধ্যে আসল পার্থক্যটি তিনগুণ:
স্টেমিং শব্দের-রূপগুলি (সিউডো) কান্ডগুলিতে হ্রাস করে, যেখানে লেম্যাটাইজেশন শব্দ-রূপগুলিকে ভাষাগতভাবে বৈধ লেমমাসে হ্রাস করে। এই তফাতটি আরও জটিল আকারের ভাষায় স্পষ্ট হয় তবে অনেক আইআর অ্যাপ্লিকেশনগুলির জন্য এটি অপ্রাসঙ্গিক হতে পারে;
লেম্যাটাইজেশন কেবলমাত্র প্রতিচ্ছবিযুক্ত বৈকল্পিকতার সাথে ডিল করে, যেখানে স্টেম্মিংয়ের সাথে ডেরাইভেশনাল বৈকল্পিকতাও ডিল করতে পারে;
প্রয়োগের ক্ষেত্রে, লেমটিটিজেশন সাধারণত আরও পরিশীলিত হয় (বিশেষত আকারে জটিল ভাষাগুলির জন্য) এবং সাধারণত কিছু ধরণের লিক্সিকার প্রয়োজন হয়। অন্যদিকে সন্তুষ্টিজনক স্টেমিং বরং সহজ নিয়ম-ভিত্তিক পদ্ধতির সাহায্যে অর্জন করা যায়।
লেমনেটাইজাইজেশনকে পার্থ-অফ স্পিচ ট্যাগার দ্বারা সমকামিতা অক্ষম করার জন্য ব্যাক আপ করা যেতে পারে।
এমআইওয়াইএন যেমন উল্লেখ করেছে, স্টেমিং হচ্ছে মূল ফর্মের প্রতিচ্ছবিযুক্ত এবং কখনও কখনও ডেরাইভেশনাল অ্যাফিক্সেস সরিয়ে ফেলার প্রক্রিয়া যা মূল শব্দগুলির সাথে সম্ভবত সম্পর্কিত। লেম্যাটাইজাইজেশন এমন একক শব্দ প্রাপ্তির সাথে সম্পর্কিত যা আপনাকে একত্রিত করে একসাথে প্রতিফলিত ফর্মগুলির একগুচ্ছ তৈরি করতে দেয়। এটি স্টেমিংয়ের চেয়ে শক্ত কারণ কারণ এর জন্য প্রসঙ্গটি বিবেচনায় নেওয়া প্রয়োজন (এবং এভাবে শব্দের অর্থ), যখন স্টেমিং প্রসঙ্গে উপেক্ষা করে।
আপনি কখন এক বা অন্যটি ব্যবহার করবেন তা আপনার অ্যাপ্লিকেশনটি প্রসঙ্গে কোনও শব্দের অর্থ সঠিকভাবে পাওয়ার জন্য কতটা নির্ভর করে তা বিষয়। আপনি যদি মেশিন অনুবাদ করছেন তবে আপনি সম্ভবত কোনও শব্দটির ভুল ব্যাখ্যা এড়াতে লেমটাইজেশন চান। যদি আপনি আপনার কোয়ালিটির 99% থেকে 1-3 টি শব্দ নিয়ে একটি বিলিয়ন ডকুমেন্টের উপর তথ্য পুনরুদ্ধার করেন তবে আপনি স্টেমিংয়ের জন্য নিষ্পত্তি করতে পারেন।
এনএলটিকে হিসাবে, ওয়ার্ডনেটলেমেটিজার বক্তৃতার অংশটি ব্যবহার করে, যদিও আপনাকে এটি সরবরাহ করতে হবে (অন্যথায় এটি বিশেষ্যগুলিতে ডিফল্ট হয়)। এটি "কপোত" এবং "ভি" প্রদান করে "ডুব" পাওয়া যায় যখন "কপোতী" এবং "এন" "ঘুঘু" দেয়।
লেম্যাটাইজেশন এবং স্টেমিংয়ের মধ্যে পার্থক্য সম্পর্কে একটি উদাহরণ-চালিত ব্যাখ্যা:
Lemmatization হ্যান্ডলগুলি "গাড়ী" থেকে "গাড়ী" মিলে "অটোমোবাইল" থেকে "গাড়ী" মিলে যায়।
গৌন হ্যান্ডলগুলি "গাড়ী" থেকে "গাড়ী" মিলে ।
লেম্যাটাইজেশন ফাজি শব্দের মিলের বিস্তৃত সুযোগকে বোঝায় যা এখনও একই সাবসিস্টেমগুলি দ্বারা পরিচালিত। এটি ইঞ্জিনের মধ্যে নিম্ন স্তরের প্রক্রিয়াজাতকরণের জন্য নির্দিষ্ট কৌশলগুলি বোঝায় এবং পরিভাষাটির জন্য ইঞ্জিনিয়ারিং পছন্দকেও প্রতিফলিত করতে পারে।
[...] একটি উদাহরণ হিসাবে দ্রুত গ্রহণ করা, তাদের লেমটাইজাইজেশন ইঞ্জিনটি একবচন বনাম বহুবচনের মতো কেবল মৌলিক শব্দের ভিন্নতাগুলিকেই পরিচালনা করে না, তবে "গরম" ম্যাচটি "উষ্ণ" করার মতো থিসেরাস অপারেটরদেরও পরিচালনা করে।
এটির অর্থ এই নয় যে অন্যান্য ইঞ্জিনগুলি প্রতিশব্দগুলি হ্যান্ডেল করে না, অবশ্যই তারা করে, তবে নিম্ন স্তরের প্রয়োগগুলি বেস স্টেমিংকে পরিচালনা করে এমনগুলির চেয়ে আলাদা একটি সাবসিস্টেমের মধ্যে থাকতে পারে।
আইয়ানাকল
তবে আমি মনে করি স্টেমিং মোটামুটি হ্যাক লোকেরা একই শব্দের বিভিন্ন রূপকে বেস ফর্মের জন্য ব্যবহার করে যার নিজস্ব ভাষায় কোনও আইনী শব্দ হওয়া দরকার না এর
মতো কিছু পোর্টার স্টেমার সাধারণ শব্দ প্রত্যয়কে মুছে ফেলার জন্য সরল রেজেক্স ব্যবহার করতে পারে
লেম্যাটাইজেশন একটি শব্দকে তার আসল বেস ফর্মের দিকে নিয়ে আসে যা অনিয়মিত ক্রিয়াগুলির ক্ষেত্রে ইনপুট শব্দের মতো কিছুই না
দেখায় মুরফার মতো কিছু যা এফএসটি ব্যবহার করে তাদের বেস আকারে বিশেষ্য এবং ক্রিয়াগুলি আনায়
স্টেমিং কেবল একটি শব্দের শেষ কয়েকটি অক্ষর সরিয়ে দেয় বা ডালপালা ডেকে আনে যা প্রায়শই ভুল অর্থ এবং বানান নিয়ে যায়। লেম্যাটাইজেশন প্রসঙ্গটি বিবেচনা করে এবং শব্দটিকে তার অর্থপূর্ণ বেস আকারে রূপান্তরিত করে, যাকে লেম্মা বলা হয়। কখনও কখনও, একই শব্দের একাধিক আলাদা লেমাস থাকতে পারে। সেই নির্দিষ্ট প্রসঙ্গে শব্দের জন্য আমাদের স্পিচ পার্ট (POS) ট্যাগটি সনাক্ত করা উচিত। সমস্ত পার্থক্য এবং ব্যবহারের ক্ষেত্রে চিত্রিত করার জন্য এখানে উদাহরণ দেওয়া হল:
স্টেমিং হ'ল একটি শব্দের শেষ কয়েকটি অক্ষর মুছে ফেলার প্রক্রিয়া, একটি সংক্ষিপ্ত রূপ প্রাপ্তি, এমনকি যদি সেই ফর্মটির কোনও অর্থ না থাকে।
উদাহরণ,
"beautiful" -> "beauti"
"corpora" -> "corpora"
স্টেমিং খুব দ্রুত করা যায়।
অন্যদিকে লেমটিটাইজেশন হ'ল শব্দের অভিধান অর্থ অনুসারে প্রদত্ত শব্দটিকে তার বেস ফর্মে রূপান্তর করার প্রক্রিয়া।
উদাহরণ,
"beautiful" -> "beauty"
"corpora" -> "corpus"
লেমমাটিজেশন স্টেমিংয়ের চেয়ে বেশি সময় নেয়।