স্টিমিং লেমমেটাইজেশনের মধ্যে পার্থক্য কী?


131

আমি কখন ব্যবহার করব?

এছাড়াও ... NLTK লেম্যাটাইজেশন স্পিচ পার্টসের উপর নির্ভরশীল? এটা যদি আরও সঠিক হত না?


2
এটি আমার মাথার উপরে, তবে কেন অজগর ট্যাগ রয়েছে?
জিমি

7
@ জিমি: ট্যাগড পাইথন বি / সি এটি পাইথন এনল্টক লাইব্রেরি সম্পর্কে কথা বলছে
ইলডেন্ট

2
এখানে এই নিখুঁত প্রশ্নের
জ্যাকব 15

উত্তর:


130

সংক্ষিপ্ত এবং ঘন: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatiization-1.html

স্টেমিং এবং লেম্যাটাইজেশন উভয়ের লক্ষ্য হ'ল প্রতিচ্ছবিযুক্ত ফর্মগুলি এবং কখনও কখনও ব্যতিক্রমীভাবে কোনও শব্দের সম্পর্কিত ফর্মগুলি একটি সাধারণ বেস আকারে হ্রাস করা।

যাইহোক, দুটি শব্দ তাদের স্বাদে পৃথক। স্টেমিং সাধারণত একটি অশোধিত হিউরিস্টিক প্রক্রিয়া বোঝায় যা বেশিরভাগ সময় সঠিকভাবে এই লক্ষ্য অর্জনের আশায় শব্দের প্রান্তকে ছাপিয়ে যায় এবং প্রায়শই ডেরাইভেশনাল অ্যাফিক্সেস অপসারণকে অন্তর্ভুক্ত করে। লেম্যাটাইজেশন সাধারণত শব্দের একটি শব্দভাণ্ডার এবং রূপচর্চা বিশ্লেষণের সাহায্যে জিনিসগুলি যথাযথভাবে করা বোঝায়, সাধারণত লক্ষ্যমাত্রার অন্তর্নিহিত পরিণতিগুলি সরিয়ে দেয় এবং শব্দের ভিত্তি বা অভিধানের ফর্মটি ফিরিয়ে আনে, যা লেমা নামে পরিচিত।

NLTK ডক্স থেকে:

লেম্যাটাইজেশন এবং স্টেমিং সাধারণকরণের বিশেষ ঘটনা। তারা সম্পর্কিত শব্দ ফর্মের একটি সেট জন্য একটি প্রমিত প্রতিনিধি সনাক্ত।


গড় লিম্যাটাইজেশন দৈর্ঘ্য আমাদের ডক সম্পর্কে কী জানায় তা জানতে আগ্রহী?
এসগুইনাগা

1
এটি প্রশ্নের পুরোপুরি উত্তর দেয় না। কোনটি কখন ব্যবহার করবেন তা আপনি ব্যাখ্যা করেন না। উভয়ই স্বাভাবিকীকরণের জন্য পরিবেশন করতে পারে তবে প্রায়শই আপনি কোনটি চয়ন করেন তা নির্ভুলতা এবং গতির মধ্যে বাণিজ্য-
dzieciou

1
@ ডিজিইসিউ, ইনপুটটির জন্য ধন্যবাদ - আপনি উত্তরটি সম্পাদনা করতে সক্ষম হতে পারেন; এবং আমি আরও কিছু প্রসঙ্গ যুক্ত করার চেষ্টা করব।
মিকু

79

Lemmatisation ঘনিষ্ঠভাবে সম্পর্কিত হয় গৌন । পার্থক্যটি হ'ল স্টেমার প্রসঙ্গের অজান্তে একটি শব্দের উপরেই কাজ করে এবং তাই কথার অংশের উপর নির্ভর করে বিভিন্ন অর্থ থাকা শব্দের মধ্যে পার্থক্য করতে পারে না। তবে, স্টিমারগুলি সাধারণত প্রয়োগ করা এবং দ্রুত চালানো সহজতর হয় এবং কিছু অ্যাপ্লিকেশনগুলির জন্য হ্রাস হওয়া নির্ভুলতা কোনও বিষয় নয়।

এই ক্ষেত্রে:

  1. "আরও ভাল" শব্দটির লেমা হিসাবে "ভাল" রয়েছে। এই লিঙ্কটি স্টেমিং দ্বারা মিস হয়েছে, কারণ এটি অভিধানের চেহারা প্রয়োজন।

  2. "হাঁটা" শব্দটি "হাঁটা" শব্দের মূল ফর্ম, এবং তাই এটি স্টেমিং এবং লেমেটাইজেশন উভয় ক্ষেত্রেই মিলছে।

  3. "সভা" শব্দটি হয় প্রসঙ্গের উপর নির্ভর করে বিশেষ্য বা ক্রিয়া ("দেখা") এর ফর্ম হতে পারে, যেমন, "আমাদের শেষ বৈঠকে" বা "আমরা আগামীকাল আবার দেখা করছি"। স্টেমিংয়ের বিপরীতে, লেম্যাটাইজেশন নীতিগতভাবে প্রসঙ্গের উপর নির্ভর করে উপযুক্ত লেমাকে নির্বাচন করতে পারে।

সূত্র : https://en.wikedia.org/wiki/Lemmatisation


24

তাদের পার্থক্য দেখানোর জন্য দুটি দিক রয়েছে:

  1. একটি স্টিমার একটি শব্দের কান্ডকে ফিরিয়ে দেবে, যা শব্দের রূপচিকিত্সের মূলের মতো নয়। এটি প্রায়শই যথেষ্ট যে সম্পর্কিত শব্দগুলি একই কান্ডে ম্যাপ করে , যদিও কান্ডটি নিজেই একটি বৈধ রুট না থাকে, যদিও লেম্যাটাইজেশনে এটি কোনও শব্দের অভিধান রূপটি ফিরিয়ে দেয়, যা অবশ্যই একটি বৈধ শব্দ হতে হবে।

  2. ইন lemmatisation , একটি শব্দ ভাষণের অংশ প্রথম নির্ধারিত করা উচিত এবং নিয়মমাফিককরণ নিয়ম সময় বাক বিভিন্ন অংশের জন্য ভিন্ন হবে, stemmer শব্দ যা বিভিন্ন করেন তাদের মধ্যে বৈষম্য করতে পারবে না প্রসঙ্গের অজ্ঞাতসারে একটি কথাও ওপর কাজ করবে এবং এর ফলে বক্তৃতার অংশের উপর নির্ভর করে এর অর্থ।

রেফারেন্স http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatiization


18

স্টেমিং এবং লেম্যাটাইজেশন উভয়ের উদ্দেশ্য মোর্ফোলজিকাল প্রকরণকে হ্রাস করা। এটি আরও সাধারণ "টার্ম কনফ্লেশন" পদ্ধতির বিপরীতে যা লিক্সিকো-সিনমেটিক, সিনট্যাকটিক বা অরথোগ্রাফিক প্রকরণগুলিকেও সম্বোধন করতে পারে।

স্টেমিং এবং লেম্যাটাইজেশনের মধ্যে আসল পার্থক্যটি তিনগুণ:

  1. স্টেমিং শব্দের-রূপগুলি (সিউডো) কান্ডগুলিতে হ্রাস করে, যেখানে লেম্যাটাইজেশন শব্দ-রূপগুলিকে ভাষাগতভাবে বৈধ লেমমাসে হ্রাস করে। এই তফাতটি আরও জটিল আকারের ভাষায় স্পষ্ট হয় তবে অনেক আইআর অ্যাপ্লিকেশনগুলির জন্য এটি অপ্রাসঙ্গিক হতে পারে;

  2. লেম্যাটাইজেশন কেবলমাত্র প্রতিচ্ছবিযুক্ত বৈকল্পিকতার সাথে ডিল করে, যেখানে স্টেম্মিংয়ের সাথে ডেরাইভেশনাল বৈকল্পিকতাও ডিল করতে পারে;

  3. প্রয়োগের ক্ষেত্রে, লেমটিটিজেশন সাধারণত আরও পরিশীলিত হয় (বিশেষত আকারে জটিল ভাষাগুলির জন্য) এবং সাধারণত কিছু ধরণের লিক্সিকার প্রয়োজন হয়। অন্যদিকে সন্তুষ্টিজনক স্টেমিং বরং সহজ নিয়ম-ভিত্তিক পদ্ধতির সাহায্যে অর্জন করা যায়।

লেমনেটাইজাইজেশনকে পার্থ-অফ স্পিচ ট্যাগার দ্বারা সমকামিতা অক্ষম করার জন্য ব্যাক আপ করা যেতে পারে।


13

এমআইওয়াইএন যেমন উল্লেখ করেছে, স্টেমিং হচ্ছে মূল ফর্মের প্রতিচ্ছবিযুক্ত এবং কখনও কখনও ডেরাইভেশনাল অ্যাফিক্সেস সরিয়ে ফেলার প্রক্রিয়া যা মূল শব্দগুলির সাথে সম্ভবত সম্পর্কিত। লেম্যাটাইজাইজেশন এমন একক শব্দ প্রাপ্তির সাথে সম্পর্কিত যা আপনাকে একত্রিত করে একসাথে প্রতিফলিত ফর্মগুলির একগুচ্ছ তৈরি করতে দেয়। এটি স্টেমিংয়ের চেয়ে শক্ত কারণ কারণ এর জন্য প্রসঙ্গটি বিবেচনায় নেওয়া প্রয়োজন (এবং এভাবে শব্দের অর্থ), যখন স্টেমিং প্রসঙ্গে উপেক্ষা করে।

আপনি কখন এক বা অন্যটি ব্যবহার করবেন তা আপনার অ্যাপ্লিকেশনটি প্রসঙ্গে কোনও শব্দের অর্থ সঠিকভাবে পাওয়ার জন্য কতটা নির্ভর করে তা বিষয়। আপনি যদি মেশিন অনুবাদ করছেন তবে আপনি সম্ভবত কোনও শব্দটির ভুল ব্যাখ্যা এড়াতে লেমটাইজেশন চান। যদি আপনি আপনার কোয়ালিটির 99% থেকে 1-3 টি শব্দ নিয়ে একটি বিলিয়ন ডকুমেন্টের উপর তথ্য পুনরুদ্ধার করেন তবে আপনি স্টেমিংয়ের জন্য নিষ্পত্তি করতে পারেন।

এনএলটিকে হিসাবে, ওয়ার্ডনেটলেমেটিজার বক্তৃতার অংশটি ব্যবহার করে, যদিও আপনাকে এটি সরবরাহ করতে হবে (অন্যথায় এটি বিশেষ্যগুলিতে ডিফল্ট হয়)। এটি "কপোত" এবং "ভি" প্রদান করে "ডুব" পাওয়া যায় যখন "কপোতী" এবং "এন" "ঘুঘু" দেয়।


12

লেম্যাটাইজেশন এবং স্টেমিংয়ের মধ্যে পার্থক্য সম্পর্কে একটি উদাহরণ-চালিত ব্যাখ্যা:

Lemmatization হ্যান্ডলগুলি "গাড়ী" থেকে "গাড়ী" মিলে "অটোমোবাইল" থেকে "গাড়ী" মিলে যায়।

গৌন হ্যান্ডলগুলি "গাড়ী" থেকে "গাড়ী" মিলে

লেম্যাটাইজেশন ফাজি শব্দের মিলের বিস্তৃত সুযোগকে বোঝায় যা এখনও একই সাবসিস্টেমগুলি দ্বারা পরিচালিত। এটি ইঞ্জিনের মধ্যে নিম্ন স্তরের প্রক্রিয়াজাতকরণের জন্য নির্দিষ্ট কৌশলগুলি বোঝায় এবং পরিভাষাটির জন্য ইঞ্জিনিয়ারিং পছন্দকেও প্রতিফলিত করতে পারে।

[...] একটি উদাহরণ হিসাবে দ্রুত গ্রহণ করা, তাদের লেমটাইজাইজেশন ইঞ্জিনটি একবচন বনাম বহুবচনের মতো কেবল মৌলিক শব্দের ভিন্নতাগুলিকেই পরিচালনা করে না, তবে "গরম" ম্যাচটি "উষ্ণ" করার মতো থিসেরাস অপারেটরদেরও পরিচালনা করে।

এটির অর্থ এই নয় যে অন্যান্য ইঞ্জিনগুলি প্রতিশব্দগুলি হ্যান্ডেল করে না, অবশ্যই তারা করে, তবে নিম্ন স্তরের প্রয়োগগুলি বেস স্টেমিংকে পরিচালনা করে এমনগুলির চেয়ে আলাদা একটি সাবসিস্টেমের মধ্যে থাকতে পারে।

http://www.ideaeng.com/stemming-lemmatization-0601


3

আইয়ানাকল
তবে আমি মনে করি স্টেমিং মোটামুটি হ্যাক লোকেরা একই শব্দের বিভিন্ন রূপকে বেস ফর্মের জন্য ব্যবহার করে যার নিজস্ব ভাষায় কোনও আইনী শব্দ হওয়া দরকার না এর
মতো কিছু পোর্টার স্টেমার সাধারণ শব্দ প্রত্যয়কে মুছে ফেলার জন্য সরল রেজেক্স ব্যবহার করতে পারে

লেম্যাটাইজেশন একটি শব্দকে তার আসল বেস ফর্মের দিকে নিয়ে আসে যা অনিয়মিত ক্রিয়াগুলির ক্ষেত্রে ইনপুট শব্দের মতো কিছুই না
দেখায় মুরফার মতো কিছু যা এফএসটি ব্যবহার করে তাদের বেস আকারে বিশেষ্য এবং ক্রিয়াগুলি আনায়


আমি মনে করি যে পোর্টার স্টেমার নিয়মিত এক্সপ্রেশনগুলির আশ্রয় ছাড়াই বাস্তবায়িত হয়েছিল, কারণ অনেকগুলি পুরানো ভাষাগুলি সেগুলি নেই, তবে অন্যথায় আপনি সঠিক ধারণা পেয়েছেন।
কেন ব্লুম

3

স্টেমিং কেবল একটি শব্দের শেষ কয়েকটি অক্ষর সরিয়ে দেয় বা ডালপালা ডেকে আনে যা প্রায়শই ভুল অর্থ এবং বানান নিয়ে যায়। লেম্যাটাইজেশন প্রসঙ্গটি বিবেচনা করে এবং শব্দটিকে তার অর্থপূর্ণ বেস আকারে রূপান্তরিত করে, যাকে লেম্মা বলা হয়। কখনও কখনও, একই শব্দের একাধিক আলাদা লেমাস থাকতে পারে। সেই নির্দিষ্ট প্রসঙ্গে শব্দের জন্য আমাদের স্পিচ পার্ট (POS) ট্যাগটি সনাক্ত করা উচিত। সমস্ত পার্থক্য এবং ব্যবহারের ক্ষেত্রে চিত্রিত করার জন্য এখানে উদাহরণ দেওয়া হল:

  1. আপনি যদি ' কেয়ারিং ' শব্দটি লেম্যাটাইজ করেন তবে এটি ' কেয়ার ' ফিরে আসবে । যদি আপনি স্টেম করেন তবে এটি ' গাড়ি ' ফেরত আসবে এবং এটি ভুল।
  2. আপনি যদি ক্রিয়াপদের প্রসঙ্গে ' স্ট্রিপস ' শব্দটি লেম্যাটাইজ করেন তবে এটি ' স্ট্রিপ ' ফিরে আসবে । যদি আপনি এটি বিশেষ প্রসঙ্গে লেমিটাইজ করেন তবে এটি ' স্ট্রাইপ ' ফিরে আসবে । আপনি যদি এটি কেবল স্টেম করেন তবে এটি কেবল ' স্ট্রিপ ' ফিরবে ।
  3. আপনি হাঁটাচলা, দৌড়, সাঁতার ... চলার জন্য, দৌড়তে, সাঁতার কাটা ইত্যাদির মতো শব্দগুলি স্তম্ভিত করে বা স্টেম শব্দের দ্বারা একই ফলাফল পাবেন
  4. লেম্যাটাইজেশন গণনাগতভাবে ব্যয়বহুল কারণ এটির চেহারা সারণীগুলি জড়িত এবং কী নয়। আপনার কাছে যদি বড় ডেটাসেট থাকে এবং পারফরম্যান্স কোনও সমস্যা হয় তবে স্টেমিংয়ের সাথে যান। মনে রাখবেন আপনি স্টেমিং-এ নিজের নিয়মও যুক্ত করতে পারেন। যদি নির্ভুলতা সর্বজনীন হয় এবং ডেটাসেট হিংস্র না হয় তবে লেম্যাটাইজেশনের সাথে যান।

2

স্টেমিং হ'ল একটি শব্দের শেষ কয়েকটি অক্ষর মুছে ফেলার প্রক্রিয়া, একটি সংক্ষিপ্ত রূপ প্রাপ্তি, এমনকি যদি সেই ফর্মটির কোনও অর্থ না থাকে।

উদাহরণ,

"beautiful" -> "beauti"
"corpora" -> "corpora"

স্টেমিংয়ের আরও উদাহরণ

স্টেমিং খুব দ্রুত করা যায়।

অন্যদিকে লেমটিটাইজেশন হ'ল শব্দের অভিধান অর্থ অনুসারে প্রদত্ত শব্দটিকে তার বেস ফর্মে রূপান্তর করার প্রক্রিয়া।

উদাহরণ,

"beautiful" -> "beauty"
"corpora" -> "corpus"

লেম্যাটাইজেশনের আরও উদাহরণ

লেমমাটিজেশন স্টেমিংয়ের চেয়ে বেশি সময় নেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.