প্রাকৃতিক ভাষা প্রসেসিংয়ের জন্য জাভা বা পাইথন [বন্ধ]


112

প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য কোন প্রোগ্রামিং ভাষাটি ভাল তা আমি জানতে চাই। জাভা নাকি পাইথন ? এটি সম্পর্কে আমি প্রচুর প্রশ্ন এবং উত্তর পেয়েছি। তবে আমি কোনটি ব্যবহার করতে হবে তা চয়ন করতে আমি এখনও হারিয়েছি।

এবং আমি জানতে চাই যে জাভা জন্য কোন এনএলপি লাইব্রেরি ব্যবহার করতে হবে যেহেতু প্রচুর গ্রন্থাগার রয়েছে (লিঙ্গপাইপ, গেট, ওপেনএনএলপি, স্ট্যান্ডফোর্ডএনএলপি)। পাইথনের জন্য, বেশিরভাগ প্রোগ্রামাররা এনএলটিকে পরামর্শ দেয়।

তবে যদি আমি কিছু দরকারী তথ্য পেতে কিছু কাঠামোগত প্রক্রিয়াকরণ বা তথ্য কাঠামোগত তথ্য (কেবলমাত্র নিখরচায় সরল ইংরেজী পাঠ্য) থেকে তথ্য বের করতে পারি তবে সেরা বিকল্পটি কী? জাভা নাকি পাইথন? উপযুক্ত গ্রন্থাগার?

আপডেট করা হয়েছে

আমি যা করতে চাই তা হ'ল কাঠামোগত ডেটা থেকে দরকারী পণ্যের তথ্য আহরণ করা (উদাহরণস্বরূপ ব্যবহারকারীরা মোবাইল বা ল্যাপটপগুলি সম্পর্কে খুব স্ট্যান্ডার্ড ইংরেজি ভাষা নয় এমন বিভিন্ন ধরণের বিজ্ঞাপন তৈরি করে)


47
আমি ঘৃণা করি যে এই ধরণের প্রশ্নগুলি এখানে এসও তেমন স্বাগত নয়। আমি মনে করি অভিপ্রায়টি ছিল পবিত্র যুদ্ধ রোধ করা, তবে এটি আইএমওতে অবদান রাখে।
L0j1k

2
যদি এটি বলতে বলা হয় "জাভা এবং পাইথন এনএলপি লাইব্রেরি এবং তাদের আপেক্ষিক শক্তি কী?" সম্ভবত এটি সমাধান করে? উত্তর সময়ের সাথে সাথে পরিবর্তন হয় তবে আমি এই জাতীয় প্রশ্নও খুব দরকারী।
স্কট স্মিথ

5
আমিও আশা করি এই ধরণের প্রশ্নগুলির এসও তে স্বাগত জানানো হবে। আমি সম্প্রতি পাইথন বনাম আর-তে এনএলপি শক্তি জরিপ করার চেষ্টা করেছি এবং এটি সঙ্গে সঙ্গেই নামিয়ে দেওয়া হয়েছিল। তাদের প্রকল্পগুলি সঠিক ভাষায় ফ্রেম করার চেষ্টা করছে তাদের জন্য বুয়েনো নয়।
Ksofiac

উত্তর:


133

জাভা বনাম পাইথন এনএলপির জন্য খুব পছন্দ বা প্রয়োজনীয়তা। সংস্থা / প্রকল্পগুলির উপর নির্ভর করে আপনাকে একটি বা অন্যটি ব্যবহার করতে হবে এবং প্রায়শই কোনও প্রকল্পের নেতৃত্ব না দেওয়া আপনার পছন্দের অনেক কিছুই নেই।

NLTK(Www.nltk.org) ব্যতীত পাঠ্য প্রক্রিয়াজাতকরণের জন্য আসলে অন্যান্য গ্রন্থাগার রয়েছে python:

(আরও তথ্যের জন্য https://pypi.python.org/pypi?%3Aaction=search&term=n Natural+language+ প্রসেসিং&submit=search দেখুন )

এর জন্য Java, আরও কয়েক জন রয়েছেন তবে এখানে অন্য তালিকা রয়েছে:

এটি বেসিক স্ট্রিং প্রসেসিংয়ের জন্য একটি দুর্দান্ত তুলনা, http://nltk.googlecode.com/svn/trunk/doc/howto/nlp-python.html দেখুন

গেইট বনাম ইউআইএমএ বনাম ওপেনএনএলপি-এর একটি দরকারী তুলনা, https://www.as সমাবেশla.com/spaces/extration-of-cost-data/wiki/Gate-vs-UIMA-vs-OpenNLP?version=4 দেখুন

যদি আপনি অনিশ্চিত হয়ে থাকেন তবে এনএলপি-র ভাষা কোনটি, ব্যক্তিগতভাবে আমি বলি, "যে ভাষাটি আপনাকে পছন্দসই বিশ্লেষণ / আউটপুট দেয়", দেখুন প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য কোন ভাষা বা সরঞ্জাম শিখতে হবে?

এখানে এনএলপি সরঞ্জামগুলির একটি সাম্প্রতিক সাম্প্রতিক (2017): https://github.com/alvations/awesome-commune-curated-nlp

এনএলপি সরঞ্জামের একটি পুরানো তালিকা (2013): http://web.archive.org/web/20130703190201/http://yauhenklimovich.wordpress.com/2013/05/20/tools-nlp


ভাষা প্রক্রিয়াজাতকরণ সরঞ্জামগুলি ব্যতীত পাইপলাইনে machine learningঅন্তর্ভুক্ত করার জন্য আপনার খুব প্রয়োজন সরঞ্জামগুলির প্রয়োজন NLP

এতে একটি সম্পূর্ণ পরিসীমা রয়েছে Pythonএবং Javaএটি আবারও অগ্রাধিকার পর্যন্ত এবং গ্রন্থাগারগুলি যথেষ্ট ব্যবহারকারী-বান্ধব কিনা:

পাইথনে মেশিন লার্নিং লাইব্রেরি:

(আরও তথ্যের জন্য, https://pypi.python.org/pypi?%3Aaction=search&term=machine+learning&submit=search দেখুন )


এনএলপিতে সাম্প্রতিক (২০১৫) গভীর শেখার সুনামির সাহায্যে আপনি সম্ভবত বিবেচনা করতে পারেন: https://en.wikedia.org/wiki/Compistance_of_deep_learning_software

আমি অ-পক্ষপাতিত্ব / নিরপেক্ষতার বাইরে গভীর শিক্ষার সরঞ্জামগুলির তালিকা এড়াতে চাই।


অন্যান্য স্ট্যাকওভারফ্লো প্রশ্ন যা এনএলপি / এমএল সরঞ্জামগুলির জন্য জিজ্ঞাসা করেছিল:


1
এনএলপি এবং এমএল সরঞ্জামগুলি সম্পর্কে প্রচুর তথ্য দেওয়ার জন্য ধন্যবাদ
জিন লিং

42

প্রশ্ন খুব খোলা শেষ। এটি বলেছিল যে, একটি বেছে নেওয়ার পরিবর্তে নীচে আপনি যে ভাষাটি ব্যবহার করতে চান তার উপর নির্ভর করে একটি তুলনা করা হয়েছে (যেহেতু উভয় ভাষায় ভাল গ্রন্থাগার রয়েছে))

পাইথন

পাইথনের নিরিখে, প্রথম স্থানটি আপনার দেখতে পাওয়া উচিত এটি পাইথন ন্যাচারাল ল্যাঙ্গুয়েজ টুলকিট । তারা তাদের বিবরণে লক্ষ্য করে যে, এনএলটিকে মানব ভাষার ডেটা নিয়ে কাজ করার জন্য পাইথন প্রোগ্রাম তৈরির জন্য একটি শীর্ষস্থানীয় প্ল্যাটফর্ম। শ্রেণিবদ্ধকরণ, টোকেনাইজেশন, স্টেমিং, ট্যাগিং, পার্সিং, এবং শব্দার্থক যুক্তির জন্য পাঠ্য প্রক্রিয়াকরণ লাইব্রেরির স্যুট সহ ওয়ার্ডনেট হিসাবে 50 টিরও বেশি কর্পোরো এবং লেজিকাল সংস্থানগুলিতে এটি সহজেই ব্যবহারযোগ্য ইন্টারফেস সরবরাহ করে।

এখানে কিছু দুর্দান্ত কোড রয়েছে যা আপনি অনুসন্ধান করতে পারেন যা গুগলের প্রাকৃতিক ভাষা সরঞ্জামকিট প্রকল্প থেকে উদ্ভুত হয়েছে যা পাইথন ভিত্তিক। আপনি এখানে গিটহাবে সেই কোডটির একটি লিঙ্ক খুঁজে পেতে পারেন ।

জাভা

দেখার প্রথম স্থানটি হবে স্ট্যানফোর্ডের প্রাকৃতিক ভাষা প্রসেসিং গ্রুপ । সেখানে বিতরণ করা সমস্ত সফটওয়্যার জাভাতে লেখা আছে। সমস্ত সাম্প্রতিক বিতরণগুলিতে ওরাকল জাভা 6+ বা ওপেনজেডিকে 7+ প্রয়োজন। বিতরণ প্যাকেজগুলিতে কমান্ড-লাইন অনুরোধ, জার ফাইল, একটি জাভা এপিআই এবং উত্স কোডের উপাদান অন্তর্ভুক্ত।

আরেকটি দুর্দান্ত বিকল্প যা আপনি এখানে প্রচুর মেশিন লার্নিং পরিবেশে দেখতে পান (সাধারণ বিকল্প), ওয়েকা । ওয়েকা ডেটা মাইনিংয়ের কাজের জন্য মেশিন লার্নিং অ্যালগরিদমের একটি সংগ্রহ। অ্যালগরিদম হয় হয় সরাসরি একটি ডেটাসেটে প্রয়োগ করা যেতে পারে বা আপনার নিজের জাভা কোড থেকে কল করা যেতে পারে। ওয়েকাতে ডেটা প্রাক প্রসেসিং, শ্রেণিবদ্ধকরণ, রিগ্রেশন, ক্লাস্টারিং, অ্যাসোসিয়েশন বিধি এবং ভিজ্যুয়ালাইজেশনের সরঞ্জাম রয়েছে। এটি নতুন মেশিন লার্নিং স্কিমগুলি বিকাশের জন্যও উপযুক্ত।


9
দুর্দান্ত উত্তর। এই ধরণের প্রশ্নগুলি এখানে কেন তাকাতে হয় তা আমি সত্যিই বুঝতে পারি না। +1
L0j1k

8
অামি সম্পূর্ণ একমত. যে প্রশ্নটি করা হয়েছিল তা হ'ল সাধারণ। এটি বলেছিল, এগুলি হুবহু আমি বিভিন্ন ধরণের প্রশ্নের মুখোমুখি হই particularly বিশেষত যখন আমি কোনও অঞ্চলে নতুন থাকি।
নাথানিয়েল পায়েনে

1
জাভা ভিত্তিক গ্রন্থাগার ও সরঞ্জামগুলির ক্ষেত্রে, আপনি দেখতে পাচ্ছেন যে আরও দুর্দান্ত একটি হ'ল লিংপাইপ। ওরফে- আই.লিংপাইপ
নাথানিয়েল

2
@ নাথানিয়েল পেয়েন: আপনার পরামর্শের জন্য আপনাকে অনেক ধন্যবাদ এটি আমাকে এনএলপি শুরু করার জন্য কিছু গাইড দেয়।
জিন লিং
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.