পাইথনে টুইটারের অনুভূতি বিশ্লেষণ [বন্ধ]


87

আমি একটি ওপেন সোর্স বাস্তবায়ন খুঁজছি, বিশেষত পাঠ্য অনুভূতি বিশ্লেষণের অজগর ( http://en.wikedia.org/wiki/Sentiment_analysis ) এর মধ্যে। আমি কি এই জাতীয় ওপেন সোর্স বাস্তবায়নের সাথে পরিচিত?

আমি একটি অ্যাপ্লিকেশন লিখছি যা কিছু অনুসন্ধান শব্দটির জন্য টুইটার অনুসন্ধান করে, "ইউটিউব" বলুন এবং "সুখী" টুইট বনাম "দু: খিত" টুইটগুলি গণনা করছেন। আমি গুগলের অ্যাপেনজিন ব্যবহার করছি তাই এটি অজগরটিতে রয়েছে। আমি টুইটার থেকে প্রত্যাবর্তিত অনুসন্ধান ফলাফলগুলিকে শ্রেণিবদ্ধ করতে সক্ষম হতে চাই এবং আমি পাইথনে এটি করতে চাই। আমি এতক্ষণ এ জাতীয় সংবেদন বিশ্লেষক খুঁজে পাইনি, বিশেষ করে পাইথনে নয়। আমি ব্যবহার করতে পারি এমন ওপেন সোর্স বাস্তবায়নের সাথে কি আপনি পরিচিত? সাধারণত এটি অজগরটিতে রয়েছে, তবে তা না হলে আশা করি আমি এটি অজগরকে অনুবাদ করতে পারি।

দ্রষ্টব্য, আমি যে পাঠ্যগুলি বিশ্লেষণ করছি তা খুব সংক্ষিপ্ত, সেগুলি টুইটগুলি। সুতরাং আদর্শভাবে, এই শ্রেণিবদ্ধকারী যেমন সংক্ষিপ্ত পাঠ্য জন্য অনুকূলিত হয়।

বিটিডাব্লু, টুইটার অনুসন্ধানে ":)" এবং ":(" অপারেটরকে সমর্থন করে, যার লক্ষ্য কেবল এটি করা, তবে দুর্ভাগ্যক্রমে, তাদের দ্বারা সরবরাহ করা শ্রেণিবিন্যাস এত দুর্দান্ত নয়, তাই আমি অনুভব করেছি যে আমি নিজেই চেষ্টা করে দেখতে পারি ।

ধন্যবাদ!

বিটিডাব্লু, একটি প্রাথমিক ডেমো এখানে এবং আমার এখন পর্যন্ত কোডটি এখানে রয়েছে এবং আমি এটি আগ্রহী কোনও বিকাশকারীর সাথে এটি খুলতে পছন্দ করব love

উত্তর:


44

এই ধরণের বেশিরভাগ অ্যাপ্লিকেশন সহ, আপনাকে একটি পরিসংখ্যান শ্রেণিবদ্ধকরণের জন্য আপনার নিজের কোডের অনেকগুলি রোল করতে হবে। লুকার পরামর্শ অনুসারে, এনএলটিকে পাইথনের প্রাকৃতিক ভাষা হেরফেরের জন্য উপযুক্ত হাতিয়ার, যতক্ষণ না আপনার লক্ষ্যটি লাইসেন্সের অ-বাণিজ্যিক প্রকৃতির সাথে হস্তক্ষেপ না করে। তবে আমি মডেলিংয়ের জন্য অন্যান্য সফ্টওয়্যার প্যাকেজগুলির পরামর্শ দেব। পাইথনের জন্য উপলব্ধ অনেক শক্তিশালী উন্নত মেশিন লার্নিং মডেল আমি পাইনি, তাই আমি এমন কিছু স্ট্যান্ডেলোন বাইনারিগুলির পরামর্শ দিতে যা যা সহজেই এতে সহযোগিতা করে।

আপনি অ্যাডভান্সড ডিসক্রিমিনেটিভ মডেলিংয়ের জন্য দ্য সরঞ্জামদণ্ডে আগ্রহী হতে পারেন যা পাইথনের সাথে সহজেই ইন্টারফেস করা যায়। এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বিভিন্ন ক্ষেত্রে শ্রেণিবদ্ধকরণ কার্যগুলির জন্য ব্যবহৃত হয়েছে। আপনার কাছে বিভিন্ন মডেলের একটি বাছাইও রয়েছে। আমি এতদিন সর্বাধিক এনট্রপি শ্রেণিবদ্ধকরণ শুরু করার পরামর্শ দিচ্ছি যতক্ষণ না আপনি নায়েভ বেয়েস শ্রেণিবদ্ধকরণ বাস্তবায়নের সাথে ইতিমধ্যে পরিচিত। যদি তা না হয় তবে আপনি এটি দেখতে এবং মেশিন লার্নিংয়ের কাজ হিসাবে পরিসংখ্যানগত শ্রেণিবিন্যাস সম্পর্কে সত্যই উপলব্ধি করতে একটি কোড করতে চাইতে পারেন।

টেক্সাস বিশ্ববিদ্যালয় অস্টিনের গণ্য ভাষাতাত্ত্বিক গোষ্ঠীগুলি এমন একটি ক্লাস করেছে যেখানে তাদের মধ্য থেকে আসা বেশিরভাগ প্রকল্পগুলি এই দুর্দান্ত সরঞ্জামটি ব্যবহার করেছে। এটি কীভাবে কাজ করা যায় এবং কী কী পূর্ববর্তী অ্যাপ্লিকেশনগুলি পরিবেশন করেছে তা সম্পর্কে ধারণা পেতে আপনি কম্পিউটারীয় ভাষাতত্ত্ব II এর কোর্স পৃষ্ঠাটি দেখতে পারেন ।

একই শিরাতে কাজ করে এমন আরেকটি দুর্দান্ত সরঞ্জাম হ'ল মাললেট । ম্যালেটের মধ্যে পার্থক্য হ'ল আরও কিছু ডকুমেন্টেশন এবং আরও কিছু মডেল পাওয়া যায় যেমন সিদ্ধান্তের গাছ, এবং এটি জাভাতে রয়েছে, যা আমার মতে এটি কিছুটা ধীর করে তোলে। ওয়েকা একটি বড় প্যাকেজের বিভিন্ন মেশিন লার্নিং মডেলের পুরো স্যুট যা কিছু গ্রাফিকাল স্টাফ অন্তর্ভুক্ত করে তবে এটি বেশিরভাগই শিক্ষাগত উদ্দেশ্যগুলির জন্য বোঝানো হয়, এবং সত্যই এমন কিছু নয় যা আমি প্রযোজনায় ফেলেছি।

আপনার কাজটির জন্য শুভকামনা। আসল কঠিন অংশটি সম্ভবত আপনার জন্য 'বীজ সেট' শ্রেণীবদ্ধ করার জন্য প্রয়োজনীয় পরিমাণ জ্ঞান প্রকৌশল হতে হবে যার মধ্য থেকে আপনার মডেল শিখবে। আপনি বাইনারি শ্রেণিবদ্ধকরণ করছেন (শুভ বনাম দুঃখ) বা পুরো অনুভূতি (যা আরও বেশি প্রয়োজন হবে) এর উপর নির্ভর করে এটি বেশ আকারের হওয়া দরকার। পরীক্ষার জন্য এই ইঞ্জিনিয়ারড ডেটা কিছু রেখেছেন তা নিশ্চিত করুন, অথবা আপনি সেখানে রাখার আগে ভবিষ্যদ্বাণী করা একটি ভাল কাজ করছেন তা নিশ্চিত করার জন্য কিছু দশগুণ বা একটি-পরীক্ষা পরীক্ষা করে নিন। এবং সর্বোপরি, মজা করুন! এটি আমার মতে এনএলপি এবং এআইয়ের সেরা অংশ।


ধন্যবাদ আমি কেবল রাতেই এটি করছি, তাই ... এতে কিছুটা সময় লাগবে, তবে আমার যখন কিছু প্রস্তুত থাকবে তখন আমি একটি আপডেট পোস্ট করব
রান

7
এনটিএলটি কে কোড এনএলটিকি.আর.ফাক
amit

4
আপনি কেন বলেন যে ওয়েকা পাঠ্যক্রমিক উদ্দেশ্যে? এটি পেন্টাহো বিআই স্যুটটির অংশ নয়? এবং পেন্টাহো বিভিন্ন উদ্যোগ পরিবেশন করে।
স্বপ্নিল

77

সে জন্য শুভকামনা।

সেন্টিমেন্ট প্রচুর পরিমাণে প্রাসঙ্গিক, এবং টুইট সংস্কৃতি সমস্যাটিকে আরও খারাপ করে তোলে কারণ আপনাকে বেশিরভাগ টুইটের জন্য প্রসঙ্গ দেওয়া হয়নি । টুইটারের পুরো বিষয়টি হ'ল আপনি খুব স্বল্প বার্তায় অর্থবহ যোগাযোগের জন্য প্যাক করতে প্রচুর পরিমাণে ভাগ করা "রিয়েল ওয়ার্ল্ড" প্রসঙ্গটি উপার্জন করতে পারেন।

যদি তারা ভিডিওটি খারাপ বলে থাকে, তার অর্থ কি খারাপ, বা খারাপ ?

ভাষাতত্ত্বের এক অধ্যাপক একদিন তাঁর ক্লাসে বক্তৃতা দিচ্ছিলেন। "ইংরেজিতে," তিনি বলেছিলেন, "দ্বিগুণ নেতিবাচক একটি ধনাত্মক রূপ দেয় some কিছু ভাষায়, যদিও রাশিয়ান ভাষায়, দ্বিগুণ negativeণাত্মক এখনও একটি negativeণাত্মক However

ঘরের পেছন থেকে একটি আওয়াজ পাইপ করল, "হ্যাঁ। ঠিক আছে।"


4
আমি আনন্দিত যে আপনার একটি কার্যকর উত্তর ছিল, কারণ আমি অন্যথায় আপনাকে কেবল উক্ত উত্সাহের জন্য উত্সাহ দিতে হয়েছিল। :-)
বেন ফাঁকা 20

4
আমার মনে হয় উদ্ধৃতিটি "হ্যাঁ হ্যাঁ" - সিডনি মরগেনবেসার থেকে
স্কট ওয়েইনস্টেইন

19

আপনার পরামর্শের জন্য প্রত্যেককে ধন্যবাদ, তারা সত্যিই খুব দরকারী ছিল! আমি এখান থেকে ধার করে একটি নাইভ বায়েশিয়ান শ্রেণিবদ্ধ ব্যবহার করে শেষ করেছি । আমি এটিকে ভাল / খারাপ কীওয়ার্ডগুলির একটি তালিকা দিয়ে খাওয়ানো দিয়ে শুরু করেছি এবং তারপরে ব্যবহারকারীদের প্রতিক্রিয়া নিয়োগ করে একটি "শিখুন" বৈশিষ্ট্য যুক্ত করেছি। এটি বেশ সুন্দর কাজ করে।

আমার কাজের সম্পূর্ণ বিবরণ যেমন একটি ব্লগ পোস্টে রয়েছে

আবার, আপনার সহায়তা খুব দরকারী ছিল, তাই আপনাকে ধন্যবাদ!


4
ব্লগ পোস্ট লিঙ্কটি আর কাজ করছে না, আপনি এটি আপডেট করতে পারবেন?
পেট্রুতিউ মিহাই

হাই @ পেটারুটিউ মিহাই আসলেই সেই ব্লগটি নামিয়ে দেওয়া হয়েছিল। তবে এটি বেশ পুরানো স্টাফ, আজকের মতো গবেষণার সামনে নয়, সুতরাং আপনি খুব বেশি মিস করবেন না; (
রান

14

আমি সংবেদন সহ লেবেলযুক্ত একটি শব্দ তালিকা তৈরি করেছি constructed আপনি এখান থেকে এটি অ্যাক্সেস করতে পারেন:

http://www2.compute.dtu.dk/pubdb/views/edoc_download.php/6010/zip/imm6010.zip

আপনি আমার ব্লগে একটি সংক্ষিপ্ত পাইথন প্রোগ্রাম পাবেন:

http://finnaarupnielsen.wordpress.com/2011/06/20/simplest-sentiment-analysis-in-python-with-af/

এই পোস্টে কীভাবে একক বাক্যগুলির পাশাপাশি টুইটারের সাহায্যে শব্দ তালিকাটি ব্যবহার করা যায় তা প্রদর্শন করা হয়।

শব্দ তালিকার পদ্ধতির সীমাবদ্ধতা রয়েছে। "মাইক্রোব্লাগসে সংবেদন বিশ্লেষণের জন্য একটি শব্দ তালিকার মূল্যায়ন" নিবন্ধে আমার শব্দ তালিকার সীমাবদ্ধতার একটি তদন্ত পাবেন। এই নিবন্ধটি আমার হোমপেজ থেকে উপলব্ধ।

দয়া করে নোট unicode(s, 'utf-8')করুন কোড থেকে একটি অনুপস্থিত (প্যাডাগোগিক কারণে)।


"পোস্টেরাস স্পেসস আর পাওয়া যায় না" আপনি কি কোথাও অজগর কোড পোস্ট করতে পারেন?
andilabs

4
এটি লক্ষ করার জন্য ধন্যবাদ। আমি এখন পোস্টারস লিঙ্কটি একটি ওয়ার্ডপ্রেস লিঙ্কে পরিবর্তন করেছি যেখানে আমি আমার ব্লগটি সরিয়েছি।
ফিন অরুপ নীলসন

আপনার অনুভূতি শব্দের সাথে কোনও পরীক্ষা-নিরীক্ষার বিষয়ে আপনি কিছু বলতে পারেন? আমার অর্থ হ'ল প্রকৃতি কী ছিল, শ্রেণিবিন্যাসের পুনরুদ্ধার।
andilabs

4
আমার এখানে কয়েকটি মূল্যায়নের লিঙ্ক রয়েছে: neuro.compute.dtu.dk/wiki/AFINN# মূল্যায়ন যথাযথতা, প্রত্যাহার এবং শ্রেণিবিন্যাসের ক্ষেত্রে আমি নিজেই এর সম্পাদনাকে মূল্যায়ন করি নি। আমি যা করেছি তা হ'ল মিস্লোভের অ্যামাজন মেকানিকাল টার্কের টুইটগুলির লেবেলিংয়ের সাথে সম্পর্কযুক্ত।
ফিন অরূপ নীলসন

10

প্রচুর গবেষণা কাগজগুলি ইঙ্গিত দেয় যে অনুভূতি বিশ্লেষণের জন্য একটি ভাল সূচনা পয়েন্টগুলি বিশেষণগুলির দিকে তাকিয়ে থাকে, উদাহরণস্বরূপ, তারা কি ইতিবাচক বিশেষণ বা নেতিবাচক বিশেষণগুলি। পাঠ্যের একটি সংক্ষিপ্ত ব্লকের জন্য এটি আপনার একমাত্র বিকল্প ... এখানে এমন সমস্ত কাগজপত্র রয়েছে যা পুরো ডকুমেন্টগুলি বা বাক্য পর্যায়ের বিশ্লেষণকে দেখায়, তবে আপনি যেমন বলছেন টুইটগুলি খুব ছোট ... একটি বাক্যটির অনুভূতি, সুতরাং আমি মনে করি যে আপনার সেরা বাজিটি এই গবেষণামূলক গবেষণাপত্রগুলির মধ্যে একটিকে শিকার করবে এবং তাদের ইতিবাচক / নেতিবাচক ভিত্তিক বিশেষণগুলির ডেটা-সেট পাওয়ার চেষ্টা করবে।

এখন, এটি বলা হয়ে গেছে, অনুভূতিটি ডোমেন নির্দিষ্ট, এবং সাধারণ উদ্দেশ্যে ডেটা-সেট দিয়ে উচ্চ স্তরের যথার্থতা পেতে আপনার পক্ষে অসুবিধা হতে পারে।

শুভকামনা।


ডার্ন, আমি আপনাকে প্রিমেট করতে যাচ্ছিলাম।
দানা দ্য সনে

4

আমি মনে করি আপনি পরে যা করছেন তা খুঁজে পাওয়া আপনার পক্ষে কঠিন হতে পারে। আমি জানি যে নিকটতম জিনিসটি লিংপাইপ , যার কিছু সংবেদনশীল বিশ্লেষণ কার্যকারিতা রয়েছে এবং এটি সীমিত ধরণের ওপেন-সোর্স লাইসেন্সের অধীনে পাওয়া যায় তবে জাভাতে এটি লিখিত।

এছাড়াও, অনুভূতি বিশ্লেষণ সিস্টেমগুলি সাধারণত পণ্য / চলচ্চিত্র পর্যালোচনা ডেটা সম্পর্কিত একটি সিস্টেমকে প্রশিক্ষণ দিয়ে গড়ে তোলা হয় যা গড় টুইট থেকে উল্লেখযোগ্যভাবে পৃথক। তারা একই বাক্যটি নিয়ে প্রায় কয়েকটি বাক্য সহ পাঠ্যের জন্য অনুকূলিত হতে চলেছে। আমার সন্দেহ হয় আপনি সম্ভবত বিধি-ভিত্তিক ব্যবস্থা নিয়ে আসবেন, সম্ভবত পিটসবার্গ ইউনিভার্সিটির যে অনুভূতি রয়েছে তার মতো সংবেদনশীল শব্দের একটি অভিধানের ভিত্তিতে ।

সত্যই সুন্দর ইন্টারফেস (এবং টুইটারাইটর ) এর সাথে অনুরূপ ধারণার বাস্তবায়নের জন্য আমরা ভাল অনুভব করি Check


2

কটাক্ষপাত টুইটার সেন্টিমেন্ট বিশ্লেষণ টুল । এটি পাইথনে লেখা হয়েছে এবং এটি আধা-তত্ত্বাবধানে মেশিন লার্নিংয়ের সাথে নাইভ বেইস শ্রেণিবদ্ধ ব্যবহার করে। উত্সটি এখানে পাওয়া যাবে



1

আমি কিছুক্ষণ আগে প্রাকৃতিক ভাষা সরঞ্জামদণ্ড জুড়ে এসেছি । আপনি সম্ভবত এটি একটি পয়েন্টিং হিসাবে ব্যবহার করতে পারেন। এটিতে অনেকগুলি মডিউল এবং অ্যাডোন রয়েছে, সুতরাং তাদের ইতিমধ্যে কিছু অনুরূপ থাকতে পারে।


0

কিছুটা উদ্বেগজনক ধারণা: আপনি একটি বিশাল সেট টুইট ডাউনলোড করতে টুইটার এপিআই ব্যবহার করে চেষ্টা করতে পারেন এবং তারপরে ইমোটিকনগুলি ব্যবহার করে সেই সেটটির একটি উপসেট শ্রেণিবদ্ধ: ":)", ":]", ": ডি", ইত্যাদির জন্য একটি ইতিবাচক দল , এবং ":(", ইত্যাদি সহ অন্য একটি নেতিবাচক গোষ্ঠী

আপনার যদি সেই অশোধিত শ্রেণিবিন্যাস হয়ে যায়, আপনি ফ্রিকোয়েন্সি বা এনজিআর বিশ্লেষণ বা সেই লাইন বরাবর কিছু সন্ধান করতে পারেন।

এটি নির্বোধ বলে মনে হতে পারে তবে এ নিয়ে গুরুতর গবেষণা করা হয়েছে ("সংবেদন বিশ্লেষণ" এবং ইমোটিকন অনুসন্ধান করুন)। এক নজর মূল্যবান।


0

টুইটফিলের একটি টুইটার সেন্টিমেন্ট এপিআই রয়েছে যা টুইটগুলির উন্নত ভাষাগত বিশ্লেষণ করে এবং ইতিবাচক / নেতিবাচক টুইটগুলি পুনরুদ্ধার করতে পারে। Http://www.webservius.com/corp/docs/tweetfeel_sentiment.htm দেখুন


0

স্ক্র্যাচ থেকে টুইটার সেন্টিমেন্ট অ্যানালাইসিস কোডিংয়ে আগ্রহী তাদের জন্য , গিটহাবে পাইথন কোড সহ একটি কোর্সেরা কোর্স " ডেটা সায়েন্স " রয়েছে (অ্যাসাইনমেন্ট 1 - লিঙ্কের অংশ হিসাবে )। অনুভূতিগুলি AFINN-111 এর অংশ ।

আপনি কাজের সমাধানগুলি খুঁজে পেতে পারেন, উদাহরণস্বরূপ এখানে । AFINN-111 সংবেদন তালিকার পাশাপাশি, একটি পোস্ট / নেপ স্কোর রয়েছে এমন টুইটগুলিতে শর্তগুলির ফ্রিকোয়েন্সি ভিত্তিতে একটি গতিশীল শব্দ তালিকা খোলার একটি সহজ বাস্তবায়ন রয়েছে ( এখানে দেখুন )।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.