প্রাথমিক কীওয়ার্ডের উপর নির্ভর করে কীভাবে সম্পর্কিত শব্দের একটি তালিকা বাড়ানো যায়?


19

আমি সম্প্রতি শীতল বৈশিষ্ট্যটি দেখেছি যা একবার গুগল শিটগুলিতে পাওয়া যায়: আপনি ধারাবাহিক কক্ষে কয়েকটি সম্পর্কিত কীওয়ার্ড লিখে শুরু করুন, বলুন: "নীল", "সবুজ", "হলুদ" এবং এটি স্বয়ংক্রিয়ভাবে অনুরূপ কীওয়ার্ড তৈরি করে (এই ক্ষেত্রে , অন্যান্য রঙ)। এই ইউটিউব ভিডিওতে আরও উদাহরণ দেখুন ।

আমি এটি আমার নিজস্ব প্রোগ্রামে পুনরুত্পাদন করতে চাই। আমি ফ্রিবেস ব্যবহার করার কথা ভাবছি, এবং এটি স্বজ্ঞাতভাবে এটির মতো কাজ করবে:

  1. ফ্রিবেসে প্রদত্ত শব্দের তালিকা পুনরুদ্ধার করুন;
  2. তাদের "সাধারণ ডিনোমিনেটর (গুলি)" সন্ধান করুন এবং এর ভিত্তিতে একটি দূরত্বের মেট্রিক নির্মাণ করুন;
  3. মূল কীওয়ার্ডগুলিতে তাদের "দূরত্ব" এর উপর ভিত্তি করে অন্যান্য ধারণাগুলি রেঙ্ক করুন;
  4. পরবর্তী নিকটতম ধারণাগুলি প্রদর্শন করুন।

আমি এই অঞ্চলের সাথে পরিচিত না হওয়ায় আমার প্রশ্নগুলি হ'ল:

  • এই কাজ করতে একটি ভাল উপায় আছে কি?
  • প্রতিটি পদক্ষেপের জন্য কি কি সরঞ্জাম উপলব্ধ?

আমার অনুমান যে এটি একটি বৃহত কর্পাসে বিষয়গুলি শেখার উপর ভিত্তি করে।
tchakravarty

আপনি যদি তাদের ব্যাখ্যাটি সন্ধান করতে চান তবে আমি বিশ্বাস করি গুগল সেটস নামে অন্তর্নিহিত পদ্ধতিতে একটি কাগজ ছিল।
jamesmf

1
এই সমস্যাটিকে "ক্যোয়ারী এক্সপেনশন" বলা হয়।
এমরে

উত্তর:


15

শব্দ 2vec অ্যালগরিদম অনুরূপ শব্দের একটি তালিকার জন্য আরও উপাদান পুনরুদ্ধারের একটি ভাল উপায় হতে পারে। এটি একটি অপ্রচলিত "গভীর শেখার" অ্যালগরিদম যা এর আগে উইকিপিডিয়া ভিত্তিক প্রশিক্ষণ ডেটা (গুগল কোড পৃষ্ঠায় সহায়ক স্ক্রিপ্টগুলি সরবরাহ করা হয়েছে) দ্বারা প্রদর্শিত হয়েছিল।

বর্তমানে সি এবং পাইথন বাস্তবায়ন রয়েছে। এই টিউটোরিয়াল দ্বারা Radim Řehůřek , লেখক Gensim বিষয় মডেলিং গ্রন্থাগার , একটি চমৎকার জায়গা থেকে শুরু হয়।

"একক বিষয়" টিউটোরিয়াল উপর বিক্ষোভের একটি একক শব্দ অনুরূপ শব্দ retreiving ( 'লাল' বা 'হলুদ' উপর অনুসন্ধানের চেষ্টা) এর ভাল উদাহরণ। ইনপুট শব্দের সংকলনের সাথে সামগ্রিক মিল রয়েছে এমন শব্দগুলি খুঁজে পেতে এই কৌশলটি বাড়ানো সম্ভব হবে।


5

আপনি কি কর্পোরায় সাধারণ শব্দের সহ-উপস্থিতিগুলি ব্যবহার করে একটি ফ্রিকোয়েন্সি ভিত্তিক পদ্ধতির বিষয়টি বিবেচনা করেছেন? কমপক্ষে, এটি আমি বেশিরভাগ লোকেরা এর জন্য ব্যবহার করতে দেখেছি। আমি মনে করি এটি ম্যানিং এবং শ্যাচজির বইতে সংক্ষিপ্তভাবে আচ্ছাদিত করা যেতে পারে এবং গ্রেড স্কুলে হোমওয়ার্ক অ্যাসাইনমেন্ট হিসাবে আমি এরকম কিছু মনে করি ...

এখানে আরও পটভূমি: http://nlp.stanford.edu/IR-book/html/htmledition/automatic-thesaurus-generation-1.html

এই পদক্ষেপের জন্য:

মূল কীওয়ার্ডগুলিতে তাদের "দূরত্ব" এর উপর ভিত্তি করে অন্যান্য ধারণাগুলি রেঙ্ক করুন;

আপনি লক্ষ্য করতে পারেন বেশ কয়েকটি শব্দার্থক অনুরূপ মেট্রিক আছে। ওয়ার্ডনেটে এই জাতীয়তা সম্পর্কিত কয়েকটি ব্যবহার করে একটি শ্রেণি প্রকল্পের জন্য আমি একসাথে রেখেছি এমন কয়েকটি স্লাইডের লিঙ্ক এখানে দেওয়া হয়েছে: http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/greenbacker-WordNet-Sistanceity। পিডিএফ


3

এটি এমন একটি দুর্দান্ত সমস্যা যেখানে কোনও বাড়ির কার্যভার থেকে গুগল আকারের প্রকল্পে স্কোপটি আলাদা হতে পারে।

আসলে, আপনি শব্দের সহ-উপস্থিতি দিয়ে শুরু করতে পারেন (উদাঃ শর্তসাপেক্ষ সম্ভাবনা)। আপনি দ্রুত আবিষ্কার করতে পারবেন যে আপনি স্টপ শব্দের তালিকা বেশিরভাগ শব্দের সাথে সম্পর্কিত হিসাবে কেবলমাত্র সেগুলি খুব জনপ্রিয় get শর্তযুক্ত সম্ভাবনার উত্তোলনটি ব্যবহার বন্ধের শব্দের যত্ন নেবে তবে সম্পর্কটিকে সংখ্যায় ত্রুটিযুক্ত করে তুলবে (আপনার বেশিরভাগ ক্ষেত্রে)। আপনি জ্যাকার্ড চেষ্টা করে দেখতে পারেন তবে যেহেতু এটি প্রতিসম হয় তাই অনেক সম্পর্ক থাকবে যা এটি খুঁজে পাবে না।

তারপরে আপনি এমন সম্পর্কগুলি বিবেচনা করতে পারেন যা কেবল বেস শব্দ থেকে অল্প দূরত্বে উপস্থিত হয়। আপনি জেনারেল কর্পাসের (যেমন, উইকিপিডিয়া) এবং ব্যবহারকারী নির্দিষ্ট (যেমন, তার ইমেলগুলি) এর উপর ভিত্তি করে সম্পর্কের ভিত্তিতে (এবং হওয়া উচিত) বিবেচনা করতে পারেন।

খুব শীঘ্রই আপনার কাছে প্রচুর পরিমাণে সম্পর্কিততা ব্যবস্থা থাকবে, যখন সমস্ত ব্যবস্থা ভাল হয় এবং অন্যদের থেকে কিছুটা সুবিধা পান।

এই জাতীয় পদক্ষেপগুলি একত্রিত করার জন্য, আমি সমস্যাটিকে একটি শ্রেণিবিন্যাসের সমস্যার মধ্যে কমাতে চাই।

আপনার শব্দের প্যারিসের একটি ডেটা সেট তৈরি করা উচিত এবং এগুলি "সম্পর্কিত" হিসাবে লেবেল করা উচিত। একটি বৃহত লেবেলযুক্ত ডেটাसेट তৈরি করতে আপনি করতে পারেন:

  • ধনাত্মকতার জন্য জ্ঞাত সম্পর্কিত শব্দের উত্সগুলি (যেমন, পুরানো উইকিপিডিয়া বিভাগগুলি) ব্যবহার করুন
  • সম্পর্কিত হিসাবে পরিচিত না বেশিরভাগ শব্দ সম্পর্কিত নয়।

তারপরে জোড়াগুলির বৈশিষ্ট্য হিসাবে আপনার কাছে থাকা সমস্ত ব্যবস্থা ব্যবহার করুন। এখন আপনি তত্ত্বাবধানে শ্রেণিবিন্যাস সমস্যার ডোমেনে রয়েছেন। আপনার প্রয়োজন অনুসারে মূল্যায়ন করে ডেটা সেটে একটি শ্রেণিবদ্ধকারী তৈরি করুন এবং আপনার প্রয়োজন অনুসারে এমন একটি মিল খুঁজে নিন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.