আমি কীভাবে আমার ডেটাতে সূক্ষ্ম সম্পর্ক প্রকাশ করব?


20

"এ" "বি" এবং "সি" এর সাথে সম্পর্কিত। আমি কীভাবে দেখাব যে "বি" এবং "সি", এই প্রসঙ্গে, এর সাথেও সম্পর্কিত হতে পারে?

উদাহরণ:

সাম্প্রতিক ব্রডওয়ে নাটকটি সম্পর্কে কয়েকটি শিরোনাম এখানে দেওয়া হয়েছে:

  1. আল প্যাকিনো অভিনীত ডেভিড ম্যামেটের গ্লেঞ্জারি গ্লেন রস ব্রডওয়েতে খোলে
  2. 'গ্লেঞ্জারি গ্লেন রস'-তে আল পাচিনো: সমালোচকরা কী ভাবেন?
  3. আল প্যাকিনো ব্রডওয়ে টার্নের জন্য অভাবনীয় পর্যালোচনা অর্জন করেছেন
  4. থিয়েটারের পর্যালোচনা: গ্লেনজারি গ্লেন রস এর তারকাদের শক্ত বিক্রি করছে
  5. গ্লেঞ্জারি গ্লেন রস; আরে, কে ক্লিগ লাইটকে মেরেছিল?

সমস্যা:

এই রেকর্ডগুলির সাথে একটি अस्पष्ट স্ট্রিং ম্যাচ চালানো কিছু সম্পর্ক স্থাপন করবে, তবে অন্যদের নয়, যদিও একজন মানব পাঠক অনেক বড় ডেটাসেটে প্রসঙ্গ থেকে এটিকে বেছে নিতে পারে।

# 3 এর সাথে # 3 সম্পর্কিত সম্পর্কযুক্ত প্রস্তাবটি আমি কীভাবে খুঁজে পাব? উভয়ই সহজেই # 1 এর সাথে সংযুক্ত হতে পারে তবে একে অপরের সাথে নয়।

এই জাতীয় ডেটা বা কাঠামোর জন্য কি কোনও (গুগলেবল) নাম রয়েছে? আমি কোন ধরণের অ্যালগরিদম খুঁজছি?

গোল:

1000 টি শিরোনাম দেওয়া হয়েছে, এমন একটি সিস্টেম যা স্বয়ংক্রিয়ভাবে পরামর্শ দেয় যে এই 5 টি আইটেমগুলি সম্ভবত একই জিনিস।

সত্যি কথা বলতে কী, আমি এতক্ষণ ধরে প্রোগ্রাম করেছি যে আমি কীভাবে এই সমস্যাটি সঠিকভাবে প্রকাশ করতে পারি তার ক্ষতি করছি। (আমি কী জানি না তা আমি জানি না, যদি এটি বোঝা যায়)।

এটি একটি ব্যক্তিগত প্রকল্প এবং আমি পাইথনে এটি লিখছি। কোনও সহায়তা, পরামর্শ এবং পয়েন্টারগুলির জন্য আগাম ধন্যবাদ!


1
প্রাকৃতিক ভাষার পার্সিং এবং / অথবা কিছু অন্যান্য সম্ভাব্য কৌশলগুলির মতো শব্দগুলির প্রয়োজন
জে.কে.

2
এইটা একটা ভালো প্রশ্ন!
মাইকেল ব্রাউন

আমি মনে করি আমি এমন সিস্টেমগুলি দেখেছি যা প্রোলগ এ প্রয়োগ করতে পারে।
হতাশ

1
@ ফ্রাস্ট্রেটেড উইথফোর্ডস ডিজাইনার আমার সন্দেহ হয় আপনি লজিক প্রোগ্রামিংয়ে একীকরণের কথা ভাবছেন ..?
ইজকাটা

উত্তর:


14

এটিকে ক্লাস্টার অ্যানালাইসিস বলা হয় , যা মূলত একই ধরণের বৈশিষ্ট্যযুক্ত বস্তুগুলিকে ক্লাস্টারে বিভক্ত করে। এটি একটি বিশাল বিষয়, তবে এটি আপনাকে শুরু করার জায়গা দেয়।


7

আপনি শব্দার্থবিজ্ঞানের জগতে প্রবেশ করছেন। এমন পাবলিক সার্ভিসগুলি রয়েছে যা পাঠ্যকে বিশ্লেষণ করবে এবং প্রধান ধারণাগুলি টেনে আনবে ( সিমেন্টিক এপিআইয়ের জন্য একটি তাত্ক্ষণিক অনুসন্ধানে কয়েকটি নেমে এসেছে ) যা একটি ফর্ম ফর্ম নথিকে বিশ্লেষণ করবে এবং মানুষ, স্থান, জিনিস, তারিখ এবং ধারণাগুলি সহ যে প্রধান বিষয়গুলির মুখোমুখি হবে তা ফিরিয়ে দেবে will । আরও ভাল কিছু ফরম্যাটে ফিরে আসবে [আরডিএফ] হিসাবে পরিচিত

আপনি যদি আপনার নিজের সিস্টেমটি এটি করতে পারেন তা বানাতে চান তবে ক্ষেত্রটি হ'ল প্রাকৃতিক ভাষা প্রসেসিং এবং এটি ডাইভ করার জন্য খুব আগ্রহী খরগোশের গর্ত।


4

যদি কিছুটা সম্ভব হয় তবে শিরোনামের সাথে গল্পটি পান। শিরোনামগুলি মাঝে মধ্যে "চতুর" পেতে পারে এবং যা আলোচনা হচ্ছে তার কেবলমাত্র স্পর্শকাতর রেফারেন্স তৈরি করতে পারে। এটি মানুষের সাথে ঠিক আছে (কারণ তাদের বিশ্বব্যাপী প্রসঙ্গ রয়েছে ), তবে এনএলপির সাথে তেমন ভাল হয় না।

কার্ল বিলেফেল্টের উত্তরে যেমন উল্লেখ করা হয়েছে, গুচ্ছস্থান হ'ল একটি ভাল পদ্ধতি, তবে শয়তান তার বিবরণে রয়েছে। আপনাকে কেবল একটি ক্লাস্টারিং পদ্ধতি বেছে নিতে হবে যা আপনার সমস্যা / ব্যবহারকারীর জায়গার সাথে মানানসই নয়, আপনাকে কী ক্লাস্টার হচ্ছে তাও বের করতে হবে।

আমার ব্যাকগ্রাউন্ডটি 80-90-এর দশকে তথ্য পুনরুদ্ধার (আইআর) এ রয়েছে এবং আমরা সাদৃশ্য অনুসন্ধান এবং সেন্ট্রয়েড-ভিত্তিক ক্লাস্টারিংয়ের দিকে মনোনিবেশ করেছি । আমাদের নথিগুলি ওজনযুক্ত বিশিষ্ট ভেক্টর দ্বারা প্রতিনিধিত্ব করা হয়েছিল , যা মূলত শর্তাবলীর একটি তালিকা এবং ডকটিতে তাদের আপেক্ষিক গুরুত্ব। এই পদ্ধতির কাজ করা যেতে পারে (যদিও অন্যদের তুলনায় কিছু সংগ্রহের সাথে এটি আরও ভাল) তবে এতে সংক্ষিপ্ত-সুন্দর শিরোনামগুলির সমস্যা রয়েছে কারণ জিনিসগুলিকে এক সাথে বেঁধে রাখার জন্য তাদের কাছে মূল ভোকাবুলারি শর্তাদি নেই। তবে আপনি যদি পুরো দস্তাবেজটি ব্যবহার করেন তবে আপনি শর্তাদির একটি আরও সমৃদ্ধ তালিকা পাবেন (এবং সম্ভবত আরও ভাল গুরুত্বের বোধ) এবং শর্তাবলীর এই তালিকাটি সম্ভবত সংযোগটি স্পট করা সহজ করবে (যেমন গণনা) যখন আপনার শিরোনামগুলি হবে "চতুর"।

আপনি যদি ভেক্টর প্রজন্মের সমস্যা ইত্যাদি পেতে চান তবে আমার ইমেলটি আমার প্রোফাইলে রয়েছে in

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.