নথিগুলি থেকে পাঠ্যের সর্বাধিক তথ্যপূর্ণ অংশগুলি বের করুন


16

বর্তমান নথির সর্বাধিক তথ্য ধারণ করে এমন কোনও অংশের টেক্সট উত্তোলন সম্পর্কিত কোনও নিবন্ধ বা আলোচনা রয়েছে?

উদাহরণস্বরূপ, একই ডোমেন থেকে আমার কাছে ডকুমেন্টের একটি বৃহত কর্পস রয়েছে। পাঠ্যের কিছু অংশ রয়েছে যা একক দস্তাবেজ কী সম্পর্কে মূল তথ্য ধারণ করে। আমি সেই অংশগুলির কয়েকটি বের করতে এবং সেগুলি পাঠ্যের সংক্ষিপ্তসার হিসাবে ব্যবহার করতে চাই। এই জাতীয় কিছু অর্জন কীভাবে সম্পর্কে কোনও দরকারী ডকুমেন্টেশন আছে?

প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের ক্ষেত্রে এই ক্ষেত্রটি ইতিমধ্যে করা হতে পারে এমন কাজ সম্পর্কে কিছুটা অন্তর্দৃষ্টি পাওয়ার জন্য যদি কেউ আমাকে সঠিক দিকে নির্দেশ করতে পারে তবে এটি সত্যিই সহায়ক হবে।

উত্তর:


23

আপনি যা বর্ণনা করছেন তা প্রায়শই টিএফ-আইডিএফ এবং এক্সট্র্যাক্ট সারসংক্ষেপের একটি সাধারণ সমন্বয় ব্যবহার করে অর্জন করা হয় ।

সংক্ষেপে, টিএফ-আইডিএফ আপনাকে প্রতিটি ডকুমেন্টের প্রতিটি শব্দের আপেক্ষিক গুরুত্ব আপনার বাকী কর্পাসের তুলনায় বলে দেয়। এই মুহুর্তে, আপনার প্রতিটি নথিতে প্রতিটি শব্দটির "গুরুত্ব" প্রায় অনুমানের জন্য একটি স্কোর রয়েছে। তারপরে আপনি প্রতিটি বাক্যটিতে প্রতিটি শব্দের স্কোর যোগ করে প্রতিটি বাক্যের জন্য একটি সমন্বিত স্কোর গণনা করতে এই স্বতন্ত্র শব্দ স্কোরগুলি ব্যবহার করতে পারেন। পরিশেষে, প্রতিটি ডকুমেন্ট থেকে শীর্ষ-এন স্কোরিং বাক্যগুলিকে তার সংক্ষিপ্তসার হিসাবে কেবল গ্রহণ করুন।

এই বছরের শুরুর দিকে, আমি একটি আইপ্যাথন নোটবুক একসাথে রেখেছি যা পাইথনে এনএলটিকে এবং সাইকিট- লার্ন : পাইথনের একটি স্ম্যাটটারিংয়ের ব্যবহার করে পাইথনে এটি প্রয়োগের সমাপ্তি ঘটে ।


2
হ্যাঁ, সম্ভবত এটি হবে। আমি কিছু শব্দের অতিরিক্ত ওজন যোগ করতে পারি, আমি ইতিমধ্যে জানি যে তথ্যবহুল। আপনার সাহায্য এবং দরকারী লিঙ্কগুলির জন্য ধন্যবাদ।
ম্যাটিকডিবা

সুতরাং আমি কি এটি একটি পিডিএফ ব্যবহার করতে পারি? :)
আদম

হ্যাঁ, আপনি পিডিএফ-তে পাঠ্যটিতে এটি ব্যবহার করতে পারেন, ধরে নিয়ে আপনি পিডিএফটিটেক্সট জাতীয় কিছু ব্যবহার করে ইতিমধ্যে পিডিএফ থেকে সরল পাঠটি বের করেছেন।
চার্লি গ্রিনব্যাকার

1

প্রচুর কীওয়ার্ড নিষ্কাশন কৌশলগুলি এর উপর নির্ভর করে যেমন:

  1. পাঠ্য ব্যাকরণগত গুণমান
  2. পাঠ্যের দৈর্ঘ্য
  3. আপনি কোনও একক কীওয়ার্ড বা ফ্রেসসাল কীওয়ার্ড ইত্যাদি সন্ধান করছেন কিনা Whether

তবে সাধারণভাবে, যদি আপনার একটি দীর্ঘ পাঠ্য থাকে এবং আপনি সেগুলি থেকে স্বয়ংক্রিয়ভাবে কীওয়ার্ডগুলি বের করতে চান, আমি আপনাকে নিবন্ধগুলি অনুসরণ করার পরামর্শ দিচ্ছি:

  1. TextRank

  2. রাখুন [দ্রুত স্বয়ংক্রিয় কীওয়ার্ড নিষ্কাশন]

  3. Topica

উপরোক্ত কৌশলগুলির মাধ্যমে আসে না এমন কাস্টম (বিশেষ) কীওয়ার্ডগুলি বের করার জন্য, নীচের পোস্টটি দেখুন:

পাইথনে NLTK POS ট্যাগার ব্যবহার করে কাস্টম কীওয়ার্ডগুলি বের করুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.