নথিগুলি থেকে পাঠ্যের সর্বাধিক তথ্যপূর্ণ অংশগুলি বের করুন

16

বর্তমান নথির সর্বাধিক তথ্য ধারণ করে এমন কোনও অংশের টেক্সট উত্তোলন সম্পর্কিত কোনও নিবন্ধ বা আলোচনা রয়েছে?

উদাহরণস্বরূপ, একই ডোমেন থেকে আমার কাছে ডকুমেন্টের একটি বৃহত কর্পস রয়েছে। পাঠ্যের কিছু অংশ রয়েছে যা একক দস্তাবেজ কী সম্পর্কে মূল তথ্য ধারণ করে। আমি সেই অংশগুলির কয়েকটি বের করতে এবং সেগুলি পাঠ্যের সংক্ষিপ্তসার হিসাবে ব্যবহার করতে চাই। এই জাতীয় কিছু অর্জন কীভাবে সম্পর্কে কোনও দরকারী ডকুমেন্টেশন আছে?

প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের ক্ষেত্রে এই ক্ষেত্রটি ইতিমধ্যে করা হতে পারে এমন কাজ সম্পর্কে কিছুটা অন্তর্দৃষ্টি পাওয়ার জন্য যদি কেউ আমাকে সঠিক দিকে নির্দেশ করতে পারে তবে এটি সত্যিই সহায়ক হবে।

nlp text-mining

— MaticDiba
সূত্র

23

আপনি যা বর্ণনা করছেন তা প্রায়শই টিএফ-আইডিএফ এবং এক্সট্র্যাক্ট সারসংক্ষেপের একটি সাধারণ সমন্বয় ব্যবহার করে অর্জন করা হয় ।

সংক্ষেপে, টিএফ-আইডিএফ আপনাকে প্রতিটি ডকুমেন্টের প্রতিটি শব্দের আপেক্ষিক গুরুত্ব আপনার বাকী কর্পাসের তুলনায় বলে দেয়। এই মুহুর্তে, আপনার প্রতিটি নথিতে প্রতিটি শব্দটির "গুরুত্ব" প্রায় অনুমানের জন্য একটি স্কোর রয়েছে। তারপরে আপনি প্রতিটি বাক্যটিতে প্রতিটি শব্দের স্কোর যোগ করে প্রতিটি বাক্যের জন্য একটি সমন্বিত স্কোর গণনা করতে এই স্বতন্ত্র শব্দ স্কোরগুলি ব্যবহার করতে পারেন। পরিশেষে, প্রতিটি ডকুমেন্ট থেকে শীর্ষ-এন স্কোরিং বাক্যগুলিকে তার সংক্ষিপ্তসার হিসাবে কেবল গ্রহণ করুন।

এই বছরের শুরুর দিকে, আমি একটি আইপ্যাথন নোটবুক একসাথে রেখেছি যা পাইথনে এনএলটিকে এবং সাইকিট- লার্ন : পাইথনের একটি স্ম্যাটটারিংয়ের ব্যবহার করে পাইথনে এটি প্রয়োগের সমাপ্তি ঘটে ।

— চার্লি গ্রিনব্যাকার
সূত্র

2

হ্যাঁ, সম্ভবত এটি হবে। আমি কিছু শব্দের অতিরিক্ত ওজন যোগ করতে পারি, আমি ইতিমধ্যে জানি যে তথ্যবহুল। আপনার সাহায্য এবং দরকারী লিঙ্কগুলির জন্য ধন্যবাদ।

— ম্যাটিকডিবা

সুতরাং আমি কি এটি একটি পিডিএফ ব্যবহার করতে পারি? :)

— আদম

হ্যাঁ, আপনি পিডিএফ-তে পাঠ্যটিতে এটি ব্যবহার করতে পারেন, ধরে নিয়ে আপনি পিডিএফটিটেক্সট জাতীয় কিছু ব্যবহার করে ইতিমধ্যে পিডিএফ থেকে সরল পাঠটি বের করেছেন।

— চার্লি গ্রিনব্যাকার

1

প্রচুর কীওয়ার্ড নিষ্কাশন কৌশলগুলি এর উপর নির্ভর করে যেমন:

পাঠ্য ব্যাকরণগত গুণমান
পাঠ্যের দৈর্ঘ্য
আপনি কোনও একক কীওয়ার্ড বা ফ্রেসসাল কীওয়ার্ড ইত্যাদি সন্ধান করছেন কিনা Whether

তবে সাধারণভাবে, যদি আপনার একটি দীর্ঘ পাঠ্য থাকে এবং আপনি সেগুলি থেকে স্বয়ংক্রিয়ভাবে কীওয়ার্ডগুলি বের করতে চান, আমি আপনাকে নিবন্ধগুলি অনুসরণ করার পরামর্শ দিচ্ছি:

TextRank
রাখুন [দ্রুত স্বয়ংক্রিয় কীওয়ার্ড নিষ্কাশন]
Topica

উপরোক্ত কৌশলগুলির মাধ্যমে আসে না এমন কাস্টম (বিশেষ) কীওয়ার্ডগুলি বের করার জন্য, নীচের পোস্টটি দেখুন:

পাইথনে NLTK POS ট্যাগার ব্যবহার করে কাস্টম কীওয়ার্ডগুলি বের করুন

— anindya
সূত্র