পিডিএফ ফাইলে শব্দের সংখ্যা গণনা করুন


66

আমি কীভাবে পিডিএফ ফাইলের শব্দ গণনা পেতে পারি? আমি মনে করি যে বেশিরভাগ পিডিএফ ফাইলগুলির জন্য আমি মোট শব্দ গণনা পেতে চাইছি পাঠ্য স্তরটি এম্বেড করা আছে, সুতরাং আমার কোনও ওসিআর লাগবে না।

টাস্কটি জ্ঞাত আকারের কিছু বৈজ্ঞানিক কাগজ, যেমন 15000 শব্দের সন্ধান থেকে উদ্ভূত হয়েছিল। বেশিরভাগ মোডারের কাগজপত্র পিডিএফ ফর্ম্যাটে প্রকাশিত হয়

উত্তর:


90

দ্রুত উত্তর:

pdftotext myfile.pdf - | wc -w

দীর্ঘ উত্তর:

ইউনিক্সে থাকলে, আপনি ব্যবহার করতে পারেন pdftotext:

এবং তারপরে উত্পন্ন ফাইলটিতে শব্দ গণনা করুন। ইউনিক্সে থাকলে, আপনি ব্যবহার করতে পারেন:

wc -w converted-pdf.txt

শব্দ গণনা পেতে।

এছাড়াও, উদ্ভট মন্তব্যটি দেখুন - মূলত, আপনি stdoutএকটি অস্থায়ী ফাইলের পরিবর্তে পাইপ দিয়ে এক ধাপে এটি করতে পারেন :

pdftotext myfile.pdf - | wc -w

10
এটি pdftotext: ই ভুলবেন না। এবং যদি আপনি একটি একক কমান্ড ব্যবহার করতে পারেন: pdftotext myfile.pdf - | wc -w
উদ্ভট

1
@ ফ্রেবজাস ধন্যবাদ, পরামর্শগুলি সহ উত্তরটি আপডেট করেছেন!
icyrock.com

এটি লক্ষণীয় যে pdftotextএক্সপিডিএফ অংশ যা উইন্ডোজ প্ল্যাটফর্মের জন্যও উপলব্ধ। এক্সপিডিএফ ডাউনলোড পৃষ্ঠাটি এখানে অবস্থিত: foolabs.com/xpdf/download.htmlwcএছাড়াও পাওয়া যেতে পারে, তবে বিকল্পভাবে শব্দ বা LibreOffice Writer এর মতো কোনও ওয়ার্ড প্রসেসর ব্যবহার করতে পারেন use তারা শব্দগুলিও গণনা করে। (LibreOffice Writer এর জন্য ফাইল -> বৈশিষ্ট্য -> পরিসংখ্যান) এ যান
এনথেন্স

13

এটি সমাধান করা সহজ নয় এমন একটি কঠিন কাজ। আপনি যদি সত্যিই সঠিক ফলাফল চান তবে আপনার পিডিএফ দর্শকের জন্য অনুচ্ছেদে অনুচ্ছেদে একটি পাঠ্য ফাইলে অনুলিপি করুন এবং wc -wসরঞ্জামটি দিয়ে এটি পরীক্ষা করুন । pdftotextসে ক্ষেত্রে ব্যবহার না করার কারণ হ'ল গাণিতিক সূত্রগুলি আউটপুটেও আসতে পারে এবং "শব্দ" হিসাবে বিবেচিত হতে পারে। (বিকল্পভাবে আপনি যে আউটপুটটি পাবেন তা সম্পাদনা করতে পারবেন pdftotext)। এটি ব্যর্থ হওয়ার আরেকটি কারণ শিরোনাম হ'ল: "৪.৩.২ ফু ফু" তিনটি শব্দ হিসাবে গণনা করা হয়।

চারপাশের উপায়টি কেবলমাত্র [এ-জা-জেড] এর বাইরে শুরু হওয়া শব্দগুলি গণনা করা। সুতরাং আমি যা করি তা হল দুটি পদক্ষেপের পদ্ধতি:

  1. ইউনিক শব্দের তালিকা পান এবং ভিতরে খুব বেশি মিথ্যা ধনাত্মকতা আছে কিনা তা পরীক্ষা করুন:

    pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words

    আমি এখানে একটি অভিধান ব্যবহার করি না, কারণ কিছু বানান ত্রুটি শব্দ হিসাবে গণনা করা হয় না।

  2. এই শব্দ তালিকাটি পান এবং পিডিফোটোটেক্সটের আউটপুটটির মধ্যে গ্রেপ করুন:

    pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l

আমি জানি যে এটি একটি লাইনারের মধ্যে করা যেতে পারে তবে আমি প্রথম ধাপ থেকে সহজেই ফিল্টার ফলাফল দেখতে পেলাম না। -Fযেমন মন্তব্য বলেছেন আপনাকে সাহায্য করতে পারি Moi নিচে (ধন্যবাদ)।


1
আমাকে ব্যবহার করতে হয়েছিল grep -Ff words, কারণ গ্রেপ "তুলনাহীন [বা [^" সম্পর্কে অভিযোগ করে। ম্যান পৃষ্ঠা থেকে: `` `-F, --ফিক্সড-স্ট্রিংগুলি PATTERN কে নতুন লাইনের দ্বারা পৃথক করা স্থির স্ট্রিংগুলির একটি তালিকা হিসাবে ব্যাখ্যা করে, যার মধ্যে কোনওটিই মিলে যায়। (-ফ পোসিক্স দ্বারা নির্দিষ্ট করা হয়েছে।) `` `
মোই

10

আমি কেবল একটি মুক্ত প্রোগ্রাম চেষ্টা করেছি, অনুবাদকের অ্যাবাকাস । আপনি বিভিন্ন ফাইলের প্রকার (পিডিএফ সহ) টেনে আনতে এবং নামাতে পারেন এবং এটি প্রতিটি নথির জন্য শব্দ গণনা প্রিন্টযোগ্য প্রতিবেদন সহ একটি ব্রাউজারকে পপ আপ করে দেয়। এটা আমার জন্য ভাল কাজ করেছিল. (এটি বিশেষত শব্দ গণনার জন্য তৈরি এবং এটি কেবলমাত্র 435 কেবি ... এটি "বড় অ্যাপ্লিকেশন" নয়)। অনুবাদকের অ্যাবাকাস পিডিএফ 1.5 বা তার পরে কাজ করে না।

বিকল্পভাবে : আপনি শুধু পারেন Ctrl+ Aঅ্যাক্রোব্যাট রিডার মধ্যে সমস্ত পাঠ্য নির্বাচন এবং তারপর এটা Microsoft Word এর মত একটি প্রোগ্রাম (যা পর্দার নীচে স্ট্যাটাস বার এ একটি শব্দ গণনা আছে) মধ্যে কপি-পেস্ট করুন।


(অনেক?) পিডিএফ-এ, ক্রল + এ কেবলমাত্র বর্তমান পৃষ্ঠায় শব্দগুলি নির্বাচন করে, পুরো নথিতে নয়। অনুবাদকের অ্যাবাকাস পুরোপুরি দুর্দান্তভাবে কাজ করে, দুর্দান্ত!
জুনউক্সএক্স

3
সংশোধন, অনুবাদকের অ্যাবাকাস পিডিএফ 1.5 বা তার পরে কাজ করে না।
জুনক্সেক্স

উইনমার্গের সাথে অ্যাডোব রিডারে +1 Ctrl + A একসাথে উইন্ডোজটিতে দুর্দান্ত কাজ করে!
সুপারজোজ

2

আপনি যদি অ্যাক্রোব্যাট প্রো ব্যবহার করেন তবে এটি করার সহজ সরল উপায় হ'ল পিডিএফটিকে একটি মাইক্রোসফ্ট ওয়ার্ড নথিতে রফতানি করা এবং তারপরে ওয়ার্ডে শব্দ গণনা করা। বিকল্পভাবে, আপনি এটি একটি সাধারণ পাঠ্য ফাইলগুলিতে রফতানি করতে পারেন এবং আপনার পছন্দ / এর পাঠ্য সম্পাদকের একটি শব্দ গণনা ইউটিলিটি ব্যবহার করতে পারেন। আমি কেবল ওয়ার্ড পদ্ধতি ব্যবহার করে একটি পিডিএফ নিবন্ধে একটি শব্দের গণনা করেছি এবং এটি সম্পূর্ণ হতে 30 সেকেন্ড সময় নিয়েছে।

আশাকরি এটা সাহায্য করবে.


আমি পাঠ্যে রূপান্তর করেছি এবং wc -w filename.txt করেছি। এটা কাজ করেছে. ধন্যবাদ।
বিজয়স্ট

1

আপনি ওসিআরফিডার ইনস্টল করতে পারেন । এটিতে ফাইল-> আমদানি করুন পিডিএফ-> স্বয়ংক্রিয়ভাবে সমস্ত পৃষ্ঠাগুলি সনাক্ত করুন এবং সনাক্ত করুন-> ওডিটি রফতানি করুন এবং লাইব্রোফাইস রাইটার ডকুমেন্ট শব্দের গণনা বা আপনি যে কোনও আরটিএফ ফাংশনটি ব্যবহার করতে চান তার জন্য প্রস্তুত থাকবে।



0

আপনি নিম্নলিখিত কোডগুলির সাথে অ্যাডোব অ্যাক্রোব্যাটের কনসোল জাভাস্ক্রিপ্ট ব্যবহার করতে পারেন, যা আমি ফোমেসএডোব.কম.-এ ডেভ মার্চেন্টের উত্তর থেকে নিয়েছি :

var cnt=0;
for (var p = 0; p < this.numPages; p++) cnt += getPageNumWords(p);
console.println("There are " + cnt + " words in this file.");

উইন্ডোজ 7 এসপি 1 এক্স 64 আলটিমেটে অ্যাডোব অ্যাক্রোব্যাট প্রো ডিসি 2018.011.20040 এর সাথে পরীক্ষিত।


জাভাস্ক্রিপ্ট কনসোল সক্ষম করতে:

এখানে চিত্র বর্ণনা লিখুন

জাভাস্ক্রিপ্ট কনসোল উইন্ডোটি চালু করতে:

CTRL + + J

এখানে চিত্র বর্ণনা লিখুন

এফওয়াইআই, যদি আপনার পিডিএফ সম্পর্কিত ল্যাটেক্স উত্স থাকে: একটি ল্যাটেক্স ডকুমেন্টের শব্দ-গণনা সঠিক করুন


-1

সত্যিকারের স্ট্যান্ডার্ড, অনুবাদকরা প্রায় 2000 সাল থেকে যেকোনও হিসাব শব্দের গণনা সরঞ্জাম এটি পিডিএফ এবং 37 টি অন্যান্য ফর্ম্যাটে শব্দ গণনা করে।


ভ্লাদিমির, এমন কোনও তৃতীয় পক্ষের রেফারেন্স রয়েছে (বই, কাগজপত্র, জার্নালে, বাজার পর্যালোচনায় উল্লেখ আছে) যে কোনও গণনা শব্দের গণনা এবং অনুবাদ বাজারে ব্যাপকভাবে ব্যবহৃত হয়? ভালো লেগেছে books.google.com/...
osgx

-3

Ctrl+ Shift+ Fউন্নত অনুসন্ধানের শব্দটি লিখুন এবং এটি ডকটিতে কতবার তা গণনা করবে। এটা রকেট বিজ্ঞান নয়।


9
আমি মনে করি আপনি প্রশ্নটি ভুল বুঝেছেন ... 'শব্দের গণনা' সাধারণত একটি নির্দিষ্ট শব্দের সংখ্যার চেয়ে ডকুমেন্টের মোট শব্দের সংখ্যাকে বোঝায় ... এবং এছাড়াও, আমি মনে করি আপনি ভাল থাকলে ভাল হত আপনি কোন প্রোগ্রামের বিষয়ে কথা বলছেন তা নির্দিষ্ট করতে - সমস্ত পিডিএফ পাঠকের একই কার্যকারিতা নেই বা একই কীবোর্ড শর্টকাট ব্যবহার করবেন না।
অশুভ সপ

আপনি ওপিএসের উত্তর নাও দিতে পারেন তবে আপনার পোস্টটি অবশ্যই আমাকে সাহায্য করেছে। ধন্যবাদ। : ডি
mahela007
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.