আমি কীভাবে স্ক্যান হওয়া পিডিএফটিকে পাঠ্য সহ পিডিএফে রূপান্তর করব


36

আমি প্রায় 80 পৃষ্ঠা ধূসর স্কেল পিডিএফ (চিত্র বিন্যাস) এ স্ক্যান করেছি into ফাইলটির শেষ আকারটি প্রায় 70MB, যা খুব বিশাল।

গ্রেস্কেল চিত্র-ভিত্তিক পিডিএফ ফাইলটিকে একটি সাধারণ কালো / সাদা পাঠ্য-ভিত্তিক পিডিএফ ফাইলে রূপান্তর করার জন্য এখন আমি একটি পদ্ধতির সন্ধান করছি।

আমি অনেক চেষ্টা করেছি gsকিন্তু কোন সাফল্য ছাড়াই (মাত্র কয়েক শতাংশ পুনরুদ্ধার)। যদি কোনও বিশেষজ্ঞের কিছু ধারণা থাকে তবে দয়া করে আমাকে জানান।


1
আপনার কিছু ওসিআর সরঞ্জাম প্রয়োজন। টেসেরাক্ত তাকান ubuntuforums.org/showthread.php?t=880471
নিকিতা ইউ

4
আপনি যদি পিডিএফ চিত্রগুলি ঠিক তেমন রাখতে এবং এতে পাঠ্য যুক্ত করতে আগ্রহী হন তবে পিডিএফে ওসিআর তথ্য যুক্ত করার প্রশ্নটি দেখুন ।
কোলান

আপনি যদি একটি পৃষ্ঠার উদাহরণে (উদাহরণস্বরূপ) একটি লিঙ্ক পোস্ট করতে পারেন তবে আমরা সমাধানগুলি পরীক্ষা করতে পারতাম ...
রুমানো

এটি কোনও ওসিআর সমাধান নয় তবে Askubuntu.com/a/3387/16395 অনেক সাহায্য করে (যদিও 72 ডিপিআই নীচে কিছুটা হলেও, আমার আরও ভাল ফলাফল হয়েছে 120)।
রোমানো

YAGF কি উবুন্টু 16.04 এর সাথে সঠিকভাবে কাজ করে? যদি আমি কোনও চিত্র বা একটি পিডিএফ-নথি লোড করি তবে কোনও ত্রুটি বার্তা ছাড়াই প্রোগ্রামমটি বন্ধ হয়ে যায়। উবুন্টু 14.04 এর অধীনে আমার কোনও সমস্যা ছিল না। এইচ.রোস
হুবার্ট রুস

উত্তর:


25

gImageReader একটি সাধারণ জিটিকে + ফ্রন্ট-এন্ড tesseract-ocr

sudo apt-get install gimagereader tesseract-ocr

জার্মান পাঠ্যের জন্য দুঃখিত


4
ওসিআর উন্নত করতে আপনার ডকুমেন্টের ভাষাও ইনস্টল করা উচিত, সাথে ডুশ-এর মতো পর্তুগিজ ইত্যাদির মতো ভাষা কোড দ্বারা sudo apt-get install tesseract-ocr-[lang]প্রতিস্থাপন langকরা উচিতdeupor
এসটিবোর্ডো

1
এই সফ্টওয়্যারটি কুরুচিপূর্ণ। ব্যবহারযোগ্যতা শূন্যের নিচে। যদিও এটি কাজটি করার চেষ্টা করে তবে এটি সাধারণ স্প্রেডশিট-জাতীয় টেবিলগুলি পড়তে অক্ষম। কেবল সেগুলি থাকা পৃষ্ঠাগুলি মিস করে।
ম্যাক্স ইউদিন

9

আপনি পিডিফোকার চেষ্টা করতে পারেন:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

সিনট্যাক্স কার্যকর করতে হয়

 pdfocr -i input.pdf -o output.pdf

input.pdfইনপুট ফাইল এবং output.pdfআউটপুট ফাইলের নাম কোথায় ।

ডিফল্টরূপে এটি টেসারেক্ট ব্যবহার করে। এটি ইনস্টল করতে:

 sudo apt-get install tesseract-ocr

পিডিএফোকার একটি এমবেডেড পাঠ্য স্তর তৈরি করে।


গ্রেট! মজার বিষয় হল ফাইলটির উপরের পদক্ষেপগুলি সম্পাদন করার পরে এখন অ্যাডোব অ্যাক্রোব্যাট ডিসি তে অনুসন্ধানযোগ্য তবে পূর্বরূপে নয়।
লুকাউস

2
এই সংগ্রহস্থলটি জেনিয়াল সমর্থন করে না
ম্যাক্স এন

আপনি পিডিফোকরের একটি পুরানো সংস্করণ ইনস্টল করার চেষ্টা করতে পারেন, আপনি যদি জেনিয়ালে উইলি সংস্করণ ইনস্টল করেন তবে এটি ঠিক আছে। এটি করার জন্য "ডেবি পিপিএলঞ্চপ্যাড.এন.জেজাকোভাকস / পিডিফোকার / বুন্টু উইল মেইন" এবং "ডেবি- এসসিআর পিপিএ.লাঞ্চপ্যাড.net / জিজেকোভাকস / পিডিফোকার / বুন্টু উইলই মাই " /etc/apt/source.list এ যোগ করুন এবং তারপরে "সুদো আপ্ট আপডেট" এবং "সুডো অ্যাপটি পাবেন পিডিএফোকার ইনস্টল করুন"
রাফমুনোজফ

2
পিডিএফোকর একটি স্ক্রিপ্ট যা নিম্নলিখিত প্রক্রিয়াটিকে স্বয়ংক্রিয় করে তোলে: 1. পিডিএফটেক ব্যবহার করে পিডিএফ ফাইলটি পৃথক পৃষ্ঠাগুলিতে বিভক্ত করা ২.পিডিফাইমেজ ব্যবহার করে চিত্রের ডেটা বের করা ৩. কিউনিফর্ম ব্যবহার করে ওসিআর (অপটিক্যাল অক্ষর স্বীকৃতি) করা ৪. সনাক্ত করা পাঠ্যটিকে আবার এম্বেড করা Hocr2pdf ব্যবহার করে পিডিএফ ফাইল ৫। পিডিএফটক ব্যবহার করে ফাইলগুলি একত্রিত করা। ( উবুন্টুফর্মস.org / শোথ্রেড.এফপি?t=1456756 থেকে উদ্ধৃতি )
টমি ট্রাসেল

3
pdfsandwich

এটি টেস্টারেক্ট এবং অন্যদের ইনস্টলে লোড করে। এটি একটি সহজ একটি পদক্ষেপ সমাধান এবং স্ক্রিপ্ট করা যেতে পারে। এটি hocr2pdfএকটি সরল পাঠ্য পিডিএফ তৈরি করতে ব্যবহার করতে পারে তবে এটি প্রাথমিক সময়ের জন্য প্রস্তুত নয় ... এখনও। ডিফল্ট পরীক্ষামূলক ব্যবহার করে এবং নীচে একটি "স্যান্ডউইচড" পিডিএফ: চিত্র + পাঠ্য তৈরি করে।

এম্বেড করা চিত্রটি কমান্ডগুলির সাথে সরানো যেতে পারে:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

তবে পাঠ্যটি লুকানো আছে, তাই এটি ফাঁকা পৃষ্ঠার মতো দেখাচ্ছে।

পিডিএফটি লোড করা LibreOffice Drawএতে পাঠ্যকে প্রকাশ করে এবং চিত্রটি ম্যানুয়ালি মুছে ফেলা যায়।


ইমেজম্যাগিক / ভূস্ট্রিপ্ট সুরক্ষা সম্পর্কিত সমস্যাগুলির বিষয়ে আমরা কী করব যার ফলে এইরকম not authorizedত্রুটি দেখা দেয় identify-im6.q16: চিত্রম্যাগিক - রূপান্তর: অনুমোদিত নয় aaaa@ ত্রুটি / সংস্থাপূর্ণ / রিডিজমেশন / 453 - স্ট্যাক ওভারফ্লো
নীলামকবি ২r

1

উবুন্টু ১৪.০৪-তে @AB দ্বারা প্রস্তাবিত গ্রাফিক্যাল ইন্টারফেসের জন্য আপনার অনুসরণ করা উচিত:

উবুন্টুতে ওসিআর পরীক্ষামূলক 14.04

অথবা যাইহোক, সংগ্রহস্থল তালিকায় যুক্ত করুন:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

এই কাজ করার আগে:

sudo apt-get install gimagereader


-1

আপনার পিডিএফ ফাইলে, প্রতিটি পৃষ্ঠাকে ডান-ক্লিক করুন এবং চিত্র হিসাবে সংরক্ষণ করুন (বা এমন কোনও সরঞ্জাম আবিষ্কার করুন যা সমস্ত পৃষ্ঠা স্বয়ংক্রিয়ভাবে করে)

উবুন্টু সফটওয়্যার কেন্দ্র খুলুন। পরীক্ষার জন্য অনুসন্ধান করুন। এটি আপনার ইনস্টল করা উচিত যা YAGF পাবেন। ওয়াইএজিএফ-তে, ফাইল -> চিত্র খুলুন এবং আপনার চিত্রটি লোড করুন-এ ক্লিক করুন। তারপরে ফাইল -> স্বীকৃতিতে ক্লিক করুন।

আমার প্রথম পরীক্ষায় আমার 100% নির্ভুলতা ছিল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.