পাঠ্য সংরক্ষণের সময় আমি কীভাবে পিডিএফ ডকুমেন্ট স্ক্যানের ধূসর-স্কেল পৃষ্ঠার পটভূমি সরিয়ে ফেলতে পারি? (Binarization)


9

আমার পিডিএফটিতে পাঠ্যের চিত্র সহ 600 পৃষ্ঠাগুলি রয়েছে। এটির 2 স্তর রয়েছে

  • স্তর 1: পটভূমির রঙের চিত্র

  • স্তর 2: পাঠ্য চিত্র

আমি ইমেজটিতে প্রদর্শিত হিসাবে মোট পিডিএফ ফাইলের সমস্ত পটভূমি চিত্র স্তর সরাতে চাই।

এখানে চিত্র বর্ণনা লিখুন

আপনি কি আমাকে কোনও সফ্টওয়্যার / সরঞ্জাম প্রস্তাব করতে পারেন?

এখানে চিত্র বর্ণনা লিখুন


আপনি উবুন্টু মুক্তি কি ব্যবহার করছেন?
মিচ

উবুন্টু 13.10, 64-বিট।
রঘু জি

প্রশ্নের বিবরণ আপডেট হয়েছে।
রঘু জি

উত্তর:


9

সংক্ষিপ্ত বিবরণ

মত সরঞ্জাম কি আপনি খুঁজছেন হয় স্ক্যান দর্জি এবং unpaper যে করতে সক্ষম থ্রেশহোল্ডিং , Despeckling এবং নয়েজ অপসারণ । দুটি সরঞ্জামই পিডিএফ ফাইলগুলির চেয়ে চিত্রগুলির সাথে কাজ করে তবে আপনি সহজেই এই উত্তরটির শেষে বর্ণিত সরঞ্জামগুলি ব্যবহার করে এই অ্যাপ্লিকেশনগুলি যে বিভিন্ন ফর্ম্যাট এবং পিডিএফ ব্যবহার করেন তার মধ্যে সহজেই রূপান্তর করতে পারেন।

ScanTailor

আপনি এখানে একটি ভিডিও টিউটোরিয়াল খুঁজে পেতে পারেন । সরকারী উইকিতে আরও বিস্তৃত ডকুমেন্টেশন উপলব্ধ । আপনি সম্ভবত কালো এবং সাদা আউটপুট মোড এবং ফিল্টার সেটিংসে পৃষ্ঠায় সবচেয়ে আগ্রহী হবেন ।

Unpaper

আমি unpaperএখনও নিজের সাথে কাজ করি নি। আমি যা বুঝতে পারি তার থেকে স্ক্যান টেইলরের চেয়ে অনেক বেশি বৈশিষ্ট্য রয়েছে তবে এটি আয়ত্ত করাও অনেক কঠিন।

কোনও জিইউআই ইন্টারফেস নেই এবং আপনার কাজ শেষ করতে আপনাকে কমান্ড লাইন সুইচে নির্ভর করতে হবে। অন্যদিকে এর অর্থ হ'ল unpaperস্ক্রিপ্টগুলি ব্যবহার করে সহজেই রূপান্তরগুলি স্বয়ংক্রিয়ভাবে তৈরি করা যায়।

আপনি কালো এবং সাদা করার জন্য একটি স্ক্যানের রূপান্তর এবং ব্যাকগ্রাউন্ড মুছে ফেলার বিষয়ে কিছু স্ক্রিপ্টিং উদাহরণ জানতে পারেন এখানে


আনপার পেপার এবং স্ক্যান টেইলারের সাথে কাজ করার সময় কিছু সহায়ক সরঞ্জাম

স্ক্যান টেইলর এবং আনপ্যাপারে সম্পূর্ণ টিউটোরিয়াল লেখার মতো পর্যাপ্ত সময় আমার কাছে নেই তবে .pdfএই সরঞ্জামগুলি দ্বারা সমর্থিত চিত্র বিন্যাসগুলির মধ্যে রূপান্তর সম্পর্কিত কিছু পয়েন্টার এখানে দেওয়া হয়েছে :

  • আপনি pdfimagesপিডিএফ ডকুমেন্টগুলিকে একক পৃষ্ঠার .ppmফাইলগুলিতে রূপান্তর করতে ব্যবহার করতে পারেন , যা পড়তে পারে unpaper

    ব্যবহারের উদাহরণ:

    pdfimages *.pdf ./extracted-images
  • স্ক্যান টেইলর .ppmফাইলগুলিকে ইনপুট হিসাবে নেয় না । আপনাকে এটিকে .pngপ্রথমে লোকসান কমের মতো অন্য ফর্ম্যাটে রূপান্তর করতে হবে । সরঞ্জাম স্যুট mogrifyআউট আপনার জন্য এটি imagemagickকরতে পারে।

    ব্যবহারের উদাহরণ:

    mogrify -format png *.ppm
  • স্ক্যান টেইলর এবং আনপ্পারের আউটপুট ফর্ম্যাট হ'ল একক পৃষ্ঠার .tiffফাইল। জন্য তাদের কাছে ফিরে রূপান্তর করতে .pdfআমি ব্যবহার সুপারিশ করবে tiffcpএবং tiff2pdf

    ব্যবহারের উদাহরণ:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

স্থাপন

এই কমান্ডটি উপরে বর্ণিত সমস্ত সরঞ্জাম ইনস্টল করবে:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

।: এটি পড়ার জন্য কারও কাছে, দয়া করে স্ক্যান টেইলর এবং / অথবা আনপারপেপারের উপর ভিত্তি করে আরও বিস্তৃত উত্তর সংকলন করতে দ্বিধা বোধ করুন।


স্ক্যান্টাইলার পিডিএফ ফাইলগুলিতে কাজ করে। আপনাকে প্রথমে কিছু চিত্র বিন্যাসে এটি পরিবর্তন করতে হবে।
কি

@ টোডো হ্যাঁ, উত্তরে উল্লেখ করা হয়েছে :)।
গ্লুটানিমেট

আমি এখন বুঝতে পেরেছি। উত্তরটি সাজানো আরও ভাল যাতে প্রতিটি প্রোগ্রামের সমস্ত তথ্য একটি ব্লকে থাকে।
কি

@ টোডো যে কারণে আমি সরঞ্জামগুলিকে একটি স্পিয়ারেট বিভাগে রেখেছিলাম তার আসল কারণটি ছিল যে তারা অপ্রয়োজনীয় এবং স্ক্যানটাইলর উভয়ের সাথেই প্রাসঙ্গিক ছিল। আপনি ঠিক বলেছেন, যদিও এটি কিছুটা অসংগঠিত ছিল। আমি মনে করি এটি এখন আরও ভাল হওয়া উচিত
গ্লুটানমেট

3

আমি সবেমাত্র একটি খুব সহজ সমাধান পেয়েছি:

  • ইনস্টল gscan2pdf

  • খুলুন gscan2pdf, এবং পিডিএফ আমদানি করুন।

  • tools-> থ্রেশহোল্ড। 80% এর ডিফল্ট আমার পক্ষে ভাল কাজ করেছিল।

  • অন্য জায়গায় পিডিএফ সংরক্ষণ করুন।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.