ডিজেভিউকে পিডিএফে রূপান্তর করা হচ্ছে


39

আমি একটি PDF নথিটির মধ্যে একটি DjVu দস্তাবেজ রূপান্তর করতে চান, পৃথক এবং সংরক্ষণের টেক্সট লেয়ার এবং ইমেজ পাশাপাশি গঠন পালন DjVu থেকে। আমি কীভাবে উবুন্টুতে এটি করতে পারি?

(আমি তখন ক্যালিবারটি ইপুব / মোবিতে রূপান্তর করতে ব্যবহার করব , সুতরাং যদি পুরো প্রক্রিয়াটির জন্য কোনও ক্যালিবার প্লাগইন থাকে যা আমার জন্য উপযুক্ত!)

Note1: সন্দেহাতীতভাবে প্রমাণ করা থেকে মুদ্রণ, প্যাকেজ ব্যবহার DJview, বা কিছু থেকে রপ্তানি ddjvu হয় না পর্যাপ্ত সমাধান হিসাবে তারা টেক্সট লেয়ার বাতিল হবে, শুধুমাত্র ইমেজ সংরক্ষণ।

দ্রষ্টব্য 2 : ডিজেভিউলিবার ব্যবহার করে কেবল পাঠ্য স্তরটি বের করা হবে এবং ছবিগুলি তোলা হয়নি । একইভাবে, "ম্যানুয়ালি" পাঠ্যটি অনুলিপি করা উভয় নথির কাঠামো এবং ছবিগুলি হারাবে।

উত্তর:


37

পদ্ধতি 1

কেবল ডিজেভিউ ব্যবহার করুন এবং পিডিএফ হিসাবে রফতানি করুন

  1. গোটো সিন্যাপটিক প্যাকেজ ম্যানেজার
  2. ডিজেভিউ 4 ইনস্টল করুন
  3. ডিজেভিউ চালান (অ্যাপ্লিকেশন - গ্রাফিকস - ডিজেভিউ 4)
  4. আপনার .djvu ডকুমেন্টটি খুলুন
  5. : মেনু - হিসাবে রফতানি করুন: পিডিএফ

পদ্ধতি 2

উজ্জ্বলভাবে djvu ফাইল খুলুন
মুদ্রণ নির্বাচন করুন ----> ফাইলটি
পরিবর্তন করতে .pdf এ মুদ্রণ করুন এবং মুদ্রণ ক্লিক করুন

পদ্ধতি 3

  1. গোটো সিন্যাপটিক প্যাকেজ ম্যানেজার
  2. ইনস্টল করুন

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. যান টার্মিনাল এবং লিখুন

     sudo apt-get install libtiff-tools
    
  4. ডিরেক্টরিতে যেখানে ডিজেভু ফাইল উপস্থিত রয়েছে সেখানে যান। মাউসের ডান বোতামটি ক্লিক করুন। "ওপেন ইন টার্মিনাল" বিকল্পটি যান। এটিতে ক্লিক করুন। একটি টার্মিনাল খোলা হবে।

  5. টার্মিনাল লিখুন

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

পদ্ধতি 4

পিডিএফ রূপান্তরকারী ডিজেভিউতে একটি অনলাইন রূপান্তরকারীও রয়েছে


@ আশু আপনি কি নিশ্চিত যে এটি ছবিগুলি পুনরুদ্ধার করবে?
হাইড

হ্যাঁ পদ্ধতি 1 এবং 2 আমার পক্ষে কাজ করেছিল। 3 এবং .4 এর জন্য চেষ্টা করেননি
আশু

@ আশু এটি কি ছবি তোলা বা পুরো পৃষ্ঠাটি অনুলিপি করছে? (এর অর্থ কী?)
হায়ড

আপনি কোন পদ্ধতি ব্যবহার করে দেখেছেন? এটি ব্যবহার করে দেখুন এবং এটি কার্যকর হয় কিনা দেখুন
আশু

2
এটি (চিত্র বা পাঠ্য পুনরুদ্ধার) করে না।
হায়ড

17

এখানে একটি উপায় রয়েছে, যার জন্য সাধারণ কিছু সাধারণ সরঞ্জামগুলির প্রয়োজন হবে:

  1. ocrodjvu
  2. পিডিএফবিডস , এর নিজস্ব প্রয়োজনীয়তা রয়েছে যা গুগল সন্ধান করতে পারে

আমরা djvu2hocrকমান্ড ( ocrodjvuপ্যাকেজ থেকে ) ডিজেভিউ ফাইল থেকে লুকানো পাঠ্য স্তরটি বের করতে পারি (এটি কোনও ওসিআর বা অনুরূপ করে না, এটি জ্যামিতির সাহায্যে পাঠ্য স্তরটি বের করে), অর্থাত:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed হস্তক্ষেপ আউটপুট hOCR এ শ্রেণীর নামগুলি সংশোধন করে (যা কেবলমাত্র সহজ HTML ফাইল)

এখন আমরা এর সাথে টিআইএফএফ ফর্ম্যাটে ডিজেভিউ পৃষ্ঠাটি বের করব:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

যাতে আমরা এই ফাইলটির কাজ শেষ করে ফোল্ডারে শেষ করব:

sample.djvu
pg10.html
pg10.tif

এখানেই pdfbeadsখেলতে আসে, এবং আমরা সাধারণভাবে সম্পাদন করি:

pdfbeads -o pg10.pdf

তারপরে এই নিফটি প্রোগ্রামটি এই ফোল্ডারের ভিতরে থাকা সমস্ত কিছুর যত্ন নেবে (একই বেস নাম সহ এইচটিএমএল এবং টিআইএফএফ ফাইল) এবং কিছু উপ-পণ্য সহ আউটপুট পিডিএফ ফাইল তৈরি করে:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

যা ইনজুট ডিজেভিউ ফাইলের মতো এবং এর ভিতরে পাঠ্য স্তর রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

মন্তব্য সংক্ষিপ্তসার:

নীচে দীর্ঘতর মন্তব্যগুলি ডিজেভিউ ডকুমেন্ট পৃষ্ঠা থেকে পৃথক অবজেক্ট হিসাবে ছোট চিত্রগুলির প্রতিনিধিত্ব করার বিষয়ে আলোচনা করে যা সহজেই সম্ভব হয় না কারণ ডিজেভিউ ডকুমেন্ট পৃষ্ঠাটি পৃথক বস্তু হিসাবে ছোট চিত্র সম্পর্কে কোনও "তথ্য" না দিয়ে itselfচ্ছিক পাঠ্য স্তর সহ কেবল একটি একক চিত্র। ডিজেভিউ নথিতে যদি রঙের চিত্র থাকে তবে সেগুলি সাধারণত পটভূমির স্তরতে স্থাপন করা হবে; এক্ষেত্রে ব্যবহারকারী পুরো ক্যানভাসের পরিবর্তে কেবল চিত্রগুলি আউটপুট করতে ( ddjvuকেবলমাত্র পটভূমির স্তরটি বের করুন) এবং imagemagick(অটো-ক্রপ) সরঞ্জামগুলির সুবিধা নিতে পারে , তবে এটি পিডিএফ আউটপুট তৈরি করার জন্য স্বয়ংক্রিয় করা যায় না

অন্য স্যানার, তবে ধীর পন্থা হ'ল নিয়মিত ওসিআর জিইউআই সরঞ্জাম ব্যবহার। gscan2pdf(> 1.0) লিনাক্স পিসির সম্ভাব্য প্রার্থী হিসাবে প্রস্তাবিত


আমি কি এই ভেবে সঠিক হয়েছি যে এটি পৃথক চিত্রের ডেটা বের করে না, কেবল পুরো পৃষ্ঠার চিত্রটি?
হাইড

আপনি যখন ডিজেভিউ ফাইলের কাঠামো উল্লেখ করেন তখন "স্বতন্ত্র চিত্রের ডেটা" বলতে কী বোঝায়?
জেটাহ


ডিজেভি ফাইল কাঠামোতে এরকম কোনও সংজ্ঞা নেই। মূল ডিজেভিউ ডকুমেন্টে চিত্রের উপরে চিত্রগুলি পূর্বের স্তর / মুখোশের সাথে অক্ষরের চিত্রের সাথে একসাথে "স্থাপন" করা হয়েছে এবং সেখানে পৃথক পাঠ্য স্তর রয়েছে যা বর্ণিত হিসাবে বের করা হয়েছিল। যদি ডিজেভিউ নথির রঙিন চিত্র থাকে তবে সেগুলি পুরো পৃষ্ঠ জুড়ে ব্যাকগ্রাউন্ড স্তরতে স্থাপন করা হবে (সাধারণ যৌগিক ডিজেভিউ ফাইলটিতে)। যদিও এটি বোধগম্য যে আপনি প্রত্যাশা করতে পারেন যে ডিজেভিউ ডকুমেন্ট পৃষ্ঠায় থাকা চিত্রগুলি পৃথক পৃথক বস্তু যা তারা নয় - Dচ্ছিক পাঠ্য স্তর সহ ডিজেভিউ ডকুমেন্ট পৃষ্ঠাটি একক চিত্র হিসাবে দেখুন, এটি মূলত এটি।
জেটাহ

1
@ জেতাঃ মন্তব্যগুলিতে আপনি যে অতিরিক্ত তথ্য দিয়েছেন তা সত্যই উত্তরে যুক্ত করা উচিত কারণ এটি কাঠামোতে চিত্র বসানোর বিষয়ে মূল্যবান তথ্য সরবরাহ করে এবং উত্তোলনের সময় আপনি কী আশা করবেন।
ফসফ্রিডম

4

নেই djvu2pdf কিন্তু এটি Ghostscript উপর নির্ভর তাই এটি অন্য প্রিন্টিং বিকল্প হতে পারে। আমি এখনও আপনাকে এটি চেহারা দেওয়ার পরামর্শ দিচ্ছি, যদি আমি এটি ক্রেডিট দিচ্ছি তার চেয়ে বেশি চালাক case

এটি रिपোজে নেই তবে আপনি নির্মাতাদের সাইট থেকে একটি ডেব ডাউনলোড করতে পারেন: http : //0x2a.at/s/projects/djvu2pdf

** এখানে রেপোর বাইরে থেকে জিনিসগুলি ডাউনলোড / ইনস্টল করার বিষয়ে বাধ্যতামূলক নোটিশ প্রবেশ করুন **


1
আমার ভয় djvu2pdf ব্যবহারসমূহ আছি ddjvu পিডিএফ, যা চিত্র রপ্তানি রপ্তানি করতে থাকলে পাঠ্য।
হাইড

4

DJVULibre ব্যবহার করে , terminalকমান্ডের মাধ্যমে পাঠ্য স্তরটি বের করা যায় :

djvutxt myfile.djvu > myfile-ocr.txt অথবা djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(উভয়ই একই কাজ করে এবং এখানে পাওয়া গেছে )

ফর্ম্যাটিংয়ের জন্য কিছু প্রচেষ্টা প্রয়োজন (কারণ অনেকগুলি চিহ্ন সঠিকভাবে রূপান্তরিত হয় না) এবং ছবিগুলি পুনরুদ্ধার করা যায় না


এটি ছবি-কম বইগুলিকে ডিজেভিইউ ফর্ম্যাটে রূপান্তর করার জন্য ভাল তবে ছবিযুক্ত নথির জন্য নয়। এই মুহুর্তে এটি আমার কাছে বর্তমান সমাধান এবং পাঠ্যটি বের করার একমাত্র। বিন্যাস এবং ছবি সংরক্ষণের একটি উপায় অনেক বেশি পছন্দ করা হবে!
হাইড

0

http://www.djvu-pdf.com/ - এই ওয়েবসাইটটি ব্যবহার করে আপনি ডিজেভুকে পিডিএফ তে রূপান্তর করতে পারেন।


আমি ইতিমধ্যে সেই ওয়েবসাইটটি পোস্ট করেছি ভাই
আশু

এটি একটি জাল সাইট বলে মনে হচ্ছে। রূপান্তর করার পরে আমি এই বার্তাটি পেয়েছি: আমি দুঃখিত, আপনি এই ফাইলটি ডাউনলোড নাও করতে পারেন।
কোরভি

0

সবচেয়ে সহজ উপায়: ডিজেভিউ আমদানি করতে gscan2pdf ব্যবহার করুন, তারপরে এটি পরীক্ষামূলকভাবে ওসিআর করুন এবং শেষ পর্যন্ত এটি পিডিএফ হিসাবে সংরক্ষণ করুন। পিডিএফ-তে ওসিআর লেখাটি মূল ডিজেভু থেকে কিছুটা আলাদা হতে পারে এবং রূপান্তরটি কিছুটা সময় নিতে পারে তবে এই পদ্ধতিটি কোনও মস্তিষ্কের নয় এবং এটি কার্যকর।


1
হাই, এটিকে আরও কার্যকর অ্যাওয়ার করার জন্য আপনি কোথায় gscan2pdf এবং পরীক্ষার গ্রহণ এবং ব্যবহার করতে পারেন সে সম্পর্কে আরও কিছু বিশদ দিতে পারেন।
এনজিআরডস

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.