পান্ডোক দিয়ে একটি .ডোক্সকে একটি .pdf এ রূপান্তর করুন


19

আমি মেল দ্বারা প্রাপ্ত একটি .ডোক্সকে প্যানডোক ব্যবহার করে একটি সঠিক পিডিএফ রূপান্তর করার চেষ্টা করছি (আমি জিএনইউ / লিনাক্স ব্যবহার করছি)।

অক্ষরগুলির এনকোডিং সম্পর্কে আমার একটি ত্রুটি রয়েছে:

$ pandoc file.docx -o file.pdf
pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream

আমি এনকোডিংটি সনাক্ত করার চেষ্টা করেছি:

$ file -i file .docx 
file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary

আমি কিছুটা অবাক হয়েছি charset=binary(আমি আশা করছিলাম charset=iso8859-15)। তবে আমি .docx কে যেভাবেই utf8 তে রূপান্তরিত করার চেষ্টা করেছি এবং এটি কার্যকর হচ্ছে না:

 $ iconv -t utf-8 file.docx
P!      $iconv: séquence d'échappement non permise à la position 16

প্যান্ডোক ডকুমেন্টেশন থেকে কমান্ড লাইনের সাথে আমারও একই ত্রুটি রয়েছে :

iconv -t utf-8 file.docx | pandoc | iconv -f utf-8

কীভাবে আমি এই .ডোক্সকে প্যানডোক দিয়ে পিডিএফ রূপান্তর করতে পারি?


কেন আপনি জামজার ব্যবহার করবেন না - এক বন্ধের জন্য ... আমাকে আমার কাজ সম্পাদনা করার জন্য কিংসফট ব্যবহার করতে হবে, যদিও উত্তর আমেরিকাতে সম্ভবত এটি অবৈধ ...
উইল্ফ

আমি পতাকা iconvব্যবহার করে উত্স অক্ষর সরবরাহ করার পরামর্শ দিই -f। উদাহরণস্বরূপ, iconv -f ISO-8859-15 -t utf-8 file.docxকাজ করতে পারে। একটি .docx ফাইলের ফর্ম্যাট কী তা অবশ্য ধারণা নেই।
ডার্বোবার্ট

@ উইলফ আমি চেষ্টা করেছি আউটপুট সঠিক নয় (সাধারণত, জামজার তার কাজটি খুব ভাল করে তবে এই ফাইলটির জন্য নয়)।
পিআরপি

1
@ উইলফ ধন্যবাদ (প্যান্ডোক এত শক্তিশালী কখনও কখনও আমি ভুলে যাই এর সীমাবদ্ধতা আছে)।
পিআরপি

2
@ডারবার্ট: iconvসরাসরি কোনও .docxফাইলে দৌড়ানো কাজ করার সম্ভাবনা কম। iconvধরে নেওয়া যায় যে এর ইনপুটটি নির্দিষ্ট বা অনুমিত বিন্যাসে একটি পাঠ্য ফাইল। একটি .docxফাইল আসলে একটি জিপ ফাইল (একটি সংক্ষেপিত সংরক্ষণাগারভুক্ত) (বেশিরভাগ) এক্সএমএল ফাইলযুক্ত। আপনি সম্ভবত ভাগ্যক্রমে .docxফাইল আনজিপিং করতে পারেন , iconvউপাদান ফাইলগুলিতে চালিত হন এবং তারপরে সমস্ত কিছু আবার নতুন করে জিপ করে .docx, তবে আমি এতে কাজ করে বাজি ধরব না। একটি জিনিসের জন্য, দস্তাবেজের আসল সামগ্রীযুক্ত xML ফাইলটি এর এনকোডিং নির্দিষ্ট করে: encoding="UTF-8"উদাহরণস্বরূপ।
কিথ থম্পসন

উত্তর:


16

এখানে ডকুমেন্টেশনে , .docxএকটি সামঞ্জস্যপূর্ণ ইনপুট হিসাবে তালিকাভুক্ত নয় :

পানডোক হ্যাক্কেল গ্রন্থাগার যা একটি মার্কআপ ফর্ম্যাট থেকে অন্যটিতে রূপান্তর করার জন্য এবং একটি কমান্ড-লাইন সরঞ্জাম যা এই লাইব্রেরিটি ব্যবহার করে। এটি টেক্সটাইল, পুনর্গঠনপ্রযুক্তি, এইচটিএমএল, ল্যাটেক্স, মিডিয়াউইকি মার্কআপ, হ্যাডক মার্কআপ, ওপিএমএল এবং ডকবুক পড়তে পারে; এবং এটি করতে পারেন লিখতে প্লেইন টেক্সট, markdown, reStructuredText, এক্সএইচটিএমএল, এইচটিএমএল 5, ক্ষীর (beamer স্লাইড শো), বিষয়বস্তু, RTF পরস্পরের, OPML, ডকবুক, ওপেন-ডকুমেন্ট, ODT ওয়ার্ড DOCX, গনুহ Texinfo, মিডিয়াউইকি মার্কআপ, EPUB (v2 অথবা v3 এর ), ফিকশনবুক 2, টেক্সটাইল, গ্রাফ ম্যান পৃষ্ঠাগুলি, ইমাসস অরগ-মোড, এসকিডোক এবং স্লিডি, স্লাইডাস, ডিজেডস্লাইডস, প্রকাশ.জেএস বা এস 5 এইচটিএমএল স্লাইড শো। এটি ল্যাটেক্স ইনস্টল থাকা সিস্টেমে পিডিএফ আউটপুট উত্পাদন করতে পারে।

লাইব্রোফাইসের মতো আরও কিছু চেষ্টা করুন - যা ডকেক্স করতে পারে, যেমন আপনাকে কয়েকটি ফর্ম্যাটিং ত্রুটি মনে হয় না।

সম্পাদনা করুন:

বিবরণে এখন বলা হয়েছে যে প্যান্ডোক এখন ওয়ার্ড ডিওএক্সএক্স (পাশাপাশি ডকবুক এবং কয়েকটি অন্যান্য ফর্ম্যাট) থেকে পড়া সমর্থন করছেন:

পানডোক হ্যাক্কেল গ্রন্থাগার যা একটি মার্কআপ ফর্ম্যাট থেকে অন্যটিতে রূপান্তর করার জন্য এবং একটি কমান্ড-লাইন সরঞ্জাম যা এই লাইব্রেরিটি ব্যবহার করে। এটি মার্কডাউন এবং (টেক্সটাইল, রিস্ট্রাকচার্ডটেক্সট, এইচটিএমএল, ল্যাটেক্স, মিডিয়াউইকি মার্কআপ, টিউইকি মার্কআপ, হ্যাডক মার্কআপ, ওপিএমএল, ইম্যাকস অর্গ-মোড, ডকবুক, txt2tags, EPUB এবং ওয়ার্ড ডকএক্স পড়তে পারে) ; এবং এটি লিখতে পারেপ্লেইন টেক্সট, মার্কডাউন, রিস্ট্রাকচারডটেক্সট, এক্সএইচটিএমএল, এইচটিএমএল 5, লটেক্স (বিমার স্লাইড শো সহ), কনটেক্সট, আরটিএফ, ওপিএমএল, ডকবুক, ওপেন ডকুমেন্ট, ওডিটি, ওয়ার্ড ডক্স, জিএনইউ টেক্সিনফো, মিডিয়াউইকি মার্কআপ, ডকুইউকি মার্কআপ, ইপি বা v3), ফিকশনবুক 2, টেক্সটাইল, গ্রাফ ম্যান পৃষ্ঠাগুলি, ইমাকস অর্গ-মোড, এসিইডোক, ইনডিজাইন আইসিএমএল এবং স্লাইডি, স্লাইডাস, ডিজেডস্লাইডস, প্রকাশ.জেএস বা এস 5 এইচটিএমএল স্লাইড শোগুলি। এটি ল্যাটেক্স ইনস্টল থাকা সিস্টেমে পিডিএফ আউটপুট উত্পাদন করতে পারে।


@ ইভিলসুপের পরামর্শ অনুসারে, এটি কার্যকর হতে পারে:

cd /DIRECTORY/WITH/FILE/IN && libreoffice --headless --convert-to html 'FILE.docx' && pandoc 'FILE.html' -o 'FILE.pdf'

হ্যাঁ, আপনি এর সাথে মুক্ত কমান্ডটি ব্যবহার করতে পারেন --outdirতবে এইচটিএমএল আউটপুট সর্বদা সেভাবে কাজ করে না ...

আমি এটিকে একটি দ্রুত পরীক্ষা দিয়েছি, এবং ডকুমেন্টে একটি জিআইএফ চিত্রের কারণে পান্ডোক ক্রাশ হওয়া ব্যতীত কাজ করার মতো মনে হয়েছে work স্মাইলি


উম .... ওয়ার্ড ডকেক্সটি আপনার উদ্ধৃত পাঠ্যে ঠিক আছে (ওপেন ডকুমেন্ট এবং ওডিটির ঠিক পরে)। এটি বলেছিল যে ডকএক্স এখনও একটি ভাল ডকুমেন্টেড ফর্ম্যাট নয় এবং তাই, উন্মুক্ত বিশ্বে আসল সামঞ্জস্যতা হ'ল .... স্পষ্টতাই, আমরা কি বলব, এবং আপনার লিবারে অফিসের জন্য (ফর্ম্যাটিং পার্থক্য সহ ) পরামর্শটি ভাল।
সুপারম্যাগিক

@ সুপারম্যাগিক - এটি এটি লিখতে পারে কিছুটা ... আরও সহজ করার জন্য এটি হাইটলাইটেড।
উইল্ফ

1
আপনি যদি সত্যিই একটি প্যান্ডোক-স্টাইল (আসলে ল্যাটেক্স-মেড) পিডিএফ চান, তবে ডকেক্সকে এইচটিএমএল রূপান্তর করতে আপনি লিব্রেওফিস ব্যবহার করতে পারেন এবং তারপরে প্যান্ডোকের জন্য ইনপুট হিসাবে ব্যবহার করতে পারেন (মূল নথিটি তৈরি করা ব্যক্তির যোগ্যতার উপর নির্ভর করে, <BR>এইচটিএমএল থেকে আপনার একগুচ্ছ সরিয়ে ফেলতে হবে )।
খারাপসুপ

1
ওএসএক্সে এক্সিকিউটেবলকে সফিফিস বলা হয় এবং এটি / অ্যাপ্লিকেশনস / লাইব্রেইফিস.অ্যাপ / কনটেন্টস / ম্যাকোস / বিনে পাওয়া যায়। আরও বিশদ এখানে পাওয়া যাবে: জিজ্ঞাসা.লিব্রেওফাইস.আর.ইন
টিম সায়োলার

2
প্যান্ডোক ডকুমেন্টেশনে এখন ওয়ার্ড ডক্সকে একটি সমর্থিত বিন্যাস হিসাবে তালিকাভুক্ত করে।
cledoux

12

এটি এখনও গুগল অনুসন্ধানে উঠে আসে তাই আমি এটিকে রেকর্ডে রাখতে চেয়েছিলাম: এই প্রশ্নটি জিজ্ঞাসা করা হলে প্যান্ডোক ডক্সটি পড়তে পারেনি (বাইনারি ফাইলটি পড়ার চেষ্টা করে ত্রুটিটি এসেছে) তবে সংস্করণ ১.১13 থেকে এটি পারে এবং এটি একটি করে এটি বেশ ভাল কাজ।


2
প্যান্ডোক মূল নকশা বিন্যাসটি সংরক্ষণ করে না। এই পোস্টটি দেখুন: github.com/jgm/pandoc/issues/2206#issuecomment-107994587
ওরচিরো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.