আমি মেল দ্বারা প্রাপ্ত একটি .ডোক্সকে প্যানডোক ব্যবহার করে একটি সঠিক পিডিএফ রূপান্তর করার চেষ্টা করছি (আমি জিএনইউ / লিনাক্স ব্যবহার করছি)।
অক্ষরগুলির এনকোডিং সম্পর্কে আমার একটি ত্রুটি রয়েছে:
$ pandoc file.docx -o file.pdf
pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream
আমি এনকোডিংটি সনাক্ত করার চেষ্টা করেছি:
$ file -i file .docx
file.docx: application/vnd.openxmlformats-officedocument.wordprocessingml.document; charset=binary
আমি কিছুটা অবাক হয়েছি charset=binary
(আমি আশা করছিলাম charset=iso8859-15
)। তবে আমি .docx কে যেভাবেই utf8 তে রূপান্তরিত করার চেষ্টা করেছি এবং এটি কার্যকর হচ্ছে না:
$ iconv -t utf-8 file.docx
P! $iconv: séquence d'échappement non permise à la position 16
প্যান্ডোক ডকুমেন্টেশন থেকে কমান্ড লাইনের সাথে আমারও একই ত্রুটি রয়েছে :
iconv -t utf-8 file.docx | pandoc | iconv -f utf-8
কীভাবে আমি এই .ডোক্সকে প্যানডোক দিয়ে পিডিএফ রূপান্তর করতে পারি?
iconv
ব্যবহার করে উত্স অক্ষর সরবরাহ করার পরামর্শ দিই -f
। উদাহরণস্বরূপ, iconv -f ISO-8859-15 -t utf-8 file.docx
কাজ করতে পারে। একটি .docx ফাইলের ফর্ম্যাট কী তা অবশ্য ধারণা নেই।
iconv
সরাসরি কোনও .docx
ফাইলে দৌড়ানো কাজ করার সম্ভাবনা কম। iconv
ধরে নেওয়া যায় যে এর ইনপুটটি নির্দিষ্ট বা অনুমিত বিন্যাসে একটি পাঠ্য ফাইল। একটি .docx
ফাইল আসলে একটি জিপ ফাইল (একটি সংক্ষেপিত সংরক্ষণাগারভুক্ত) (বেশিরভাগ) এক্সএমএল ফাইলযুক্ত। আপনি সম্ভবত ভাগ্যক্রমে .docx
ফাইল আনজিপিং করতে পারেন , iconv
উপাদান ফাইলগুলিতে চালিত হন এবং তারপরে সমস্ত কিছু আবার নতুন করে জিপ করে .docx
, তবে আমি এতে কাজ করে বাজি ধরব না। একটি জিনিসের জন্য, দস্তাবেজের আসল সামগ্রীযুক্ত xML ফাইলটি এর এনকোডিং নির্দিষ্ট করে: encoding="UTF-8"
উদাহরণস্বরূপ।