অন্যান্য উত্তরে উল্লিখিত জিইউআই-ভিত্তিক সরঞ্জামগুলি ছাড়াও, কয়েকটি কমান্ড লাইন সরঞ্জাম রয়েছে যা মূল পিডিএফ উত্স কোডকে আলাদা উপস্থাপনে রূপান্তর করতে পারে যা আপনাকে একটি পাঠ্য সম্পাদক দ্বারা (এখন পরিবর্তিত ফাইল) পরিদর্শন করতে দেয়। নীচের সমস্ত সরঞ্জাম লিনাক্স, ম্যাক ওএস এক্স, অন্যান্য ইউনিক্স সিস্টেম বা উইন্ডোজে কাজ করে।
qpdf
(আমার পছন্দ)
(সর্বাধিক) অবজেক্টের স্ট্রিমগুলি সঙ্কুচিত করতে ObjStm
এবং পৃথক অপ্রত্যক্ষ বস্তুগুলিতে অবজেক্টগুলিকে বিচ্ছিন্ন করতে qpdf ব্যবহার করুন :
qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf
qpdf
নিজেকে এমন একটি সরঞ্জাম হিসাবে বর্ণনা করে যা "পিডিএফ ফাইলগুলিতে কাঠামোগত, সামগ্রী সংরক্ষণের রূপান্তর" করে ।
তারপরে uncompressed-qpdf.pdf
আপনার পছন্দের পাঠ্য সম্পাদকটিতে ফাইলটি খালি + পরীক্ষা করুন । পূর্বে সংক্ষেপিত (এবং তাই বাইনারি) বাইটগুলির বেশিরভাগটি এখন সরল পাঠ্য হবে।
mutool
রয়েছে mutool
কমান্ড লাইন টুল যা দিয়ে bundled আসে MuPDF PDF ভিউয়ার (যা প্রস্তুতকারী Ghostscript করার জন্য একটি বোন পণ্য, একই কোম্পানী, দ্বারা তৈরি শিল্পী )। নিম্নলিখিত কমান্ডটি স্ট্রিমগুলি সঙ্কুচিত করে এবং পাঠ্য সম্পাদকের মাধ্যমে তদারকি করা আরও সহজ করে তোলে:
mutool clean -d orig.pdf uncompressed-mutool.pdf
podofouncompress
পিডিএফও পিডিএফ ফর্ম্যাটের সাথে কাজ করার জন্য একটি ফ্রিসফটওয়্যার / ওপেনসোর্স গ্রন্থাগার এবং এতে কয়েকটি কমান্ড লাইন সরঞ্জাম অন্তর্ভুক্ত রয়েছেpodofouncompress
। পিডিএফ স্ট্রিমগুলি সঙ্কুচিত করতে এটি ব্যবহার করুন:
podofouncompress orig.pdf uncompressed-podofo.pdf
peepdf.py
পিপিডিএফ একটি পাইথন-ভিত্তিক সরঞ্জাম যা আপনাকে পিডিএফ ফাইলগুলি অন্বেষণ করতে সহায়তা করে। এর মূল উদ্দেশ্যটি পিডিএফ-ভিত্তিক ম্যালওয়্যার গবেষণা এবং বিচ্ছিন্নকরণের জন্য ছিল, তবে আমি সম্পূর্ণ সৌম্য পিডিএফ ফাইলগুলির কাঠামোটি তদন্ত করাও দরকারী বলে মনে করি।
এটি একটি পিডিএফ অন্তর্ভুক্ত থাকা বস্তু এবং স্ট্রিমগুলিকে "ব্রাউজ" করতে ইন্টারেক্টিভভাবে ব্যবহার করা যেতে পারে।
আমি এখানে ব্যবহারের উদাহরণ দেব না, তবে কেবলমাত্র এটির ডকুমেন্টেশনের লিঙ্ক:
pdfid.py
এবং pdf-parser.py
pdfid.py
এবং পাইথনে লেখা ডিডিয়ার স্টিভেন্সেরpdf-parser.py
দুটি পিডিএফ সরঞ্জাম are
তাদের পটভূমিটি দূষিত পিডিএফগুলি অন্বেষণে সহায়তা করতে পারে - তবে আমি সৌম্য পিডিএফ ফাইলগুলির কাঠামো এবং বিষয়বস্তু বিশ্লেষণ করতেও এটি দরকারী বলে মনে করি।
এখানে আমি পিডিএফ নং নং সঙ্কুচিত স্ট্রিমটি কীভাবে নিষ্কাশন করব তার একটি উদাহরণ এখানে দেওয়া হয়েছে। 5 * * ডাম্প ফাইলের মধ্যে:
pdf-parser.py -o 5 -f -d obj5.dump my.pdf
চূড়ান্ত নোট
দয়া করে নোট করুন যে কোনও পিডিএফের অভ্যন্তরে কিছু বাইনারি অংশগুলি অগত্যা সংকোচনের নয় (বা মানব পাঠযোগ্য ASCII কোডে ডিকোড-সক্ষম) নয়, কারণ এগুলি এম্বেড করা হয়েছে এবং পিডিএফগুলির অভ্যন্তরে তাদের মূল ফর্ম্যাটে ব্যবহৃত হয়েছে। এই জাতীয় পিডিএফ অংশগুলি হ'ল জেপিইজি চিত্র, ফন্ট বা আইসিসি রঙের প্রোফাইল।
আপনি যদি উপরের সরঞ্জামগুলি এবং প্রদত্ত কমান্ড লাইনের উদাহরণগুলির সাথে তুলনা করেন তবে আপনি আবিষ্কার করবেন যে তারা সবাই অভিন্ন আউটপুট উত্পাদন করে না । তাদের মধ্যে পার্থক্যগুলির জন্য তাদের তুলনা করার প্রচেষ্টা আপনাকে পিডিএফ সিনট্যাক্স এবং ফাইল ফর্ম্যাটের প্রকৃতি আরও ভালভাবে বুঝতে সাহায্য করতে পারে।