পিডিএফ ফাইলগুলি পরীক্ষা করার জন্য সেরা সরঞ্জাম? [বন্ধ]


94

আমি কীভাবে কোনও সরঞ্জামের চেয়ে পছন্দযোগ্য পিডিএফ ফাইলগুলি পরিদর্শন করতে পারি?

কেস ব্যবহার করুন: আমি প্রোগ্রামটিমে পিডিএফ ফাইলগুলি তৈরি করার চেষ্টা করছি (আইটেক্সট ব্যবহার করে)। নির্দিষ্ট লেআউটগুলি অর্জন করতে আমার সমস্যা হচ্ছে, তবে আমার পছন্দ মতো পাঠ্যযুক্ত পিডিএফ ফাইল রয়েছে (শব্দ থেকে উত্পন্ন)। আমি কীভাবে প্রকৃত প্রকৌশলীকে এটি করতে পারি তা চাই।

পিডিএফ ইন্সপেক্টর ভাল বলে মনে হচ্ছে, তবে আমি উইন্ডোজের জন্য কিছু খুঁজছি।


পিডিএফ ইন্সপেক্টর জাভা ভিত্তিক, তাই বহু প্ল্যাটফর্ম।
ডেভিড.প্রেজ

4
যদিও উইন্ডোজ চলমান বলে মনে হচ্ছে না। ক্লিক করার সময় জারটি কিছুই করে না। কমান্ড লাইনে ফোন করা হলে আমি পাইno main manifest attribute, in PDF Document Inspector.jar
টম

4
@ ডেভিড.পিরেজ এটি জাভা ভিত্তিক তবে আপেল মোড়ানো তাই এটি কেবল অ্যাপল বিতরণ করে। "পিডিএফ ডকুমেন্ট ইন্সপেক্টর.এপ / কনটেন্টস / রিসোর্স / জাভা / পিডিএফ ডকুমেন্ট ইন্সপেক্টর.জার" জার রয়েছে তবে এটি জাভা-জজার হিসাবে শুরু হতে পারে না "পিডিএফ ডকুমেন্ট ইন্সপেক্টর.জার" পাশাপাশি কম.এপলকো কোকোও রয়েছে। * যে প্ল্যাটফর্ম নির্দিষ্ট। :(
andrej

আমি এখন সফলভাবে আইটেক্সট রুপস, মাল্টিপ্লাটফর্ম এবং জাভা ভিত্তিক ব্যবহার করছি।
ডেভিড.প্রেজ

উত্তর:


18

অ্যাডোব অ্যাক্রোব্যাট একটি খুব দুর্দান্ত তবে ভাল লুকানো মোড রয়েছে যা আপনাকে পিডিএফ ফাইলগুলি পরীক্ষা করতে দেয় allowing আমি https://blog.idrsolutions.com/2009/04/viewing-pdf-objects/ এ ব্যাখ্যা করে একটি ব্লগ নিবন্ধ লিখেছিলাম


এর জন্য একটি প্লাগইন প্রয়োজন বলে মনে হচ্ছে; কমপক্ষে এটি লিনাক্সে অ্যাক্রোব্যাট রিডার 9.5.5 এ পাওয়া যায় না।
অ্যাডাম স্পায়ার্স

4
@ অ্যাডামস্পিয়ার্স, প্রিফ্লাইট ডায়ালগ বক্সটি অ্যাডোব অ্যাক্রোব্যাটের একটি বৈশিষ্ট্য, অ্যাডোব রিডার নয়
আইপিএসএস

... এবং অ্যাক্রোব্যাট ( পূর্বে অ্যাক্রোব্যাট এক্সচেঞ্জ ) লিনাক্সের জন্য উপলভ্য নয়: - /
অ্যাডাম স্পাইয়ার্স

7
প্রিফলাইট ডায়ালগ বাক্সে আসলে অ্যাডোব অ্যাক্রোব্যাট প্রো প্রয়োজন। এটি অ্যাডোব অ্যাক্রোব্যাট স্ট্যান্ডার্ডে উপলভ্য নয়।
ফুটবল

4
এবং এটি ব্যবহার করার জন্য এটি ইউআইয়ের দুঃস্বপ্ন।
জন

87

অন্যান্য উত্তরে উল্লিখিত জিইউআই-ভিত্তিক সরঞ্জামগুলি ছাড়াও, কয়েকটি কমান্ড লাইন সরঞ্জাম রয়েছে যা মূল পিডিএফ উত্স কোডকে আলাদা উপস্থাপনে রূপান্তর করতে পারে যা আপনাকে একটি পাঠ্য সম্পাদক দ্বারা (এখন পরিবর্তিত ফাইল) পরিদর্শন করতে দেয়। নীচের সমস্ত সরঞ্জাম লিনাক্স, ম্যাক ওএস এক্স, অন্যান্য ইউনিক্স সিস্টেম বা উইন্ডোজে কাজ করে।

qpdf (আমার পছন্দ)

(সর্বাধিক) অবজেক্টের স্ট্রিমগুলি সঙ্কুচিত করতে ObjStmএবং পৃথক অপ্রত্যক্ষ বস্তুগুলিতে অবজেক্টগুলিকে বিচ্ছিন্ন করতে qpdf ব্যবহার করুন :

qpdf --qdf --object-streams=disable orig.pdf uncompressed-qpdf.pdf

qpdfনিজেকে এমন একটি সরঞ্জাম হিসাবে বর্ণনা করে যা "পিডিএফ ফাইলগুলিতে কাঠামোগত, সামগ্রী সংরক্ষণের রূপান্তর" করে

তারপরে uncompressed-qpdf.pdfআপনার পছন্দের পাঠ্য সম্পাদকটিতে ফাইলটি খালি + পরীক্ষা করুন । পূর্বে সংক্ষেপিত (এবং তাই বাইনারি) বাইটগুলির বেশিরভাগটি এখন সরল পাঠ্য হবে।

mutool

রয়েছে mutoolকমান্ড লাইন টুল যা দিয়ে bundled আসে MuPDF PDF ভিউয়ার (যা প্রস্তুতকারী Ghostscript করার জন্য একটি বোন পণ্য, একই কোম্পানী, দ্বারা তৈরি শিল্পী )। নিম্নলিখিত কমান্ডটি স্ট্রিমগুলি সঙ্কুচিত করে এবং পাঠ্য সম্পাদকের মাধ্যমে তদারকি করা আরও সহজ করে তোলে:

mutool clean -d orig.pdf uncompressed-mutool.pdf

podofouncompress

পিডিএফও পিডিএফ ফর্ম্যাটের সাথে কাজ করার জন্য একটি ফ্রিসফটওয়্যার / ওপেনসোর্স গ্রন্থাগার এবং এতে কয়েকটি কমান্ড লাইন সরঞ্জাম অন্তর্ভুক্ত রয়েছেpodofouncompress। পিডিএফ স্ট্রিমগুলি সঙ্কুচিত করতে এটি ব্যবহার করুন:

podofouncompress orig.pdf uncompressed-podofo.pdf

peepdf.py

পিপিডিএফ একটি পাইথন-ভিত্তিক সরঞ্জাম যা আপনাকে পিডিএফ ফাইলগুলি অন্বেষণ করতে সহায়তা করে। এর মূল উদ্দেশ্যটি পিডিএফ-ভিত্তিক ম্যালওয়্যার গবেষণা এবং বিচ্ছিন্নকরণের জন্য ছিল, তবে আমি সম্পূর্ণ সৌম্য পিডিএফ ফাইলগুলির কাঠামোটি তদন্ত করাও দরকারী বলে মনে করি।

এটি একটি পিডিএফ অন্তর্ভুক্ত থাকা বস্তু এবং স্ট্রিমগুলিকে "ব্রাউজ" করতে ইন্টারেক্টিভভাবে ব্যবহার করা যেতে পারে।

আমি এখানে ব্যবহারের উদাহরণ দেব না, তবে কেবলমাত্র এটির ডকুমেন্টেশনের লিঙ্ক:

pdfid.py এবং pdf-parser.py

pdfid.pyএবং পাইথনে লেখা ডিডিয়ার স্টিভেন্সেরpdf-parser.py দুটি পিডিএফ সরঞ্জাম are

তাদের পটভূমিটি দূষিত পিডিএফগুলি অন্বেষণে সহায়তা করতে পারে - তবে আমি সৌম্য পিডিএফ ফাইলগুলির কাঠামো এবং বিষয়বস্তু বিশ্লেষণ করতেও এটি দরকারী বলে মনে করি।

এখানে আমি পিডিএফ নং নং সঙ্কুচিত স্ট্রিমটি কীভাবে নিষ্কাশন করব তার একটি উদাহরণ এখানে দেওয়া হয়েছে। 5 * * ডাম্প ফাইলের মধ্যে:

pdf-parser.py -o 5 -f -d obj5.dump my.pdf

চূড়ান্ত নোট

  1. দয়া করে নোট করুন যে কোনও পিডিএফের অভ্যন্তরে কিছু বাইনারি অংশগুলি অগত্যা সংকোচনের নয় (বা মানব পাঠযোগ্য ASCII কোডে ডিকোড-সক্ষম) নয়, কারণ এগুলি এম্বেড করা হয়েছে এবং পিডিএফগুলির অভ্যন্তরে তাদের মূল ফর্ম্যাটে ব্যবহৃত হয়েছে। এই জাতীয় পিডিএফ অংশগুলি হ'ল জেপিইজি চিত্র, ফন্ট বা আইসিসি রঙের প্রোফাইল।

  2. আপনি যদি উপরের সরঞ্জামগুলি এবং প্রদত্ত কমান্ড লাইনের উদাহরণগুলির সাথে তুলনা করেন তবে আপনি আবিষ্কার করবেন যে তারা সবাই অভিন্ন আউটপুট উত্পাদন করে না । তাদের মধ্যে পার্থক্যগুলির জন্য তাদের তুলনা করার প্রচেষ্টা আপনাকে পিডিএফ সিনট্যাক্স এবং ফাইল ফর্ম্যাটের প্রকৃতি আরও ভালভাবে বুঝতে সাহায্য করতে পারে।


42

আমি লিনাক্সে আইটেক্সট আরইউপিএস (পিডিএফ সিনট্যাক্স পড়া এবং আপডেট) ব্যবহার করি । যেহেতু এটি জাভাতে লেখা হয়েছে, এটি উইন্ডোতেও কাজ করে। আপনি গাছের কাঠামোয় পিডিএফ ফাইলের সমস্ত বস্তু ব্রাউজ করতে পারেন। এটি পরিদর্শন করা আরও সহজ করার জন্য ফ্লাইট এনকোডেড স্ট্রিমটিকে ফ্লাই-অন ফ্লাই ডিকোড করতে পারে।

এখানে একটি স্ক্রিন শট হয়:

আইটেক্সট আর ইউ পি এস স্ক্রিনশট


9
java -jar itext-rups-5.5.6.jar-> Exception in thread "AWT-EventQueue-0" java.lang.NoClassDefFoundError: com/itextpdf/text/Version- আপনার এই জিনিসটি চালানোর কথা কীভাবে? সম্পাদনা করুন: এটি নির্ধারণ করা। সোর্সফর্জের প্রস্তাবিত ডিফল্ট ফাইলটি আপনার ডাউনলোড করা উচিত নয়, আপনাকে .jar ডাউনলোড করতে হবে যার মধ্যে নির্ভরতা রয়েছে।
জিরো 3

4
@ জিরো 3 ঠিক একই জিনিসটি পেল। আপনার মন্তব্যের জন্য ধন্যবাদ.
স্যাম

4
পছন্দ করুন দুর্ভাগ্যক্রমে, প্রচুর সফ্টওয়্যার (এর মতো!) কেবল সোর্সফোর্সের মাধ্যমে উপলব্ধ কারণ রক্ষণাবেক্ষণকারী এখনও প্রকল্পটি অন্য কোথাও সরিয়ে নিয়েছেন না এবং এটি কখনও নাও করতে পারে। আজকাল সোর্সফোর্স থেকে কিছু ডাউনলোড করার সময় আপনার অবশ্যই খুব সতর্ক হওয়া উচিত ...
জিরো 3

7
হ্যাঁ - উইন্ডোজ ব্যবহারকারীদের জন্য একটি সংকলিত জার এবং এমনকি একটি উদাহরণ হিসাবে। Github.com/itext/rups/relayss/latest
ভ্যান গ্যাস

4
এই উত্তরের স্ক্রিনশটটি অ্যামিডিভ্যানগ্যাস পৃষ্ঠাটির একটি দর্শন (ডকুমেন্ট ট্রি এবং এক্সরেফ ট্যাবের মধ্যে) দেখায়। আমি কীভাবে উইন্ডোজটিতে v5.5.9 এ দৃশ্যটি প্রদর্শন করতে পারি?
আইপিডিএফদেব

6

ও 2 সলিউশন থেকে পিডিএফএক্সপ্লোরার ইন্টার্নালগুলি প্রদর্শনের অসামান্য কাজ করে।

http://www.o2sol.com/pdfxplorer/overview.htm

(নিখরচায়, বিভ্রান্তিকর ব্যানার নীচে)।


5

আমি ভাল সাফল্যের সাথে পিডিএফবক্স ব্যবহার করেছি । কোডটি দেখতে কেমন তার একটি নমুনা এখানে (০..2.২ সংস্করণ থেকে ফিরে), প্রদত্ত উদাহরণগুলির মধ্যে সম্ভবত এটি এসেছে:

// load the document
System.out.println("Reading document: " + filename);
PDDocument doc = null;                                                                                                                                                                                                          
doc = PDDocument.load(filename);

// look at all the document information
PDDocumentInformation info = doc.getDocumentInformation();
COSDictionary dict = info.getDictionary();
List l = dict.keyList();
for (Object o : l) {
    //System.out.println(o.toString() + " " + dict.getString(o));
    System.out.println(o.toString());
}

// look at the document catalog
PDDocumentCatalog cat = doc.getDocumentCatalog();
System.out.println("Catalog:" + cat);

List<PDPage> lp = cat.getAllPages();
System.out.println("# Pages: " + lp.size());
PDPage page = lp.get(4);
System.out.println("Page: " + page);
System.out.println("\tCropBox: " + page.getCropBox());
System.out.println("\tMediaBox: " + page.getMediaBox());
System.out.println("\tResources: " + page.getResources());
System.out.println("\tRotation: " + page.getRotation());
System.out.println("\tArtBox: " + page.getArtBox());
System.out.println("\tBleedBox: " + page.getBleedBox());
System.out.println("\tContents: " + page.getContents());
System.out.println("\tTrimBox: " + page.getTrimBox());
List<PDAnnotation> la = page.getAnnotations();
System.out.println("\t# Annotations: " + la.size());

4

আরও একটি বিকল্প আছে। অ্যাডোব অ্যাক্রোব্যাট প্রো পিডিএফের অভ্যন্তরীণ বৃক্ষ কাঠামোটি প্রদর্শন করতে সক্ষম।

  1. প্রিফলাইট খুলুন
  2. বিকল্পগুলিতে যান (ডান উপরের কোণায়)
  3. অভ্যন্তরীণ পিডিএফ স্ট্রাকচার

শীর্ষে অ্যাডোব অ্যাক্রোব্যাট প্রো পিডিএফ-তে ডকুমেন্ট হরফের অভ্যন্তরীণ কাঠামো প্রদর্শন করতে পারে অন্যান্য বেশিরভাগ "পিডিএফ ট্রি ট্রি স্ট্রাকচার ভিউয়ার" এর এই গতি নেই

এখানে চিত্র বর্ণনা লিখুন


4
@ মার্ক-স্টিফেনস গ্রহণযোগ্য উত্তরে এটি বর্ণনা করে।
কোপ্পোর

4
@ মার্ক-স্টিফেনসের উত্তর কেবলমাত্র একটি ব্লগ পোস্টের সাথে লিঙ্ক করে যা ভবিষ্যতে অদৃশ্য হয়ে যেতে পারে (এবং এসও-তে নিরুৎসাহিত করা হয়েছে)। ভাদিমোর আসলে উত্তর প্রদান করে।
স্টারফিশ

3

অ্যাক্রোব্যাট অবজেক্ট ভিউয়ারটি ভাল তবে উইন্ডজ্যাক সলিউশনের পিডিএফ ক্যানোপেনার পৃষ্ঠায় বস্তু নির্বাচন করার জন্য আইড্রোপার দিয়ে আরও ভাল পরিদর্শন করতে পারবেন। এছাড়াও পিডিএফ করার পরিবর্তনের অনুমতি দেয়।

http://www.windjack.com/products/pdfcanopener.html



1

আপনি যদি পাইথনের মধ্যে থেকেই প্রোগ্রামগতভাবে কাজ করতে চান তবে পিডিএফমিনার একটি ভাল বিকল্প। এটি আপনাকে অবজেক্ট হায়ারার্কি হিসাবে মেমরির পিডিএফ স্ট্রাকচারের সাথে কাজ করতে বা এটি এক্সএমএল হিসাবে সিরিয়ালাইজ করার অনুমতি দেয়।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.