আপনার কাছে বেশ কয়েকটি বিকল্প রয়েছে। এই সমস্ত পদ্ধতি লিনাক্সের পাশাপাশি উইন্ডোজ বা ম্যাক ওএস এক্সেও কাজ করে However বেশিরভাগ ক্ষেত্রে এগুলি নথিতে ব্যবহৃত গ্লাইফগুলির কেবলমাত্র উপসেট অন্তর্ভুক্ত করে।
ব্যবহার pdftops
* নিক্স সিস্টেমে এটি করার জন্য সর্বাধিক ব্যবহৃত পদ্ধতিগুলির মধ্যে একটি নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:
- পিডিএফটিকে পোস্টস্ক্রিপ্টে রূপান্তর করুন, উদাহরণস্বরূপ এক্সপিডিএফ ব্যবহার করে
pdftops
(উইন্ডোজে: pdftops.exe
সহায়ক প্রোগ্রাম)।
- এখন হরফগুলি
.pfa
(পোস্টস্ক্রিপ্ট) ফর্ম্যাটে এম্বেড করা হবে + আপনি কোনও পাঠ্য সম্পাদক ব্যবহার করে এগুলি বের করতে পারেন ।
- আপনি রূপান্তর করার প্রয়োজন হতে পারে
.pfa
একটি করার জন্য (হওয়া ASCII) .pfb
ব্যবহার (বাইনারি) ফাইল t1utils
এবং pfa2pfb
।
- পিডিএফগুলিতে কখনও
.pfm
বা .afm
ফাইল (ফন্ট মেট্রিক ফাইল) এম্বেড থাকে না (কারণ পিডিএফ দর্শকের এগুলি সম্পর্কে অভ্যন্তরীণ জ্ঞান থাকে)। এগুলি ব্যতীত, ফন্ট ফাইলগুলি দৃশ্যত আনন্দদায়ক উপায়ে খুব সহজেই ব্যবহারযোগ্য।
ব্যবহার fontforge
আর একটি পদ্ধতি হ'ল ফ্রি ফন্ট সম্পাদক ফন্টফর্স :
- ব্যবহার করুন "ওপেন ফন্ট" ফাইল খোলার ব্যবহৃত dialogbox।
- তারপরে ডায়ালগের ফিল্টার বিভাগে "পিডিএফ থেকে এক্সট্র্যাক্ট" নির্বাচন করুন ।
- ফন্টটি বের করার জন্য পিডিএফ ফাইলটি নির্বাচন করুন।
- একটি "চয়ন করুন একটি ফন্ট" ডায়ালগবক্স খোলে - কোন ফন্টটি খুলতে হবে তা এখানে নির্বাচন করুন।
ফন্টফোর ম্যানুয়ালটি পরীক্ষা করুন পুনরায় ব্যবহারযোগ্য এমন ফাইল হিসাবে এক্সট্রাক্ট করা ফন্ট ডেটা সংরক্ষণ করার জন্য আপনাকে কয়েকটি নির্দিষ্ট পদক্ষেপ অনুসরণ করতে হবে যা অগত্যা সহজবোধ্য নয়।
ব্যবহার mupdf
এরপরে, MuPDF । এই অ্যাপ্লিকেশনটি pdfextract
(উইন্ডোজ pdfextract.exe
:) নামে একটি ইউটিলিটি নিয়ে আসে যা পিডিএফ থেকে ফন্ট এবং চিত্রগুলি বের করতে পারে। (আপনি যদি এমপিডিএফ সম্পর্কে জানেন না, যা এখনও তুলনামূলকভাবে অজানা এবং নতুন: "মুপিডিএফ হ'ল ফ্রি লাইটওয়েট পিডিএফ ভিউয়ার এবং পোর্টেবল সি-তে লেখা টুলকিট" , আর্টিফেক্স সফটওয়্যার বিকাশকারীদের দ্বারা লিখিত, একই সংস্থা আমাদের ঘোস্টস্ক্রিপ্ট দিয়েছে। )
( আপডেট: এমপিডিএফের নতুন সংস্করণগুলি 'মিডিউল এক্সট্র্যাক্ট' কমান্ডে 'পিডিএফেক্সট্র্যাক্ট ' এর পূর্বের কার্যকারিতা সরিয়ে নিয়েছে। এটি এখানে ডাউনলোড করুন: mupdf.com/downloads )
দ্রষ্টব্য: pdfextract.exe
একটি কমান্ড-লাইন প্রোগ্রাম। এটি ব্যবহার করতে, নিম্নলিখিতটি করুন:
c:\> pdfextract.exe c:\path\to\filename.pdf # (on Windows)
$> pdfextract /path/tofilename.pdf # (on Linux, Unix, Mac OS X)
এই কমান্ডটি পিডিএফ ফাইল থেকে নিষ্কাশনযোগ্য সমস্ত ফাইলকে বর্তমান ডিরেক্টরিতে ডাম্প করবে। সাধারণত আপনি বিভিন্ন ফাইল দেখতে পাবেন: চিত্রের পাশাপাশি ফন্টও। এই পিএনজি, TTF, CFF সিআইডি অন্তর্ভুক্ত ইত্যাদি ইমেজ নাম কেমন হবে চিত্র 0412.png যদি ইমেজ পিডিএফ বস্তুর সংখ্যা ছিল 412. fontnames মতো হবে FGETYK + + LinLibertineI-0966.ttf , যদি ফন্ট এর পিডিএফ অবজেক্ট সংখ্যা 966 ছিল।
সিএফএফ ( কমপ্যাক্ট ফন্ট ফর্ম্যাট ) ফাইলগুলি একটি স্বীকৃত ফর্ম্যাট যা বিভিন্ন অপারেটিং সিস্টেমে ব্যবহারের জন্য বিভিন্ন রূপান্তরকারীদের মাধ্যমে অন্যান্য ফর্ম্যাটগুলিতে রূপান্তর করতে পারে।
আবার: সচেতন থাকুন যে এই ফন্টগুলির বেশিরভাগ ফাইলের মধ্যে কেবলমাত্র অক্ষরের একটি উপসেট থাকতে পারে এবং এটি সম্পূর্ণ টাইপফেসের প্রতিনিধিত্ব করতে পারে না।
আপডেট: (জুলাই ২০১৩) সাম্প্রতিক সংস্করণগুলি mupdf
কেবল একবার নয়, বেশ কয়েকবার তাদের বাইনারিগুলির অভ্যন্তরীণ রদবদল এবং নাম পরিবর্তন করতে দেখা গেছে। মূল ইউটিলিটিটি 'সুইস ছুরি' -র মতো বাইনারি হিসাবে ব্যবহৃত হত mubusy
(নামটি ব্যস্তবক্স দ্বারা অনুপ্রাণিত?), যা সম্প্রতি নতুন নামকরণ করা হয়েছিল mutool
। এই সমর্থন উপ-কমান্ড info
, clean
, extract
, poster
এবং show
। দুর্ভাগ্যক্রমে, এই সরঞ্জামগুলির জন্য অফিসিয়াল ডকুমেন্টেশন আপ টু ডেট নেই (এখনও)। আপনি যদি 'ম্যাকপোর্টস' ব্যবহার করে কোনও ম্যাকের উপরে থাকেন: তবে অভিন্ন নাম ব্যবহার করে অন্যান্য ইউটিলিটিগুলির সাথে নামের সংঘর্ষ এড়াতে ইউটিলিটির নামকরণ করা হয়েছিল এবং আপনার ব্যবহারের প্রয়োজন হতে পারে mupdfextract
।
mutool
এর আগের সরঞ্জামটির মতো (মোটামুটি) সমমানের ফলাফল অর্জন করতে pdfextract
, কেবল চালান mubusy extract ...
*
সুতরাং ফন্ট এবং চিত্রগুলি নিষ্কাশনের জন্য আপনাকে নিম্নলিখিত কমান্ডলাইনগুলি চালাতে হতে পারে:
c:\> mutool.exe extract filename.pdf # (on Windows)
$> mutool extract filename.pdf # (on Linux, Unix, Mac OS X)
ডাউনলোডগুলি এখানে রয়েছে: mupdf.com/downloads
gs
(ঘোস্টস্ক্রিপ্ট) ব্যবহার করে
তারপরে, ঘোস্টস্ক্রিপ্ট পিডিএফ থেকে সরাসরি ফন্টগুলিও বের করতে পারে। তবে এটির জন্য extractFonts.ps
পোস্টস্প্রিপ্ট ভাষায় লিখিত একটি বিশেষ ইউটিলিটি প্রোগ্রামের সহায়তা দরকার যা ঘোস্টস্ক্রিপ্ট উত্স কোড সংগ্রহস্থল থেকে পাওয়া যায় ।
এখন এটি ব্যবহার করুন, আপনার এই ফাইল extractFonts.ps
এবং আপনার পিডিএফ ফাইল উভয়ই চালানো দরকার । ঘোস্ট স্ক্রিপ্ট তারপরে পিডিএফ থেকে ফন্টগুলি বের করার জন্য পোস্টস্ক্রিপ্ট প্রোগ্রামের নির্দেশাবলী ব্যবহার করবে। এটি উইন্ডোজের মতো দেখাচ্ছে (হ্যাঁ, ঘোস্টস্ক্রিপ্ট 'ফরোয়ার্ড স্ল্যাশ' বোঝে, /, উইন্ডোজটিতেও পাথ বিভাজক হিসাবে!):
gswin32c.exe ^
-q -dNODISPLAY ^
c:/path/to/extractFonts.ps ^
-c "(c:/path/to/your/PDFFile.pdf) extractFonts quit"
অথবা লিনাক্স, ইউনিক্স বা ম্যাক ওএস এক্সে:
gs \
-q -dNODISPLAY \
/path/to/extractFonts.ps \
-c "(/path/to/your/PDFFile.pdf) extractFonts quit"
আমি কয়েক বছর আগে ঘোস্টস্ক্রিপ্ট পদ্ধতিটি পরীক্ষা করেছি। সেই সময় এটি * .ttf (ট্রু টাইপ) এক্সট্রাক্টটি ঠিক জরিমানা করে। আমি জানি না অন্য ফন্টের প্রকারগুলিও আদৌ বের করা হবে কিনা, এবং যদি তাই হয় তবে পুনরায় ব্যবহারযোগ্য উপায়ে। আমি জানি না যে ইউটিলিটি ফন্টগুলি সুরক্ষিত হিসাবে চিহ্নিত হিসাবে চিহ্নিত করতে বাধা দেয় কিনা।
ব্যবহার pdf-parser.py
শেষ পর্যন্ত, ডিডিয়ার স্টিভেন্সের পিডিএফ - পার্সার.পি : এটি সম্ভবত ব্যবহার করা তত সহজ নয়, কারণ আপনার অভ্যন্তরীণ পিডিএফ স্ট্রাকচার সম্পর্কে কিছুটা জানা থাকতে হবে। pdf-parser.py
পাইথন স্ক্রিপ্ট যা অন্যান্য অনেক কিছুই করতে পারে। এটি অবজেক্টগুলি থেকে নির্বিচারে স্ট্রিমগুলি সংক্ষেপণ এবং নিষ্কাশন করতে পারে এবং তাই এটি এম্বেডড ফন্ট ফাইলগুলিও বের করতে পারে।
তবে আপনার কী প্রয়োজন তা জানতে হবে। আসুন এটি একটি উদাহরণ সহ দেখুন। আমার কাছে বিগ.পিডিএফ নামে একটি ফাইল আছে । প্রথম পদক্ষেপ হিসাবে আমি ফন্টফাইলে-s
কীওয়ার্ডের কোনও ঘটনার জন্য পিডিএফ অনুসন্ধান করতে প্যারামিটারটি ব্যবহার করি ( কেস সংবেদনশীল অনুসন্ধানের প্রয়োজন হয় না):pdf-parser.py
pdf-parser.py -s fontfile big.pdf
আমার ক্ষেত্রে, আমার বড় 1.pdf এর জন্য , আমি এই ফলাফলটি পেয়েছি:
obj 9 0
Type: /FontDescriptor
Referencing: 15 0 R
<<
/Ascent 728
/CapHeight 716
/Descent -210
/Flags 32
/FontBBox [ -665 -325 2000 1006 ]
/FontFile2 15 0 R
/FontName /ArialMT
/ItalicAngle 0
/StemV 87
/Type /FontDescriptor
/XHeight 519
>>
obj 11 0
Type: /FontDescriptor
Referencing: 16 0 R
<<
/Ascent 728
/CapHeight 716
/Descent -210
/Flags 262176
/FontBBox [ -628 -376 2000 1018 ]
/FontFile2 16 0 R
/FontName /Arial-BoldMT
/ItalicAngle 0
/StemV 165
/Type /FontDescriptor
/XHeight 519
>>
এটি আমাকে বলে যে পিডিএফের FontFile2
ভিতরে দুটি উদাহরণ রয়েছে এবং এগুলি পিডিএফ অবজেক্ট নং-তে রয়েছে। 15 এবং না। 16, যথাক্রমে। অবজেক্ট নং 15 হ'ল /FontFile2
ফন্ট / এরিয়ালএমটি , অবজেক্ট নং 16 ঝুলিতে /FontFile2
ফন্টের জন্য / আড়িয়াল-BoldMT ।
এটি আরও পরিষ্কারভাবে দেখানোর জন্য:
pdf-parser.py -s fontfile big1.pdf | grep -i fontfile
/FontFile2 15 0 R
/FontFile2 16 0 R
পিডিএফ স্পেসিফিকেশন মধ্যে একটি দ্রুত বেছে নেওয়ার সুবিধা reveals শব্দ /FontFile2
একটি সম্পর্ক 'একটি TrueType ফন্ট প্রোগ্রাম ধারণকারী প্রবাহ' ( /FontFile
একটি কহা হবে 'একটি প্রকার 1 ফন্টের প্রোগ্রাম ধারণকারী প্রবাহ' এবং /FontFile3
একটি কহা হবে একটি ফন্ট প্রোগ্রাম যার ফরম্যাট ধারণকারী 'প্রবাহ প্রবাহ অভিধানে সাব-টাইপ এন্ট্রি দ্বারা নির্দিষ্ট করা হয়েছে {সুতরাং এটি টাইপ 1 সি বা সিআইডিফন্টটাইপ0 সি উপপ্রকার being ।)
পিডিএফ অবজেক্টে বিশেষভাবে দেখতে 15 (যা হরফ / এরিয়ালএমটি ধারণ করে ), কেউ -o 15
প্যারামিটার ব্যবহার করতে পারে :
pdf-parser.py -o 15 big1.pdf
obj 15 0
Type:
Referencing:
Contains stream
<<
/Length1 778552
/Length 1581435
/Filter /ASCIIHexDecode
>>
এই pdf-parser.py
আউটপুটটি আমাদের জানায় যে এই অবজেক্টটিতে একটি স্ট্রিম রয়েছে (এটি সরাসরি প্রদর্শিত হবে না) যার দৈর্ঘ্য 1.581.435 বাইট এবং এএসসিআইআইএইচএক্সইনকোড সহ এনকোডড (== "সংক্ষেপিত") রয়েছে এবং ডিকোডিং করা দরকার (== "ডি- স্ট্যান্ডার্ড /ASCIIHexDecode
ফিল্টারটির সাহায্যে সংকুচিত "বা" ফিল্টারড ")
কোনও বস্তু থেকে যে কোনও প্রবাহকে ডাম্প pdf-parser.py
করতে , -d dumpname
প্যারামিটার দিয়ে কল করা যেতে পারে । চল এটা করি:
pdf-parser.py -o 15 -d dumped-data.ext big1.pdf
আমাদের নিষ্কাশিত ডেটা ডাম্প নামক ফাইল -নাম্বার-ডেটা.সেক্সটে থাকবে । দেখা যাক এটি কত বড়:
ls -l dumped-data.ext
-rw-r--r-- 1 kurtpfeifle staff 1581435 Apr 11 00:29 dumped-data.ext
ওহ দেখুন, এটি 1.581.435 বাইট। আমরা পূর্ববর্তী কমান্ডের আউটপুটে এই চিত্রটি দেখেছি। একটি পাঠ্য সম্পাদক দিয়ে এই ফাইলটি খোলার বিষয়টি নিশ্চিত করে যে এর সামগ্রীটি ASCII হেক্স এনকোডড ডেটা।
একটি ফন্ট রিডিং সরঞ্জাম otfinfo
(যেমন এটি lcdf-typetools
প্যাকেজের একটি অংশ ) দিয়ে ফাইলটি খোলার ফলে প্রথমে কিছুটা হতাশার কারণ হবে:
otfinfo -i dumped-data.ext
otfinfo: dumped-data.ext: not an OpenType font (bad magic number)
ঠিক আছে, এটি কারণ আমরা (এখনও) pdf-parser.py
এর পূর্ণ যাদুটি ব্যবহার করতে দিই নি : ফিল্টারড, ডিকোডড স্ট্রিমটি ফেলে দিতে। এর জন্য আমাদের -f
প্যারামিটারটি যুক্ত করতে হবে :
pdf-parser.py -o 15 -f -d dumped-data-decoded.ext big1.pdf
এই নতুন ফাইলটি কি আকার?
ls -l dumped-data-decoded.ext
-rw-r--r-- 1 kurtpfeifle staff 778552 Apr 11 00:39 dumped-data-decoded.ext
ওহ, দেখুন: সেই সঠিক নম্বরটি ইতিমধ্যে নং পিডিএফ অবজেক্টে সঞ্চিত ছিল। কীটির মান হিসাবে 15 অভিধান /Length1
...
file
এটা কি মনে হয়?
file dumped-data-decoded.ext
dumped-data-decoded.ext: TrueType font data
otfinfo
এটি সম্পর্কে আমাদের কী বলে ?
otfinfo -i dumped-data-decoded.ext
Family: Arial
Subfamily: Regular
Full name: Arial
PostScript name: ArialMT
Version: Version 5.10
Unique ID: Monotype:Arial Regular:Version 5.10 (Microsoft)
Designer: Monotype Type Drawing Office - Robin Nicholas, Patricia Saunders 1982
Manufacturer: The Monotype Corporation
Trademark: Arial is a trademark of The Monotype Corporation.
Copyright: © 2011 The Monotype Corporation. All Rights Reserved.
License Description: You may use this font to display and print content as permitted by
the license terms for the product in which this font is included.
You may only (i) embed this font in content as permitted by the
embedding restrictions included in this font; and (ii) temporarily
download this font to a printer or other output device to help
print content.
Vendor ID: TMC
বিঙ্গো তাই !, আমরা একটি বিজয়ী আছে: pdf-parser.py
সত্যিই আমাদের জন্য একটি বৈধ ফন্ট ফাইল নিষ্কর্ষ হয়নি। এই ফাইলটির আকার (778.552 বাইট) দেওয়া দেখে মনে হচ্ছে এই পিডিএফটিতে এই ফন্টটি পুরোপুরি এম্বেড করা ছিল ...
আমরা এরিয়াল-রেগুলার.টিটিএফ এর নাম পরিবর্তন করে এটিকে ইনস্টল করতে এবং আনন্দের সাথে এটি ব্যবহার করতে পারি।
আদেশ সহকারে:
যে কোনও ক্ষেত্রে আপনাকে ফন্টে প্রযোজ্য লাইসেন্সটি অনুসরণ করতে হবে। কিছু হরফ লাইসেন্স নিখরচায় ব্যবহার এবং / বা বিতরণের অনুমতি দেয় না। পাইরেটিং ফন্টগুলি কোনও সফ্টওয়্যার বা অন্যান্য কপিরাইটযুক্ত উপাদানগুলিকে পাইরেটিং করার মতো।
বেশিরভাগ পিডিএফ যেগুলি সেখানে বুনো আছে সেখানে পুরো ফন্টটি এম্বেড করে না, তবে কেবল উপগ্রহগুলি। কোনও হরফের সাবসেট এক্সট্র্যাক্ট করা কেবলমাত্র খুব সীমিত সুযোগে কার্যকর।
অনুগ্রহ করে ফন্ট নিষ্কাশন প্রচেষ্টা সম্পর্কে প্রস এবং নিম্নলিখিত সম্পর্কে আরও পড়ুন: