অ-মানক অক্ষর এনকোডিং সহ পিডিএফ অনুসন্ধান করুন


19

আপনি পাঠ্য অনুলিপি করার সময় কিছু পিডিএফ ফাইল আবর্জনা তৈরি করে (" মোজিবাকে ") (যদিও তারা ঠিকঠাক রেন্ডার করে)। এটি তাদের অনুসন্ধান করা অসম্ভব করে তোলে (যা আপনি অনুসন্ধান করেন তা আবর্জনার সাথে মেলে না)।

কারও কি সহজে কাজ করা যায়?

উদাহরণ:

  1. টিইএসি টিভি ম্যানুয়াল EU2816STF (উইন্ডোজ এবং ম্যাক উভয় ক্ষেত্রে অ্যাডোব রিডারে উপরের সমস্যার ফল দেয় তবে একটি ম্যাকের পূর্বরূপে ভাল কাজ করে)
  2. লিডটেক উইনফাস্ট পিভিআর 2 ম্যানুয়াল (এফটিপি লিঙ্ক; একটি ম্যাকের পূর্বরূপেও সমস্যা রয়েছে)
  3. সোয়ান টিভি টিউনার কার্ড ম্যানুয়াল (এফটিপি লিঙ্ক; একটি ম্যাকের পূর্বরূপেও সমস্যা রয়েছে)
  4. ফোনেডিস্ক লাইসেন্স চুক্তি (এখনকার ডিটিএমএস - অব্যক্ত ডিএমটিএমএস থেকে )
  5. ম্যাককুরি আইএফপি ত্রৈমাসিক তহবিল পর্যালোচনা
  6. নিষেধাজ্ঞাগুলি ক্ষুদ্র ব্যবসায় পুস্তিকা (সংরক্ষণাগারিত সংস্করণ)
  7. ইস্টারফেষ্ট 2004 ফ্লায়ার (সংরক্ষণাগার থেকেও)

আমি উইন্ডোজের জন্য অ্যাডোব রিডার (সর্বশেষ সংস্করণ) ব্যবহার করছি - সম্ভবত কোনও বিকল্প ভিউয়ার সাহায্য করতে পারে? আমি উইন্ডোজের জন্য একটি মুক্ত সমাধান খুঁজছি solution ওপেন সোর্স আরও ভাল হবে।

সম্পাদনা করুন: মাল্টিভ্যালেন্ট এক্সট্রাক্ট টেক্সট সরঞ্জামটির ডক্সে জিনিসগুলি কেন ভুল হতে পারে তার একটি ভাল সংক্ষিপ্তসার রয়েছে যার মধ্যে রয়েছে: (উদ্ধৃত নথিটি গত জানুয়ারী 2006 এ সংশোধিত হয়েছে)

  • পাঠ্যের কোনও ইউনিকোড ম্যাপিং নাও থাকতে পারে। পিডিএফ টাইপ 3 ফন্ট প্রায়শই হয় না এবং টেক্স এক্স ডিভিআই-তে এমন অক্ষর রয়েছে যা ইউনিকোড সমতুল্য নয়।
  • ইউনিকোড এনকোডিং বগি হতে পারে। ওপেন অফিস একই অক্ষরটি কিছুটা একই ইউনিকোডে মানচিত্র করে, ফলস্বরূপ সংক্ষিপ্ত বর্ণটি বাদ পড়ে এবং দ্বিগুণ হয়।

আমি অনুমান করি যে এই ক্ষেত্রেগুলির চূড়ান্ত সমাধান হ'ল প্রতিটি গ্লাইফ একটি ফন্টের ওসিআর হ'ল এটি আসলে কী চরিত্র তা নির্ধারণ করতে। দ্রষ্টব্য যে কোনও গোলমাল স্ক্যানকৃত নথিটি ওসিআর করার চেয়ে সহজ হবে কারণ গ্লাইফের সঠিক আকারটি পাওয়া যায় (এটি "ভেক্টর" চিত্র হওয়ার কারণে অসীম রেজোলিউশনে)।


ক্লিপবোর্ডে কী আছে তা clipbrd.exeদেখতে ( mydigitallife.info/2008/11/06/… দেখুন ) ব্যবহার করতে পারেন। এটা আপনাকে কি দেয়?
আরজন

@ আরজান ভ্যান বেন্টেম: এটি আমাকে নোটপ্যাডে আটকানোর সময় ঠিক একই আবর্জনা দেয়।
হিউ অ্যালেন

বিন্যাসে কোনও বিবরণ? আমি একটি ম্যাকে আছি, তবে আমি ধরেই নিয়েছি উইন্ডোজ আপনাকে জানাবে যদি কোনও চিত্র বা পাঠ্য হয় এবং তারপরে পাঠ্যের জন্য সম্ভবত এনকোডিং সম্পর্কে কিছু প্রকাশিত হয়?
আরজান

টিভি ম্যানুয়াল উদাহরণের জন্য: ম্যাকের অ্যাডোব রিডার 8.1.2 এ একই সমস্যা, তবে পাঠ্যের অনুলিপি বা অনুসন্ধান করতে ম্যাকের পূর্বরূপ ব্যবহার করে কোনও সমস্যা নেই। এর নথির বৈশিষ্ট্যগুলি হরফগুলির জন্য "এনকোডিং: কাস্টম" দেখায় (দেখুন img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png )। অন্যান্য পিডিএফ ডকুমেন্টগুলি "এনকোডিং: আনসি" বা "রোমান" এর মতো জিনিসগুলি দেখায় এবং ম্যাকের অ্যাডোব রিডারে কোনও সমস্যা নেই (যেমন অ্যাডোব. com/ education/ pdf/ type_primer.pdf ফলন img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png )।
আরজান

1
এছাড়াও, পিডিএফটেক্সটোনলাইন.কম টিভি ম্যানুয়াল বা ফোনেডিস্ক নথি থেকে অন্য পাঠ্য আনতে পারে না (অন্যদের চেষ্টা করে নি)। তবে জিমেইলে প্রেরণ এবং তারপরে এইচটিএমএল হিসাবে দেখা টিভি ম্যানুয়ালের জন্য কাজ করে (যেমন পূর্বরূপটির সাথে নথির কোনও সমস্যা নেই) ...
আরজান

উত্তর:


3

ফক্সিট রিডার , সম্ভবত?

কি এটা মূল্য জন্য, আমি শুধু পিডিএফ আপনার উপর Mac OS X এর 10.6.2 সাফারি 4.0.4 সঙ্গে লিঙ্ক চেক করা এবং যখন হয় কিছু Engrish , পিডিএফ এটা কোনো পর্দায় আসেন "আবর্জনা" ছাড়া flawlessly রেন্ডার করে। সম্ভবত আপনার ইউনিকোড সমস্যা রয়েছে (ম্যাক ওএসের চেয়ে উইন্ডোতে বেশি সাধারণ)?


আবর্জনা স্ক্রিনে নেই - যখন আমি কিছু পাঠ্য কপি করি তখন এটি ক্লিপবোর্ডে থাকে। আপনি চেষ্টা করলে আপনার কি হয়?
হিউ অ্যালেন

@ হু: বৈশিষ্ট্যগুলি 􏰃 এটি একটি দূরবর্তী নিয়ন্ত্রিত রঙিন টেলিভিশন। ভিএইচএফ, ইউএইচএফ ব্যান্ড বা তারের চ্যানেল থেকে 􏰃 100 প্রোগ্রাম প্রিসেট করা যেতে পারে। 􏰃 এটি তারের চ্যানেলগুলিকে টিউন করতে পারে। Its টিভিটিকে নিয়ন্ত্রণ করা মেনু চালিত সিস্টেমের মাধ্যমে খুব সহজ। External বাহ্যিক শুল্কের জন্য এটির তিনটি ইউরোকনেক্টর সকেট রয়েছে (যেমন কম্পিউটার, ভিডিও, ভিডিও গেমস, অডিও সেট ইত্যাদি)
অ্যালেক্স

@ হু: বুলেটগুলি সঠিকভাবে অনুলিপি করছে না, তবে বাকি রয়েছে। কোন বিভাগ / পৃষ্ঠা / অনুচ্ছেদে বিশেষত আপনার সমস্যা রয়েছে এবং আমি এটি দিয়েছি?
অ্যালেক্স

এটার সবগুলো. আমি উইন্ডোজের জন্য অ্যাডোব রিডার ব্যবহার করছি। আমি সবেমাত্র সর্বশেষতম সংস্করণে আপডেট করেছি যা সাহায্য করে না। তথ্যের জন্য +1 ধন্যবাদ। আমি অনুমান করি যে অ্যাডোব রিডারের একটি বাগ আছে যা ওএসএক্স সমতুল্য নয়
হিউ অ্যালেন

4
আমি ফক্সিট রিডার চেষ্টা করেছি এবং এটি একই সমস্যা আছে। এটির ইনস্টলারটিও সত্যই অনুপ্রবেশকারী, একটি সরঞ্জামদণ্ড ইনস্টল করতে, আপনার হোমপৃষ্ঠাটি পরিবর্তন করতে চান ইত্যাদি :(
হিউ অ্যালেন

3

এর কাছাকাছি যাওয়ার সহজ উপায় হ'ল বিল্ট-ইন পিডিএফ রিডিং প্লাগইন সহ গুগল ক্রোমের সাম্প্রতিক সংস্করণে ফাইলটি খুলুন । তারপরে আপনি পাঠ্যের সন্ধানের জন্য Chrome এর অনুসন্ধান বৈশিষ্ট্যটি ব্যবহার করতে পারেন এবং অনুলিপি-পেস্টটি সঠিকভাবে কাজ করে।


2

জন্য টিভি ম্যানুয়াল উদাহরণ : একটি ম্যাক Adobe Reader- কে 8.1.2 একই ইস্যু, কিন্তু কোন ম্যাক এর প্রিভিউ ব্যবহার কপি বা পাঠ্য অনুসন্ধান করতে সমস্যা। এছাড়াও, এটি একটি জিমেইল অ্যাকাউন্টে প্রেরণ এবং তারপরে "দেখুন" এবং তারপরে "সরল এইচটিএমএল" চয়ন করে পাঠ্যটি প্রকাশিত হয়। তবে অ্যাডোব রিডার এটি পছন্দ করে না।

এর নথির বৈশিষ্ট্যগুলি হরফগুলির জন্য "এনকোডিং: কাস্টম" দেখায়। অন্য ডকুমেন্টটিতে "এনকোডিং: আনসি" বা "রোমান" এর মতো জিনিসগুলি দেখানো হয়েছে এবং কোনও ম্যাকের পূর্বরূপ বা অ্যাডোব রিডার নিয়ে কোনও সমস্যা নেই:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

তবে লিডটেক এবং সোয়ান উদাহরণ উভয়ই একটি ম্যাকের পূর্বরূপ এবং জিমেইলে সমস্যা দেয় এবং উভয়ই "এনকোডিং: পরিচয়-এইচ" দেখায় show Phonedisc পরীক্ষা খুব ব্যর্থ হয়, "এনকোডিং: কাস্টম" সঙ্গে।

বিভ্রান্তিকর, এবং সামঞ্জস্যপূর্ণ নয়, তবে কিছু অ্যাডোব ফোরামে আমি আরও একটি উদাহরণের জন্য নিম্নলিখিত ব্যাখ্যাটি পেয়েছি যা "এনকোডিং: কাস্টম" (জোর দেওয়া খনি) দেখায়:

পিডিএফটির ভিতরে সন্ধানের পরে দেখা যাচ্ছে যে নথির পৃষ্ঠায় প্রদর্শিত অক্ষর / গ্লাইফগুলি বোঝাতে কোনও ব্যবহারযোগ্য এনকোডিং তথ্য উপস্থিত নেই (পিডিএফ এবং এম্বেড থাকা ফন্ট ডেটাতেও নয়)।

ফন্টগুলি প্রকৃতপক্ষে সমস্ত এম্বেড করা হয় তবে এমনভাবে যে সমস্ত এনকোডিং তথ্য সরানো হয়েছে। এটি পিডিএফের একটি সাধারণ উদাহরণ যা পিডিএফ অনুমানের সাথে সিন্টেক্সিকভাবে সম্পূর্ণরূপে মেনে চলে তবে পিডিএফ তৈরির প্রক্রিয়া চলাকালীন যেখানে পাঠ্যটির অর্থ সম্পর্কে গুরুত্বপূর্ণ তথ্য ফেলে দেওয়া হয়েছে। যতদূর আমি বলতে পারি এনকোডিংয়ের তথ্য পুনরুদ্ধার করা খুব কঠিন হবে।

এটি "এনকোডিং: কাস্টম" সহ অ্যাডোব রিডার ব্যর্থ হওয়ার পরে কেন ম্যাকের পূর্বরূপ (এবং স্পষ্টতই ইনফিক্স) কিছু উদাহরণ পরিচালনা করতে পারে তা ব্যাখ্যা করে না । কম্পিউটারে নিজেই হুবহু হরফ উপস্থিত হতে পারে যখন প্রাকদর্শন কোন সমস্যা নেই? অথবা হতে পারে এটি কেবল একটি এনকোডিং অনুমান করে যা কিছুটির জন্য কাজ করে তবে সমস্ত নথিতে নয়?

যে কারণেই এটি ঘটায়: গুগল ডক্স বা জিমেইল পেরিয়ে যদি কাজ না করে, তবে সম্ভবত সবচেয়ে সহজ (তবে সহজ থেকে দূরে) কাজটি হ'ল টিআইএফএফ হিসাবে সংরক্ষণ করা এবং তারপরে ওসিআর করাএভারনোটের মতো পরিষেবাদিগুলি এটিকে ফ্লাইতে করতে পারে (এটি চিত্রগুলিতে ওসিআর করে; আমার সন্দেহ হয় এটি পিডিএফে ওসিআর করবে)।


-1

ফাইল 1 এর ডাউনলোড আমার জন্য ব্যর্থ হয়েছে, ফাইল 2 আমি এক্সপিডিএফ দিয়ে খুলতে পারি, একটি দ্রুত এবং ওপেন সোর্স পিডিএফ-ভিউয়ার। আমি অনুমান করি এটি ফর্মগুলি পরিচালনা করতে পারে না, তবে খাঁটি পাঠ্য এবং গ্রাফিকের জন্য আমি এটির দ্রুত প্রারম্ভকালের জন্য এটি পছন্দ করি।


1
প্রশ্নটি পিডিএফগুলির "খোলার" বা "দ্রুত প্রারম্ভকালীন সময়ের সাথে খোলার" বিষয়ে নয়। পরিবর্তে, এটি রেন্ডার করা পৃষ্ঠাগুলি থেকে টেক্সট স্নিপেটগুলি অনুলিপি করতে অক্ষম ছিল। সুতরাং আপনার উত্তর সম্ভবত একটি ভাল, কিন্তু এই প্রশ্নের সাথে খাপ খায় না।
কুর্ট ফেফিল

-2

দুর্ভাগ্যক্রমে এটি সাহায্য করা যায় না। পিডিএফ ডকুমেন্টগুলিতে আসলে কোনও অক্ষর থাকে না তবে এগুলিতে বর্ণের আকার থাকে। অন্য কথায় কোনও চিঠি পড়ার পরিবর্তে এবং এটি স্ক্রিনে আঁকার পরিবর্তে অ্যাডোব রিডার অন্য কোনও পিডিএফ রিডিং অ্যাপ্লিকেশন কেবল ফাইলটিতে এনকোডযুক্ত ভেক্টর গ্রাফিক্স আঁকতে পারে ।

তবে কিছু পিডিএফ পাঠক এমন সফ্টওয়্যার নিয়ে আসে যা আকারটি বিশ্লেষণ করতে এবং পাঠ্য স্বীকৃতি ব্যবহার করে পাঠ্য পুনরুদ্ধার করতে দেয়। এটি একইভাবে কাজ করে যেমন আপনি মুদ্রিত পাঠ্যের একটি কাগজ স্ক্যান করেছেন এবং এবিবিওয়াই ফিনারিডার এর মতো সফ্টওয়্যারটিকে এটিকে আবার পাঠ্যে রূপান্তর করতে ব্যবহার করেছেন, তবে অত্যন্ত উচ্চ মানের ভেক্টর আঁকার কারণে স্ক্যানকৃত নথিগুলির চেয়ে ফলাফল সাধারণত আরও ভাল।

কিছু নথি অ্যাডোব রিডারকে বোকা বানিয়ে পাঠ্যে রূপান্তরিত হতে বাঁচানো যেতে পারে। উদাহরণস্বরূপ অক্ষরগুলি বেশ কয়েকটি ওভারল্যাপিং আকারগুলিতে এমনভাবে আঁকতে পারে যে দৃশ্যত তারা এখনও একই দেখতে পাবে, যখন পাঠ্য স্বীকৃতি সফ্টওয়্যার পাঠ্য সনাক্ত করতে ব্যর্থ হবে। আপনার নথিটি এই জাতীয় সুরক্ষার উদাহরণ।

একটি উপায় হ'ল ডকুমেন্টটি কোনও চিত্রে মুদ্রণ করা এবং পাঠ্য স্বীকৃতি সফ্টওয়্যারটিকে এটি স্বীকৃতি দেওয়া। চিত্রটির জন্য উচ্চতর রেজোলিউশনটি মানের উন্নতি করবে। এই পদ্ধতিটি অবশ্য কার্যকর নয়।


2
পিডিএফ ডকুমেন্টগুলিতে আসলে কোনও অক্ষর থাকে না - এটি বেশিরভাগ স্ক্যান না করা নথির জন্য সত্য নয়; দেখতে en.wikipedia.org/wiki/Portable_Document_Format#Text
Arjan

ধন্যবাদ. চমকপ্রদ তথ্য. আমার কাছে সর্বদা আছে যদিও পিডিএফে পাঠ্য সম্পর্কে কোনও তথ্য নেই। তবুও মনে হচ্ছে আলেকজান্ডারের সরবরাহ করা নথিতে পাঠ্য এম্বেড করা নেই। অথবা এটিও সম্ভব যে সেখানে ব্যবহৃত ফন্টের অক্ষরগুলির অদ্ভুত এনকোডিং রয়েছে, অর্থাত তারা এএসসিআইআই এনকোডিংয়ের সাথে সামঞ্জস্য করে না।
সের্গেই বেলোজোরভ

2
আমি কীভাবে পিডিএফ থেকে লেখাটি অনুলিপি করতে পারতাম? আপনি আংশিকভাবে সঠিক - এটি পিডিএফটিতে রাস্টারাইজড নয় (এটি কোনও স্ক্যান উত্স থেকে না হওয়া পর্যন্ত), তবে পাঠ্য ডেটা অন্তর্ভুক্ত রয়েছে। যাইহোক, ফন্টগুলি (সাধারণত) এম্বেড করা হয়, অন্তর্ভুক্ত পাঠ্যটিকে ভেক্টর-রেন্ডার করার অনুমতি দেয়।
অ্যালেক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.