অনুলিপিযুক্ত পাঠ্য থেকে লিগচারগুলি সরিয়ে ফেলা সম্ভব?


10

আমার কাছে কয়েকটি পিডিএফ রয়েছে যা পাঠ্যে লিগাচার ধারণ করে (উদাহরণস্বরূপ, ffএকটি একক অক্ষরে একত্রিত, )।

পিডিএফ থেকে পাঠ্য অনুলিপি করার সময় এগুলি সরানোর কোনও সহজ উপায় আছে? (উদাহরণস্বরূপ, আমি যখন পেস্ট করব, আমি চাইলে এটি আটকে দেওয়া হবে ff)।

আমি এই পিডিএফগুলি থেকে প্রচুর পাঠ্য স্ট্যাক ওভারফ্লোতে উত্তরগুলিতে অনুলিপি করি এবং আমি লিগচারগুলি সবচেয়ে বেমানান অবস্থায় খুঁজে পাই (ঠিক আছে, আমি স্বীকার করি, আমি সত্যিই পছন্দসই :- পি); লিগ্যাচারগুলি অন্য জায়গায় অনুলিপি করার সময়ও সঠিকভাবে প্রদর্শিত হয় না (উদাহরণস্বরূপ, আমি যদি তাদের নোটপ্যাডে অনুলিপি করি তবে তারা ব্লক হিসাবে প্রদর্শিত হয়)।

আমি পিডিএফ সংশোধন করতে পারি না।

আমি অ্যাডোব অ্যাক্রোব্যাট রিডার এবং ফক্সিট রিডার উভয়ই ব্যবহার করি তবে আমি নতুন পিডিএফ রিডার চেষ্টা করার জন্য উন্মুক্ত হয়েছি।

উত্তর:


3

অজগর এ হবে:

import unicodedata
# \uFB00 is the ff ligature.
unicodedata.normalize('NFKD',u'\uFB00').encode('ascii','ignore')

আপনি এটি পিডিডিএফ এর সাথে পিডিএফ ফাইলগুলি পড়তে পারেন।


2

আমি যখন এটি পরীক্ষা করেছিলাম তখন পাঠককে লিগাচারগুলি ডিকোড করতে দেখা যায়।

BTW। পিডিএফলেটেক্স ডকুমেন্টের জন্য আপনি পিডিএফ ডকুমেন্টে লিগচারগুলি প্রদর্শনের জন্য উপস্থাপিতভাবে এটি ব্যবহার করতে পারেন তবে স্বতন্ত্র অক্ষরগুলি অনুলিপি করতে পারেন:

\ ইনপুট {glyphtounicode.tex}
d পিডিফজেনটিউইকোড = 1%

1

একটি সম্ভাবনা আপনার প্রিয় পাঠ্য-সম্পাদক ব্যবহার করা এবং কেবল সেগুলি প্রতিস্থাপন করা হবে।

অন্য উপায় হ'ল স্ক্রিপ্ট লিখতে হবে যা ব্যবহার করে sed.. তবে এটি কেবল * এনআইএক্স-সিস্টেম হবে, আমি আশঙ্কা করি।


GnuWin32 এবং আপনি উইন্ডোতে ছেদ করেছেন।
এমবিকিউ

@ এমবিকিউ: এটিও এতে অন্তর্ভুক্ত? খুব ভালো. ধন্যবাদ.
ববি

0

আমি অনুরূপ প্রশ্নের আরও গভীরতার সাথে উত্তর দিয়েছি - আমি যখন পিডিএফ থেকে অনুলিপি করি বা কোনও নথি মুদ্রণ করি তখন `ফাই লেখাটি কেন কাটবে?

ভাঙা শব্দ থেকে মূল শব্দগুলিতে ম্যাপিং করা থাকলে আপনি অনুলিপি করা টেক্সটের "ভাঙা" শব্দগুলিকে প্রতিস্থাপন করতে পারেন। আমি শব্দ থেকে লিগচারগুলি সরিয়ে এবং ফলাফলটি অনন্য কিনা তা পরীক্ষা করে এই ম্যাপিংটি তৈরি করতে একটি স্ক্রিপ্ট লিখেছিলাম। ইংরেজি শব্দের আমার অভিধান জন্য, 99.5% সব সম্ভব ভাঙ্গা শব্দের পরিবর্তনযোগ্য, এবং 92,3% শব্দ করে একটি পটীবন্ধনী ক্রম ধারণ এর ( ff, fi, fl, ffi, অথবা ffl) উদ্ধার করা সম্ভব। এই দুটি শতকরা মধ্যে পার্থক্য বৈধ শব্দ অন্যান্য বৈধ শব্দ থেকে লিগামেন্ট সরানোর দ্বারা তৈরি করা হয় যে (মত আশ্চর্যজনক সংখ্যক কারণে butterfly --> buttery, fluffs --> usএবং misfits --> mists)।

এখানে গ্যারান্টিযুক্ত-প্রতিস্থাপনযোগ্য "ভাঙা" শব্দের একটি সিএসভি রয়েছে (এবং যে শব্দগুলি তারা ব্যবহৃত হত): http://www.filedropper.com/brokenligaturewordfixes


আপনি যে ফাইলটি দিচ্ছেন তা দুর্দান্ত। বাস্তবে, যদিও সাধারণ জ্ঞানের কেউই অজানা ফাইলটি ডাউনলোড করতে পারবেন না (বিশেষত একেবারে নতুন ব্যবহারকারীর কাছ থেকে)। ফাইলটি বেশি ট্র্যাফিক না পেলে ব্যক্তিগতভাবে নেবেন না। এর অর্থ এই নয় যে আপনার প্রচেষ্টা প্রশংসিত নয়।
ফিক্সার 1234

হ্যাঁ আমি বুঝেছি. আমি চাই যে এর মতো লিঙ্কগুলি যাচাই করার কোনও সহজ উপায় ছিল, অথবা এমনকি কেবল ফাইলের ধরণের গ্যারান্টি রয়েছে। ধন্যবাদ!
জান ভ্যান ব্রুগেন

0

আমার উপায়টি ছিল পিডিএফ থেকে নোটপ্যাড (কোনও বিন্যাস অপসারণ করতে) এবং তারপরে নোটপ্যাড থেকে মাইক্রোসফ্ট ওয়ার্ডে অনুলিপি করা এবং আটকানো।

ওয়ার্ডে সমস্ত লিগ্যাচার অন্যান্য ফর্ম্যাটিং ফন্টের সাথে পরিবর্তিত হয়।

আমি তাদের প্রত্যেকটির সন্ধান এবং প্রতিস্থাপন ব্যবহার করি (যেমন ম্যানুয়াল লাইনের বিঘ্নের জন্য ^ l এবং ম্যানুয়াল পৃষ্ঠার ব্যাঘাতের জন্য এম এবং এই জাতীয়, আপনি সহজেই অনলাইনে সমস্ত সন্ধান করতে পারেন) এবং আমি সঠিক ফর্মের সাথে প্রতিস্থাপন করি।

4 বা 5 ধাপে আমি সমস্ত সম্ভাবনাগুলি বেশ দ্রুত কভার করি। অতিরিক্ত অনুচ্ছেদের বাধা খুব অপসারণ করতে এটি কার্যকর (^ পি)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.