কোনও ওয়েবপৃষ্ঠাকে চেহারা (ওয়েব ব্রাউজারের মতো) এবং পাঠ্য / লিঙ্কগুলি সংরক্ষণ করে কীভাবে পিডিএফে রূপান্তর করবেন?


24

আমি কোনও ওয়েবপৃষ্ঠাকে পিডিএফে রূপান্তর করার জন্য একটি উপায় খুঁজছি, তবে ওয়েবপৃষ্ঠার চেহারাটি সংরক্ষণ করছি। এছাড়াও ওয়েবপৃষ্ঠার পাঠ্য সংরক্ষণ করা (নির্বাচনযোগ্য হওয়া), অনুসন্ধানযোগ্য [ওয়েবপৃষ্ঠার জন্য চিত্রের স্ক্রিনশট উত্পন্ন করা পাঠ্যকে বাছাইযোগ্য বা অনুসন্ধানযোগ্য করে তুলবে না]।

আমি স্টাইল বা প্রান্তিককরণের কোনও হেরফের ছাড়াই বা ওয়েবপৃষ্ঠার স্থিতিশীল উপাদানগুলির ক্ষয়ক্ষতি ছাড়াই পিডিএফে ওয়েব পেজটি মুদ্রণের সন্ধান করছি (ওয়েব ব্রাউজারের মতো)।

এটি সহজেই পঠনযোগ্য, টিকাশযোগ্য এবং সন্ধানযোগ্য ওয়েবপৃষ্ঠাগুলির অফলাইন অনুলিপিগুলি সংরক্ষণে সহায়তা করবে।


আমার প্রশ্নটি পেতে আপনাকে নীচের কোনওটি পড়তে হবে না (প্রশ্নটি কেবল উপরের অংশটি মাত্র) question নিম্নলিখিত বিভাগটি কেবল গবেষণার মাধ্যমে বা অন্যের উত্তর দিয়ে কী পেয়েছে তার একটি তালিকা দেওয়া হচ্ছে যাতে প্রশ্নের উত্তর পাওয়া যায়।

গবেষণার ফলাফল (পরামর্শগুলি যা আমার সমস্যার সমাধান করেনি)

এখনও সমাধান খুঁজে পাওয়ার চেষ্টা করার ফলাফল (সমস্ত এখনও এই প্রশ্নের সমাধান হিসাবে কাজ করছে না)

আমি এই পিডিএফ ওয়েব মুদ্রণ ইঞ্জিনগুলি চেষ্টা করেছি তবে সমস্ত পৃষ্ঠাগুলির চেহারা ম্যানিপুলেট করেছে, আরও ক্ষতিকারক এবং কিছুটা খুব সহজেই পঠনযোগ্য করে তুলছে: ( উদাহরণ পৃষ্ঠার স্ক্রিনশটগুলি বর্গাকার বন্ধনীতে অন্তর্ভুক্ত করা হয়েছে)

  • Chrome [ মূল , মুদ্রণ শৈলী ( অক্ষম | অক্ষম নয় )]
  • ফায়ারফক্স [ মূল , মুদ্রণ শৈলী (অক্ষম p1 , p2 | অক্ষম নয় p1 , p2 )]
  • সুপাঠ্যতা
    • এটি ওয়েবপৃষ্ঠাকে সরল করে তোলে (যা ফোকাস পড়ার জন্য একটি ভাল জিনিস – তবে, এটি আমি খুঁজছি না)। ওয়েব ব্রাউজারে দেখা সমস্ত ওয়েবপেজের অবস্থান / শৈলীর বৈশিষ্ট্যগুলি কোনও প্রকার হেরফের ছাড়াই পিডিএফ ফর্ম্যাটে রাখার জন্য আমি সন্ধান করছি।
  • Foxit Reader
  • NovaPDF
  • কিউটি ক্যাপ্যাপ্ট [ মূল , জুম ফ্যাক্টর: 0.4 : স্ক্রিনশট, আউটপুট পিডিএফ]
    • উইন্ডোজটিতে প্রোগ্রামের চলমান সমস্যাগুলি সমাধান করার পরে আমি লিঙ্কগুলি যুক্ত করব "
  • wkhtmltopdf [ মূল , জুম ফ্যাক্টর: 0.4 : স্ক্রিনশট , আউটপুট পিডিএফ ]
    • এটি CSS3 সমর্থন করে না।

সকল ওয়েবপেজ স্ক্রিনশট প্রতিচ্ছবি প্লাগিন (যেমন অপহরণ , জট্টিল স্ক্রিনশট , Fireshot , ফায়ারফক্স স্ক্রিনশট বিকাশকারী সরঞ্জাম , পুরো পাতা স্ক্রিন ক্যাপচার , Page2Images , ওয়েব-ক্যাপচার , ...) আমার প্রশ্নের উত্তর না, কারণ তারা না টেক্সট সংরক্ষণ এবং লিঙ্কগুলি

স্ক্রিবল ওয়েব টেম্পলেটগুলি সংরক্ষণে যেমন আরও টিকা এবং গবেষণা হিসাবে দুর্দান্ত, তবে দুর্ভাগ্যক্রমে এখনও অনলাইনে এবং পিডিএফ ফর্ম্যাটে রূপান্তর ছাড়াই।

আমার মত একইভাবে সম্প্রদায়টিতে আরও দুটি প্রশ্ন রয়েছে, তবে, এইটি কিছুটা আলাদা তবে সেই গুরুত্বপূর্ণ পার্থক্যগুলির সাথে:

আরও অনুরূপ প্রশ্ন যেখানে পাঠ্য এবং লিঙ্ক সংরক্ষণ করা প্রয়োজন হয় না (পৃষ্ঠাগুলি বেশিরভাগ চিত্রের স্ক্রিনশট হিসাবে ধারণ করা হয়):


মন্তব্য

ওএস: উইন্ডোজ 10


আপনি যদি কোনও ব্রাউজার থেকে মুদ্রণ করতে চান তবে আপনাকে প্রথমে ওয়েব পৃষ্ঠার পর্দার উপস্থিতি বজায় রাখতে কোনও মুদ্রণ স্টাইলশিট অক্ষম করতে হবে।
ডেভিডপস্টিল


তারপরে আপনি কিউটপিডিএফ লেখক ব্যবহার করে মুদ্রণ করতে পারেন ।
ডেভিডপস্টিল

@ ডেভিডপস্টিল মনে হয় মুদ্রণ শৈলীগুলি অক্ষম করা কার্যকর হয় না বা এটি পিডিএফটি সঠিকভাবে প্রদর্শন করতে ব্রাউজারটিকে প্রভাবিত করে না। প্রশ্নের সম্পাদিত সংস্করণে একটি উদাহরণ স্ক্রিনশট যুক্ত করা হয়েছে।
ওমর

: আমি আজ একই প্রশ্ন ছিল এবং এই পৃষ্ঠার আমাকে সাহায্য (যদিও আউটপুট পৃষ্ঠার একটি মোবাইল সংস্করণ ছিল না) stackoverflow.com/questions/9540990/...
MicroMachine

উত্তর:


7

আমরা একটি বিশ্ববিদ্যালয়ের প্রকল্পে একই সমস্যার মুখোমুখি হয়েছি এবং এটি ব্যবহার করে সমাধান করতে সক্ষম হয়েছি

wkhtmltopdf

কমান্ড লাইনে আমরা এই সরঞ্জামটির দক্ষতাগুলি বেশ উপভোগ করেছি। ওয়েবপৃষ্ঠাগুলির বর্তমান অবস্থা রেন্ডার করতে আমরা পাইথন কোড ব্যবহার করে এটিকেও বলেছিলাম। এতে ওয়েবপৃষ্ঠাটিকে পিডিএফ হিসাবে সরবরাহ করার বিকল্প রয়েছে, সাধারণত পৃষ্ঠা বিন্যাসের কারণে ওয়েবসাইটের ভিউ সংরক্ষণের জন্য এটি উপযুক্ত নয় (উদাহরণস্বরূপ এ 4), বা পিএনজি হিসাবে (পৃষ্ঠাটির দেখুন সংরক্ষণ করে তবে লিঙ্কগুলি নয়)

পাঠযোগ্যতা রয়েছে (পাইথনের জন্য: pypi.python.org/pypi/readability-lxML) প্রকল্পটি আমরা ব্যবহার করি যা বিজ্ঞাপনগুলি অপসারণ এবং সামগ্রী সনাক্তকরণকে বেশ ভাল করে (যেমন সংবাদপত্রের নিবন্ধ এবং এর মতো)। আপনি যদি কেবল নিজের ব্রাউজারের জন্য অ্যাডন বা এক্সটেনশন চান তবে নিম্নলিখিত পঠনযোগ্যতা প্রয়োগটি আপনার প্রয়োজন মেটাতে পারে:

https://www.readability.com/addons/


দুর্ভাগ্যক্রমে, wkhtmltopdf পৃষ্ঠার উপাদানগুলির অবস্থান সংরক্ষণ করেনি। উদাহরণ পৃষ্ঠা : জুম ফ্যাক্টর: 0.4: স্ক্রিনশটস , আউটপুট্ট পিডিএফ
ওমর

পঠনযোগ্যতা পৃষ্ঠাটি সরল করে তোলে (যা একটি ভাল জিনিস – তবে এটি আমি যা খুঁজছি তা নয়)। ওয়েব ব্রাউজারে যেমন দেখানো হয়েছে তেমন কোনও হেরফের ছাড়াই সমস্ত পৃষ্ঠার অবস্থান / শৈলীর বৈশিষ্ট্য আমার রাখা দরকার।
ওমর

আপনি কি এই সরঞ্জামটির wkhtmltopng বিকল্পটি ব্যবহার করেছেন, যেমন পিএনজি অবস্থানগুলি ঠিক হওয়া উচিত (পিডিএফ সংস্করণে যেখানে পৃষ্ঠাটি এ 4 ফর্ম্যাটে লাগানো হয়েছে তার চেয়ে কমপক্ষে অনেক ভাল)
সেবিসনু

3

সম্ভাব্য ব্যবহারকারীদের জন্য অন্য একটি উত্তর অবদান রাখছে। ফায়ারফক্সে, একটি অ্যাডোন থাকত "পিডিএফ থেকে পৃষ্ঠাগুলি মুদ্রণ করুন"। আপনি এর সর্বশেষ সংস্করণ 0.1.9.3 অনুসন্ধান করতে পারেন (কেবলমাত্র প্রাক-কোয়ান্টাম সংস্করণগুলিতে কাজ করুন)।

বর্তমানে Chrome এবং ফায়ারফক্স উভয়ের জন্য এই অ্যাডন রয়েছে যা বেশ ভালভাবে কাজ করে: পিডিএফমেজ

  • পৃষ্ঠাতে সমস্ত চিত্র সংরক্ষণ করুন
  • চিত্র হিসাবে নয় পাঠ্য হিসাবে পাঠ্য উত্পন্ন করুন, আপনি উত্পন্ন পিডিএফ পাঠ্য সন্ধান করতে পারেন।
  • হাইপারলিঙ্কগুলি সংরক্ষণ করুন
  • একটি পৃষ্ঠার পিডিএফ হিসাবে একটি দীর্ঘ ওয়েবপৃষ্ঠা সংরক্ষণ করার বিকল্প রয়েছে (যাতে চিত্রগুলি পৃষ্ঠাগুলির মধ্যে বিভক্ত হয় না)

2

আমি সত্যিই এটির সাথে লড়াই করেছি এবং এখনও পর্যন্ত উল্লিখিত বেশিরভাগ সরঞ্জামগুলির চেষ্টা করেছি। আমি যে সর্বোত্তম ফলাফল পেয়েছি তা হ'ল ক্রোমের হেডলেস মোড ব্যবহার করা। MacOS- এ কমান্ডটি দেখতে এই রকম হবে:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

আমি দেখেছি কমাণ্ড লাইন অপশন সম্বন্ধে সেরা তালিকা ছিল এখানে

তবে তাতে সমস্যা ছিল। বিশেষত আমার পৃষ্ঠাগুলি খুব জাভাস্ক্রিপ্ট ভারী এবং আমি মুদ্রণ ফাংশনটি তাদের সম্পাদন শেষ করার জন্য অপেক্ষা করতে পারি না। সুতরাং আমার আউটপুট এটিতে ইমেজ ছিল না।

সমাধান আমি পাওয়া nodeJS প্যাকেজ ছিল: chrome-headless-render-pdf। এটা তোলে এর অপ্রচুর ডকুমেন্টেশন এখানে । এটি কাজ করে এবং এটি সহজে স্ক্রিপ্টযোগ্য।


2

আমারও একই সমস্যা ছিল এবং এটি Chrome এর মাধ্যমে এবং পিডিএফ 995 নামে একটি নিখরচায় প্রিন্টার ড্রাইভারের সাথে খুঁজে পেয়েছি। এটি পিডিএফ ইউটিলিটির একটি স্যুট অংশ; প্রকাশকের ওয়েব সাইটটি হল http://www.pdf995.com/

তবে আমি মনে করি যে কোনও ওয়েব ব্রাউজার এবং যে কোনও পিডিএফ রূপান্তরকারী যথেষ্ট হবে। যাইহোক, আমি যা করেছি তা এখানে:

  1. সমস্ত নির্বাচন করুন বা সবকিছু হাইলাইট করুন।
  2. হাইলাইট করা নির্বাচনটি ডান ক্লিক করুন বা Ctrl + P টিপুন (উভয় বিকল্পই আপনাকে কিছুটা পৃথক ফলাফল দেয়, তবে আপনি সমাপ্তির পরে একই ফলাফলটি দিয়ে শেষ করেন)।

  3. আপনি যদি ২ তে ডান ক্লিক করেন, নির্বাচন (শর্ট-কাট), "মুদ্রণ" ক্লিক করুন এবং আপনি যা কিছু বাছাই করেছেন তা কেবল মুদ্রণ পূর্বরূপে থাকবে। আপনি যে পিডিএফ রূপান্তরকারী (পিডিএফ 995 বা অন্যান্য) ব্যবহার করার সিদ্ধান্ত নিয়েছেন তাতে আপনার মুদ্রকটির গন্তব্য পরিবর্তন করেছেন তা নিশ্চিত করুন।

  4. "মুদ্রণ" এ ক্লিক করুন এবং এটি পিডিএফ ডকুমেন্ট হিসাবে সংরক্ষণ করে।

  5. আপনি যদি পরিবর্তে Ctrl + P টিপেন (পরিবর্তে কিছুটা দীর্ঘতর পথ), "আরও সেটিংস" এ ক্লিক করুন এবং "বিকল্পগুলি" এ স্ক্রোল করুন।

  6. "কেবলমাত্র নির্বাচন" বলার বাক্সটি ক্লিক করুন এবং আমি বর্ণিত শর্ট-কাটের সমস্ত কিছুই অনুসরণ করবে।

  7. আপনি যে কোনও পিডিএফ রূপান্তরকারী নির্বাচন করুন (পিডিএফ 995 বা অন্যান্য) আপনার মুদ্রক গন্তব্যটি পরিবর্তন করতে ভুলবেন না।

  8. "মুদ্রণ" ক্লিক করুন।


1

যদি আপনি লিনাক্সে থাকেন তবে এই ছোট কমান্ড লাইন সরঞ্জাম কিউটি ক্যাপ্যাপ ব্যবহার করুন , যা কেবল কিউটি এবং কিউটওয়েবকিটের উপর নির্ভর করে এবং পিডিএফ-তে রফতানি করে।


0

যদিও পিডিএফ-তে আপনার অনুরোধটি ঠিক তেমন না, যদিও উদ্দেশ্যটি যদি বিশুদ্ধরূপে পরবর্তী পর্যালোচনার জন্য ওয়েবপৃষ্ঠাগুলির একটি অফলাইন অনুলিপি রাখা থাকে, তবে ওয়েবপৃষ্ঠা হিসাবে এটি সংরক্ষণ করা ঠিক তা করবে।

বড় সতর্কতাটি হ'ল এটি একটি ডকুমেন্টের চেয়ে পৃষ্ঠায় সমস্ত মিডিয়া সামগ্রী সহ একটি html ফাইল এবং একটি ফোল্ডার তৈরি করবে।

ক্রোম এবং ফায়ারফক্সে আপনি একটি পৃষ্ঠায় ডান ক্লিক করে সংরক্ষণ করতে পারেন এবং সেভ করুন ... ইন্টারনেট এক্সপ্লোরার এ আপনি ফাইল -> সেভ হিসাবে (মেনুগুলি প্রদর্শিত হওয়ার জন্য আল্ট কী টিপতে) এর অধীনে সংরক্ষণ করতে পারেন।


.Html ফর্ম্যাটে ওয়েবপৃষ্ঠা সংরক্ষণ করা এটিকে অ-টিকাশযোগ্য করে তুলবে। সুতরাং, আমার এটি পিডিএফ ফর্ম্যাটে দরকার।
ওমর

এটা একটা ভাল দিক! কেবলমাত্র এমন একটি এক্সটেনশনের কথা মনে পড়ে যা আপনাকে সহজেই মুদ্রণ-সম্পর্কিত স্টাইলশিটগুলি অক্ষম করতে দেয়। একটি দ্রুত গুগল অনুসন্ধান আমাকে আলোচনার দিকে নিয়ে যায় যখন আমি প্রথম শুনেছিলাম সুপারভাইজারে
পাইহেম

আমি ক্রোম ব্যবহার করে "সেভ এস" করার চেষ্টা করেছি। এটি একটি .HTML ফাইল এবং একটি ফোল্ডার তৈরি করে। .HTLM ফাইলটি পৃষ্ঠাটি থেকে পুরো অনেকগুলি জিনিস অনুপস্থিত ছিল।
শার্লকস্প্রেডশীট

0

এই পরিষেবা চেষ্টা করুন। আপনি কোনও ওয়েবসাইট ব্রাউজারে দেখলেই পিডিএফ তৈরি করে। https://lomotoh.com/ (আমি এই সাইটের সাথে যুক্ত)


এটি লিঙ্কগুলি সংরক্ষণ করে, তবে নির্বাচনযোগ্য পাঠ্য নয়, যা প্রশ্নে প্রয়োজনীয়।
ফিক্সার 1234

কিছু সাইটের জন্য নির্বাচনযোগ্য বলে মনে হচ্ছে। আমি মনে করি এটি নির্ভর করে যে সাইটটি কোন ধরণের কাস্টম ফন্ট ব্যবহার করে।
ডেভিড হার্স

0

কিছু পৃষ্ঠার সর্বনিম্ন সমস্ত পাঠ্য অনুসন্ধানযোগ্য, নির্বাচনযোগ্য, কাটা এবং পকেটযোগ্য। আমি পাঠ্য এবং পিক্সের বাইরে থাকা কম্পিউটারের মাধ্যমে রোবোটিক্যালি পোস্ট করা একটি পৃষ্ঠায় চেষ্টা করেছি এবং এটি সমস্ত কিছু একটি চিত্রে সুর দিয়েছি।

আমি বছরের পর বছর ধরে এই জিনিসগুলি ব্যবহার করে আসছি। আমি লিনাক্সে আপনার পছন্দসই এক্সএক্স শব্দে পৃষ্ঠাটি পুনর্নির্মাণ করে ফলাফলটি পিডিএফ হিসাবে এক্সপোর্ট করে সেরা ফলাফল পেয়েছি। আমি যা চাই তা আমি যথেষ্ট পরিমাণে পেতে পারি। আমার সীমিত ব্যবহারের খিলান সাইটে ivin থেকে ডেভিড Herse আপ করা https://lomotoh.com/ (আমি না এই সাইটের সাথে সম্বন্ধযুক্ত) কোন আমি কখনও ব্যবহার করেছি যত ভাল কাজ করে। আমি আরও ভাল না পাওয়া পর্যন্ত পিডিএফগুলিতে ওয়েবপৃষ্ঠাগুলি কভার করার জন্য আমার সংস্থান হিসাবে যাব বা আমার নিজের পাতলা পার্সটি পরিশোধ করতে আমার পক্ষে খুব বেশি খরচ হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.