গুটেনবার্গ থেকে সমস্ত ইংরেজী বই কীভাবে ডাউনলোড করবেন?


23

আমার সমস্ত গুটেনবার্গ ইবুকগুলি ডাউনলোড করতে হবে, সরল পাঠ্য বিন্যাসে (এইচটিএমএল নয়) এবং কেবল ইংরেজী ভাষায়।

গুটেনবার্গ সার্ভার থেকে সেগুলি কীভাবে ডাউনলোড করবেন সে সম্পর্কে কারও কাছে পরামর্শ রয়েছে?

ভাষাগত গবেষণা করা আমার তাদের দরকার।

উত্তর:


32

আমাদের পৃষ্ঠাগুলিতে রোবট অ্যাক্সেস সম্পর্কে তথ্য অনুসারে :

আমাদের সাইটে রোবট অ্যাক্সেসটি সর্বশেষ সংস্থান হিসাবে ছেড়ে দেওয়া উচিত, যখন সমস্ত কিছু ব্যর্থ হয়ে যায়। এছাড়াও, মনে রাখবেন যে প্রকল্প গুটেনবার্গের ওয়েবসাইটটি কপিরাইটযুক্ত।

তবে, আশা আছে :

আরও ভাল বিকল্প

  • প্রকল্প গুটেনবার্গ ওয়েব সাইটের একটি অফলাইন সংস্করণ পান।
  • সমস্ত প্রকল্প গুটেনবার্গ ইবুক ফাইল পান।
  • প্রকল্প গুটেনবার্গ ক্যাটালগ ডেটা পান।

এবং:

[...] আপনি আমাদের রোবটটি http://www.gutenberg.org/robot/harvest এ দেখিয়ে জিপ করা ফাইলগুলিতে আমাদের সমস্ত ই-বুকগুলি পেতে পারেন

[...] জিপ ফাইলগুলি আনপ্যাক করা হলে আরও 70,000 ফাইল তৈরি হবে।

এটি ব্যবহার করে সমস্ত ফাইল কীভাবে পাওয়া যায় তার একটি উদাহরণ wget:

wget -w 2 -m http://www.gutenberg.org/robot/harvest

[...] আপনি যদি কিছু ধরণের ফাইল চান তবে বলুন:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt

[...] আপনি যদি কোনও নির্দিষ্ট ভাষায় কেবল ফাইল চান তবে বলুন:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

সুতরাং, আমি অনুমান করব:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

ক্রল করার সময় এটি ডাউনলোড করা ফাইলগুলির সীমাবদ্ধ করার জন্য উইজেটকে বলার কোনও উপায় নেই (উদাহরণস্বরূপ, প্রথম 100 টি ফাইলের মুখোমুখি এটি হয়)?
রোহানব্বক

এছাড়াও, যখন আমাদের কাছে কোনও পাঠ্য ফাইলে বেশ কয়েকটি লিঙ্ক থাকে (পরম ইউরি, " gutenberg.org/files/1.zip , gutenberg.org/files/2.zip " বলুন, এই জাতীয় পাঠ্য ফাইল সরবরাহ করার জন্য কী পরামিতি ব্যবহার করা হয়?
ডাব্লুজিইটি-র

@rohanbk, আপনি দেখতে পারেন URL- এ নিজেই ব্রাউজিং মত কি ডাউনলোড করা হবে gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en এই শো এটি আসলে পত্রাঙ্কিততে, কিন্তু প্রতি পাতায় ফাইলের সংখ্যা ধ্রুবক নয় । (সম্ভবত আকারের উপর ভিত্তি করে?) সুতরাং, পুনরাবৃত্তি না করার জন্য , উইজেট ম্যানুয়াল অনুসারে , আপনি চেষ্টা করতে পারেন --level=0। তবে আমি অনুমান করি যে আপনি ভালভাবে বাতিল এবং পুনরায় চালু করার মঞ্জুরি দিয়েছেন: চেষ্টা করুন --level 9999 --no-clobber, যা আপনার ইতিমধ্যে থাকা ফাইলগুলি এড়িয়ে যাবে (ধরে নিবেন আপনি এখনও ডিস্কের একই ফোল্ডারে রয়েছেন)।
আরজান


@ আরজান ডাউনলোডের শুরুতে অফসেট নির্দিষ্ট করার কোনও উপায় আছে? আমার ডাউনলোডগুলি কিছু কারণে বাধা পেয়েছে এবং এখন উইজেট প্রথম পৃষ্ঠা থেকে ফাইলগুলি পরীক্ষা করা শুরু করেছে। আমি -cবিকল্প ব্যবহার করেছি , কিন্তু এখনও। আমি offset=xxxমিরর করার জন্য ইউআরএল দিয়েছি তবে এটি প্রথম পৃষ্ঠা থেকে ডাউনলোড হচ্ছে।
ব্যবহারকারী 13107

7

আপনি একক জেআইএম ফাইলে ইংরেজি বই এবং অন্যান্য ভাষার সম্পূর্ণ গুটেনবার্গ সংগ্রহটি ডাউনলোড করতে পারেন , যা অত্যন্ত সংকুচিত এবং পরে ডেস্কটপ এবং অ্যান্ড্রয়েড উভয় জায়গায় কিউইক্সের সাহায্যে খোলা যেতে পারে । ইংরেজি বই 40 গিগাবাইট।


কিউইক্সের জন্য কোনও লিনাক্স ক্লায়েন্ট নেই
অ্যাকাগ্রেমলিন

@ একাগ্রেমলিন উহ? kiwix.org/wiki/Software#GNU.2FLinux এটি এমনকি কিছু ডিস্ট্রোজে প্যাকেজড।
নিমো

2
দুঃখিত। কোনও ঘুম নেই এবং বড় বোতামের নীচে 'অন্যান্য সিস্টেমগুলি' দেখেনি।
অ্যাকাগ্রেমলিন

এই txt ফর্ম্যাট বই?
এডি

@ এডি আমি নিশ্চিত আপনি কি বলতে চাইছেন না। এটি HTML- এ টেক্সট + চিত্রসমূহ, EPUB বা অন্যটির চেয়ে জিম প্যাকেজড। আপনি চাইলে এটি থেকে সরল পাঠ্য সংগ্রহ করতে পারেন তবে আমার উত্তরটি বেশিরভাগ লোকদের জন্য যারা ফর্ম্যাট করা বই ইত্যাদি পছন্দ করেন
Nemo

6

নির্বাচিত উত্তর সঠিক হলেও এটি সম্ভাব্য দুটি সমস্যা সৃষ্টি করবে:

  1. আপনি বট হিসাবে ডাউনলোড করছেন এমন অনুমানের অধীনে পৃষ্ঠাগুলিটির অ্যাক্সেস অস্বীকার করতে আপনি 403 ত্রুটি পেতে পারেন
  2. আপনাকে কোনও বাহ্যিক আয়নাতে প্রেরণ করা হবে এমন সম্ভাবনা রয়েছে যার অর্থ হ'ল wgetআদেশটি ব্যর্থ হবে এটি একটি বাহ্যিক আয়না থেকে ফাইলগুলি ডাউনলোড করার ক্ষেত্রে পুনরাবৃত্ত চেক করবে।

নীচের সমাধানগুলি এই সমস্যার সমাধান করে:

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

আপনি কিছুটা এলোমেলো সরবরাহের জন্য রেফারার এবং ব্যবহারকারী-এজেন্ট স্ট্রিংগুলি পরিবর্তন করতে পারেন।


5

ftp://mirferences.pglaf.org/mirferences/gutenberg-iso এর বেশ কয়েকটি ভাল বিকল্প রয়েছে।

ftp://mirferences.pglaf.org/mirferences/gutenberg-iso/pgdvd042010.iso একটি 8 জিবি ফাইল যা আপনার প্রয়োজনের জন্য পর্যাপ্ত হওয়া উচিত।

এখানে আরও তথ্য রয়েছে:

https://www.gutenberg.org/wiki/ গুটেনবার্গ: এই_সিডি_আর_ডিভিডি_প্রজেক্ট # ডাউনলোডিং_ভিয়া_এফটিপি, এটি এফটিপি এবং বিটরেন্ট সহ আর্কাইভ ডাউনলোডের সমস্ত বিকল্প দেয়।


1
আমি একটি টরেন্টকে আরও নৈতিক বিকল্প হিসাবে ব্যবহার করার পরামর্শ দিচ্ছি (তৃতীয় লিঙ্কটির একই পৃষ্ঠায়): গুটেনবার্গ.অর্গ / উইকি /… এটি আরও নৈতিক কারণ এটি প্রকল্প গুটেনবার্গের সার্ভারগুলিকে কম চাপ দেয়। এটি সম্ভবত দ্রুত এবং আরও কার্যকর। এছাড়াও, তারা এটি এফটিপিপি দিয়ে সুপারিশ করে। আপনি যদি লিনাক্স ব্যবহার করেন, তবে ট্রান্সমিশনটি উদ্দেশ্যটির জন্য একটি ভাল বিট টরেন্ট ক্লায়েন্ট। এটি কেবল আপনাকে 2010 সালে সাইটে থাকা বইগুলি দেবে, তবে শ্যাওহর্স্টের উত্তর কার্যকর না হলে এটি সবচেয়ে ভাল বিকল্প বলে মনে হয়।
শুলে

3

আরেকটি বিকল্প হ'ল http://pgiso.pglaf.org/ এ দুর্দান্ত সরঞ্জাম ।

  1. একটি আইডি পরিসীমা প্রবেশ করান (উদাঃ 1-10000)
  2. পছন্দসই ফাইল প্রকার নির্বাচন করুন
  3. আপনি যে ভাষাগুলি অন্তর্ভুক্ত করতে চান তা চয়ন করুন
  4. বিজ্ঞপ্তির জন্য অপেক্ষা করুন
  5. ডাউনলোড

2
আমার পক্ষে কাজ করছে না, আমি কেবল কাঁচা পিএইচপি দেখতে পাচ্ছি
আর্নেস্ট

-4

আপনার সমস্ত অতি-জটিল এবং উপরের প্রোগ্রামিং দক্ষতা এবং জ্ঞানকে কেন এমন সাধারণ বোতাম তৈরি করতে ব্যবহার করবেন না যা এই সমস্ত ক্রিয়াকে লিঙ্ক করে এবং "সমস্ত বর্তমান বই ডাউনলোড করুন" - যখন আপনি এটি ক্লিক করেন তখন একটি ভাষা বিকল্প ট্যাব দিয়ে থাকে।

আমি নিশ্চিত যে সাইটে ব্যবহারকারীরা বেশিরভাগই ই-বুক সংগ্রহকারী এবং তাদের আগ্রহী বিষয়গুলিতে নির্দিষ্ট বইগুলি ম্যানুয়াল ডাউনলোড করা 1 বা 2 টি বইয়ের জন্য ঠিক আছে। তবে ম্যানুয়ালি একটি বড় সংগ্রহ করা টানুন। তবুও যদি তাদের গবেষণার জন্য এটি প্রয়োজন হয় বা কেবল তাদের নিজস্ব পিসিতে বইয়ের একটি বিশাল ডিজিটাল লাইব্রেরির মালিকানা চান। বেশিরভাগ লোকেরা এই ওয়েবসাইটটি বন্ধ করে দেয় এবং এগুলি ছড়িয়ে ছিটিয়ে থাকে যখন তারা বুঝতে পারে যে এটি করার জন্য তাদের একটি কম্পিউটার উইজার্ড হতে হবে o সুতরাং "সমস্ত বর্তমান বই ডাউনলোড করুন" বোতামটি প্রকল্প এবং এর ব্যবহারকারীদের উপকার করবে এবং এটি অবশ্যই তৈরি করবে এমনকি আরও দর্শক। সুতরাং যে ভাবে সবাই খুশি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.