ডিরেক্টরি ডাউনলোড করতে সিআরএল


38

আমি সিআরএল ব্যবহার করে একটি সম্পূর্ণ ওয়েবসাইট ডিরেক্টরি ডাউনলোড করার চেষ্টা করছি। নিম্নলিখিত কমান্ড কাজ করে না:

curl -LO http://example.com/

এটা তোলে একটি ত্রুটি ফেরৎ: curl: Remote file name has no length!

তবে আমি যখন এটি করি: curl -LO http://example.com/someFile.typeএটি কার্যকর হয়। নির্দিষ্ট ডিরেক্টরিতে সমস্ত ফাইল ডাউনলোড করার কোনও ধারণা? ধন্যবাদ।

উত্তর:


33

সর্বদা আমার জন্য কাজ করে, কোনও পছন্দসই তালিকা পাওয়ার জন্য কোনও পিতামাতা এবং পুনরাবৃত্তিকে অন্তর্ভুক্ত করে না।

 wget --no-parent -r http://WEBSITE.com/DIRECTORY

1
এটি গ্রহণযোগ্য উত্তর হওয়া উচিত।
হুয়ান জিমেনিজ

গিট থেকে কোনও ফোল্ডার ডাউনলোড করার চেষ্টা করা হচ্ছে। আমি চেষ্টা করেছি wget --no-parent -r http://WEBSITE.com/DIRECTORYএবং ছাড়াও --no-parent- কাজ হয়নি।
স্যাম-টি

32

HTTP- র ডিরেক্টরিগুলির সত্যই ধারণা নেই। প্রথম তিন ( http://example.com/) বাদে স্ল্যাশগুলির ..আপেক্ষিক ইউআরএলগুলি সম্পর্কিত কোনও বিশেষ অর্থ নেই । সুতরাং সার্ভারটি যদি কোনও নির্দিষ্ট বিন্যাস অনুসরণ না করে তবে "নির্দিষ্ট ডিরেক্টরিতে সমস্ত ফাইল ডাউনলোড করার" উপায় নেই।

আপনি যদি পুরো সাইটটি ডাউনলোড করতে চান তবে আপনার সেরা বেটটি মূল পৃষ্ঠায় থাকা সমস্ত লিঙ্ককে পুনরাবৃত্তভাবে অতিক্রম করতে হবে। কার্ল এটি করতে পারে না, তবে উইজেট পারে। ওয়েবসাইটটি খুব গতিশীল না হলে এটি কাজ করবে (বিশেষত, উইজেট জাভাস্ক্রিপ্ট কোড দ্বারা নির্মিত লিঙ্কগুলি দেখতে পাবে না)। wget -r http://example.com/আরও প্রাসঙ্গিক বিকল্পগুলির (পুনরাবৃত্তির গভীরতা, বর্জন তালিকা, ইত্যাদি) জন্য উইজেট ম্যানুয়ালিয়ায় শুরু করুন এবং "পুনরাবৃত্তির পুনরুদ্ধার বিকল্পগুলি" এবং "পুনরাবৃত্তি গ্রহণ / প্রত্যাখ্যান বিকল্পগুলি" এর নীচে দেখুন।

যদি ওয়েবসাইটটি স্বয়ংক্রিয় ডাউনলোডগুলি ব্লক করার চেষ্টা করে তবে আপনার ব্যবহারকারীর এজেন্ট স্ট্রিং ( -U Mozilla) পরিবর্তন করতে হবে এবং উপেক্ষা করতে হবে robots.txt(একটি খালি ফাইল তৈরি করুন example.com/robots.txtএবং -ncবিকল্পটি ব্যবহার করুন যাতে উইজেট এটি সার্ভার থেকে ডাউনলোড করার চেষ্টা না করে)।


কীভাবে উইজেট এটি করতে সক্ষম। ??
শ্রীকান

@ শ্রীকান উইজেট এইচটিএমএলকে যে লিঙ্কগুলি অন্তর্ভুক্ত রয়েছে তা অনুসন্ধান করার জন্য এবং এই লিঙ্কগুলি পুনরাবৃত্তভাবে ডাউনলোড (একটি নির্বাচন) অনুসন্ধান করার জন্য এইচটিএমএলকে বিশ্লেষণ করে।
গিলস 'অসন্তুষ্ট হওয়া বন্ধ করুন'

যদি ফাইলগুলির কোনও অভ্যন্তরীণ লিঙ্ক না থাকে তবে পুনরাবৃত্ত ডাউনলোডগুলি সমস্ত ফাইল পেতে ব্যর্থ হয়। বলুন এখানে কিছু txt ফাইলের একটি HTTP ফোল্ডার রয়েছে। উইজেট সমস্ত ফাইল পেতে সফল হবে। আমাকে এই মন্তব্যের পরে চেষ্টা করে দেখি
শ্রীকান

@ শ্রীকান এইচটিটিপি ডিরেক্টরিতে কোন ধারণা নেই। রিকার্সিভ ডাউনলোডের অর্থ ওয়েব পৃষ্ঠাগুলিতে নিম্নলিখিত লিঙ্কগুলি অন্তর্ভুক্ত রয়েছে ( ওয়েব সার্ভার এটি করে যদি একটি ডিরেক্টরি তালিকা দেখানোর জন্য সার্ভার দ্বারা উত্পন্ন ওয়েব পৃষ্ঠাগুলি সহ )।
গিলস 'অসন্তুষ্ট হওয়া বন্ধ করুন'

উইজেট পতাকা সহ রোবটস.টেক্সটকে উপেক্ষা করে সমর্থন করে -e robots=off। বিকল্পভাবে আপনি এটিকে প্রত্যাখ্যান করে এটি ডাউনলোড করা এড়াতে পারেন -R "robots.txt"
রায়ান ক্রেজ

17

এই ক্ষেত্রে, curlসেরা সরঞ্জাম নয়। আপনি যুক্তি wgetদিয়ে এটি ব্যবহার করতে পারেন -r:

wget -r http://example.com/ 

এটি সর্বাধিক প্রাথমিক ফর্ম এবং আপনি অতিরিক্ত যুক্তিও ব্যবহার করতে পারেন। আরও তথ্যের জন্য, manpage( man wget) দেখুন।


5

এটি সম্ভব নয়। ওয়েব সার্ভারের আপনাকে কোনও ডিরেক্টরিের সামগ্রী আপনাকে ফেরত দেওয়ার জন্য কোনও মানক, সাধারণত প্রয়োগ করা হয় না। বেশিরভাগ সার্ভারগুলি যদি এটির জন্য কনফিগার করা থাকে তবে কোনও ডিরেক্টরিতে একটি এইচটিএমএল সূচক উত্পন্ন করে তবে এই আউটপুটটি আদর্শ নয়, কোনও উপায় দ্বারা গ্যারান্টিযুক্ত নয়। আপনি এই এইচটিএমএলকে বিশ্লেষণ করতে পারেন, তবে মনে রাখবেন যে ফর্ম্যাটটি সার্ভার থেকে সার্ভারে পরিবর্তিত হবে এবং সর্বদা সক্ষম হবে না।


সাইট सक्কার নামে পরিচিত এই অ্যাপটি দেখুন। সাইটউকার.ইস । তারা এটা কিভাবে করল?
ফু

তারা এইচটিএমএল ফাইলটি বিশ্লেষণ করে এবং এর প্রতিটি লিঙ্ক ডাউনলোড করে।
ব্র্যাড

ব্যবহার করছেন wgetনাকি curl?
ফু

7
@ ব্র্যাড: কার্ল এইচটিএমএলকে বিশ্লেষণ করে না, তবে উইজেট অবশ্যই এটি করেন (এটিকে পুনরাবৃত্তির পুনরুদ্ধার বলা হয়)।
গিলস 'অশুভ হওয়া বন্ধ করুন'

1
আহ, আচ্ছা আমি সংশোধন! gnu.org/software/wget/manual/html_node/… ওপিতে সচেতন হওয়া উচিত যে তিনি এখনও যা খুঁজছেন তা এটি পায় না ... এটি কেবল ফিরে আসা পৃষ্ঠাগুলিতে উপলভ্য লিঙ্কগুলি অনুসরণ করে।
ব্র্যাড

2

আপনি ফায়ারফক্স এক্সটেনশন ডাউনথেম সব ব্যবহার করতে পারেন! এটি আপনাকে একটি ক্লিকের মধ্যে একটি ডিরেক্টরিতে সমস্ত ফাইল ডাউনলোড করতে দেয়। এটি কাস্টমাইজযোগ্য এবং আপনি কী ফাইল ডাউনলোড করতে হবে তা নির্দিষ্ট করতে পারেন। এটি আমার সর্বাধিক সহজ উপায়।


0

আপনি এখানে কোনও ওয়েবসাইট রিপারের জন্য ব্যবহার সন্ধান করতে পারেন, এটি সমস্ত কিছু ডাউনলোড করবে এবং স্থানীয় ব্যবহারের জন্য সামগ্রী / অভ্যন্তরীণ লিঙ্কগুলি সংশোধন করবে। এখানে একটি ভাল পাওয়া যাবে: http://www.httrack.com

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.