ডাউনলোড সময় (এবং সেইজন্য ব্যান্ডউইথ ব্যবহার) আপনার সীমিত ফ্যাক্টর এই ধারণাটি নিয়ে কাজ করা, আমি নিম্নলিখিত পরামর্শগুলি করব:
প্রথমত, m1.lages উদাহরণগুলি চয়ন করুন। আই / ও পারফরম্যান্সের তিনটি 'স্তরের' (যার মধ্যে ব্যান্ডউইদথ অন্তর্ভুক্ত), এর মধ্যে এম 1.লাজ এবং এম 1 এক্সলার্স উভয়ই 'হাই' আই / ও পারফরম্যান্স সরবরাহ করে। যেহেতু আপনার কাজটি সিপিইউ বাউন্ডেড নয়, সেগুলির মধ্যে সর্বনিম্ন ব্যয় করা পছন্দনীয় পছন্দ হবে।
দ্বিতীয়ত, আপনার উদাহরণটি কোনও সাইট পৃষ্ঠা সরবরাহ করতে পারে তার চেয়ে অনেক বেশি দ্রুত ডাউনলোড করতে সক্ষম হবে - নির্দিষ্ট উদাহরণে একসাথে একটি পৃষ্ঠা ডাউনলোড করবেন না, একই সাথে টাস্কটি পরিচালনা করুন - আপনি কমপক্ষে 20 পৃষ্ঠা একসাথে করতে সক্ষম হবেন (যদিও , আমি অনুমান করব যে আপনি সম্ভবত অসুবিধা ছাড়াই 50-100 করতে পারেন)। (আপনার মন্তব্য থেকে কোনও ফোরাম থেকে ডাউনলোডের উদাহরণটি ধরুন - এটি একটি গতিশীল পৃষ্ঠা যা সার্ভারটি উত্পন্ন করতে সময় নিতে চলেছে - এবং সেই সাইটগুলি ব্যান্ডউইথ ইত্যাদি ব্যবহারকারী অন্যান্য ব্যবহারকারী রয়েছে)। আপনি উদাহরণস্বরূপ ব্যান্ডউইথের সীমা অতিক্রম না করা অবধি সামঞ্জস্য বাড়িয়ে চালিয়ে যান। (অবশ্যই, একই সাইটে একসাথে একাধিক অনুরোধ করবেন না)।
আপনি যদি সত্যিকার অর্থেই পারফরম্যান্স সর্বাধিকতর করার চেষ্টা করছেন, আপনি ভৌগলিকভাবে উপযুক্ত অঞ্চলগুলিতে বিলম্বিতা হ্রাস করার জন্য উদাহরণগুলি চালু করার বিষয়টি বিবেচনা করতে পারেন (তবে এটির জন্য আপনার সমস্ত ইউআরএল ভূ-স্থান নির্ধারণের প্রয়োজন হবে, যা ব্যবহারিক নাও হতে পারে)।
একটি বিষয় লক্ষণীয় হ'ল দৃষ্টান্ত ব্যান্ডউইদথ পরিবর্তনশীল, অনেক সময় আপনি উচ্চতর পারফরম্যান্স পাবেন এবং অন্য সময়ে আপনি কম কর্মক্ষমতা পাবেন। ছোট উদাহরণগুলিতে, পারফরম্যান্সের প্রকরণটি আরও তাত্পর্যপূর্ণ কারণ শারীরিক লিঙ্কগুলি আরও সার্ভারের দ্বারা ভাগ করা হয় এবং এর যে কোনও একটি আপনার উপলব্ধ ব্যান্ডউইথকে হ্রাস করতে পারে। M1.large উদাহরণগুলির মধ্যে, ইসি 2 নেটওয়ার্কের মধ্যে (একই প্রাপ্যতা অঞ্চল), আপনাকে তাত্ত্বিক গিগাবিট থ্রুপুটের কাছে আসা উচিত।
সাধারণভাবে, এডাব্লুএস এর সাথে, একাধিক ছোট উদাহরণগুলির বিপরীতে বৃহত্তর উদাহরণ সহকারে চলে যাওয়া প্রায় সবসময়ই কার্যকর (যদি আপনি বিশেষত ফেইলওভার ইত্যাদির দিকে নজর না দিয়ে থাকেন যেখানে আপনার একাধিক উদাহরণ প্রয়োজন)।
আমি জানি না যে আপনার সেটআপটি কী প্রবেশ করায়, তবে আমি এর আগে যখন চেষ্টা করেছি (1 থেকে 2 মিলিয়ন লিঙ্কের মধ্যে, পর্যায়ক্রমে আপডেট করা হয়েছিল), তখন আমার দৃষ্টিভঙ্গি ছিল লিঙ্কগুলির সন্ধান করার সাথে সাথে নতুন লিঙ্কগুলি যুক্ত করার একটি ডাটাবেস বজায় রাখা এবং প্রক্রিয়াগুলি গঠন করা পৃষ্ঠাগুলি স্ক্র্যাপ এবং পার্স করতে। একটি ইউআরএল পুনরুদ্ধার করা হবে (এলোমেলোভাবে) এবং ডাটাবেসে অগ্রগতি হিসাবে চিহ্নিত করা হয়েছে, স্ক্রিপ্টটি পৃষ্ঠাটি ডাউনলোড করবে এবং যদি সফল হয়, তবে ডাটাবেসে ডাউনলোড করা ইউআরএল চিহ্নিত করে এবং পৃষ্ঠাটিকে বিশ্লেষণকারী লিপিটি অন্য লিঙ্কে প্রেরণ করবে, নতুন লিঙ্কগুলি তারা পাওয়া গেছে হিসাবে ডাটাবেস যোগ করা হয়েছে। এখানে ডাটাবেসের সুবিধা ছিল কেন্দ্রিয়করণ - একাধিক স্ক্রিপ্ট একই সাথে ডাটাবেসকে জিজ্ঞাসা করতে পারে এবং (যতক্ষণ না লেনদেন পারমাণবিক ছিল) একজনকে নিশ্চিত করা যেতে পারে যে প্রতিটি পৃষ্ঠা কেবল একবারই ডাউনলোড হবে।
কয়েকটি অতিরিক্ত উল্লেখের বিষয় - আপনি একবারে চলতে পারেন এমন অন-চাহিদা সংস্থাগুলির সীমা রয়েছে (আমি বিশ্বাস করি 20) - আপনি যদি এই সীমা অতিক্রম করতে চান তবে আপনার অ্যাকাউন্টটি বাড়ানোর জন্য আপনাকে AWS কে অনুরোধ করতে হবে সীমা। আপনার জন্য স্পট দৃষ্টান্ত চালানো এবং স্পটের দাম কম হলে আপনার সংখ্যাগুলি বাড়িয়ে তোলার জন্য এটি অনেক বেশি অর্থনৈতিক হবে ((সমস্ত কিছু গুছিয়ে রাখার জন্য অন-ডিমান্ড উদাহরণ হতে পারে, এবং অবশিষ্ট, স্পট উদাহরণ)।
যদি সময়টি আপনার চেয়ে ব্যয়ের চেয়ে উচ্চ অগ্রাধিকারের হয় তবে ক্লাস্টার গণনা উদাহরণগুলি 10 জিবিপিএস ব্যান্ডউইদথ দেয় - এবং এটি ডাউনলোডের জন্য সেরা ব্যান্ডউইথ পাওয়া উচিত yield
পুনরুদ্ধার করুন: কয়েকটি বড় উদাহরণের চেষ্টা করুন (অনেকগুলি ছোট ছোট উদাহরণের পরিবর্তে) এবং প্রতিটি উদাহরণে একাধিক একযোগে ডাউনলোডগুলি চালনা করুন - আপনি নিজেকে ব্যান্ডউইথ সীমাবদ্ধ বলে মনে করেন যদি আরও নিজেকে সিপিইউ / মেমরির সীমাবদ্ধ মনে হয় তবে আরও বড় উদাহরণগুলিতে যান।