মূলত, বিশাল ডেটাসেটের বিরুদ্ধে শেখার দুটি সাধারণ উপায় রয়েছে (যখন আপনি সময় / স্থানের বিধিনিষেধের মুখোমুখি হন):
- প্রতারণা :) - প্রশিক্ষণের জন্য কেবলমাত্র "পরিচালনযোগ্য" সাবসেট ব্যবহার করুন। হ্রাসকারী রিটার্নের আইনের কারণে নির্ভুলতার ক্ষতি নগণ্য হতে পারে - সমস্ত প্রশিক্ষণের ডেটা এতে অন্তর্ভুক্ত করার আগে মডেলের ভবিষ্যদ্বাণীপূর্ণ অভিনয় প্রায়শই দীর্ঘ হয়ে যায়।
- সমান্তরাল কম্পিউটিং - সমস্যাটিকে ছোট ছোট ভাগে ভাগ করুন এবং প্রতিটিকে আলাদা মেশিন / প্রসেসরের মাধ্যমে সমাধান করুন। আপনার যদিও অ্যালগরিদমের সমান্তরাল সংস্করণ দরকার তবে ভাল খবরটি হ'ল প্রচলিত অ্যালগোরিদমগুলি স্বাভাবিকভাবেই সমান্তরাল: নিকটতম-প্রতিবেশী, সিদ্ধান্তের গাছ ইত্যাদি are
অন্য পদ্ধতি আছে? প্রতিটি ব্যবহার করার সময় থাম্বের কোনও নিয়ম আছে? প্রতিটি পদ্ধতির ত্রুটিগুলি কী কী?