মনে করুন আপনি প্রতিদিন কোটি কোটি পর্যবেক্ষণের ভিত্তিতে একটি বিশাল ডেটা সেট বিশ্লেষণ করছেন, যেখানে প্রতিটি পর্যবেক্ষণে কয়েক হাজার বিচ্ছিন্ন এবং সম্ভবত অপ্রয়োজনীয় সংখ্যাসূচক এবং শ্রেণিবদ্ধ ভেরিয়েবল রয়েছে। আসুন আমরা বলি যে একটি রিগ্রেশন সমস্যা, একটি ভারসাম্যহীন বাইনারি শ্রেণিবদ্ধকরণ সমস্যা এবং "কোন ভবিষ্যদ্বাণীকারী সবচেয়ে গুরুত্বপূর্ণ তা খুঁজে বের করুন" এর একটি কাজ task কীভাবে সমস্যাটির কাছে যাওয়া যায় সে সম্পর্কে আমার চিন্তাভাবনাটি হ'ল:
ক্রমাগত বৃহত্তর এবং বৃহত্তর (এলোমেলো) উপাত্তের উপ-নমুনাগুলি পর্যন্ত কিছু ভবিষ্যদ্বাণীপূর্ণ মডেল ফিট করুন:
মডেলটিকে ফিট করা এবং ক্রস-ভ্যালিডিটিং করা গণনাগতভাবে কঠিন হয়ে যায় (উদাঃ, আমার ল্যাপটপে অযৌক্তিকভাবে ধীর গতি, আর মেমরি শেষ হয়ে যায় না ইত্যাদি), বা
প্রশিক্ষণ এবং পরীক্ষা আরএমএসই বা নির্ভুলতা / স্মরণ মান স্থিতিশীল করে।
প্রশিক্ষণ এবং পরীক্ষার ত্রুটিগুলি স্থির না হলে (১), একটি সহজ মডেল ব্যবহার করুন এবং / অথবা মডেলের মাল্টিকোর বা মাল্টিনোড সংস্করণ প্রয়োগ করুন এবং শুরু থেকেই পুনরায় চালু করুন।
যদি প্রশিক্ষণ এবং পরীক্ষার ত্রুটিগুলি স্থিতিশীল হয় (২):
যদি (যেমন, আমি এখনও on এ এখনও খুব বেশি বড় না হয়ে এলগোরিদমগুলি চালাতে পারি ), বৈশিষ্ট্যটির স্থানটি প্রসারিত করে বা আরও জটিল মডেল ব্যবহার করে এবং শুরু থেকে পুনরায় চালু করে কর্মক্ষমতা উন্নত করার চেষ্টা করুন।এক্স এস ইউ বি এস ই টি
যদি '' বৃহত 'হয় এবং আরও বিশ্লেষণ চালানো ব্যয়বহুল হয় তবে পরিবর্তনশীল গুরুত্ব এবং সমাপ্তি বিশ্লেষণ করুন।
আমি প্যাকেজ ব্যবহারের পরিকল্পনা biglm
, speedglm
, multicore
, এবং ff
দ প্রাথমিকভাবে, এবং পরে আরও জটিল আলগোরিদিম এবং / অথবা multinode (EC2 দিকে) প্রয়োজনীয় হিসাবে ব্যবহার করুন।
এই শব্দটি কি যুক্তিসঙ্গত পদ্ধতির মতো লাগে এবং যদি তা হয় তবে আপনার কোনও নির্দিষ্ট পরামর্শ বা পরামর্শ আছে? যদি তা না হয় তবে এই আকারের ডেটা সেট করার পরিবর্তে আপনি কী চেষ্টা করবেন?