মেশিন লার্নিংয়ে একটি সাধারণ ভাল অনুশীলন হ'ল ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলির বৈশিষ্ট্য সাধারনকরণ বা ডেটা মানিককরণ করা, এটি হ'ল ডেটাটিকে কেন্দ্র করে এবং এটি বৈকল্পিক (বা মানক বিচ্যুতি দ্বারা) বিভাজনকে সাধারণ করে তোলে। স্ব সংযোজন এবং আমার বোঝার জন্য আমরা দুটি প্রধান জিনিস অর্জনের জন্য এটি করি:
- সংখ্যাগত স্থিতিশীলতার লক্ষ্যে অতিরিক্ত ছোট মডেলের ওজন এড়িয়ে চলুন।
- অপ্টিমাইজেশন অ্যালগরিদমগুলির যেমন দ্রুত রূপান্তর নিশ্চিত করুন উদাহরণস্বরূপ কনজুগেট গ্রেডিয়েন্ট যাতে একটি ভবিষ্যদ্বাণী মাত্রা বৃহত পরিমাণে অন্যকে ধীরে ধীরে একত্রিত করতে না পারে।
আমরা সাধারণত প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলিতে ডেটা বিভক্ত করি। সাহিত্যে আমরা সাধারণত দেখতে পাই যে বৈশিষ্ট্য স্বাভাবিককরণের জন্য তারা ভবিষ্যদ্বাণীক ভেরিয়েবলগুলির পুরো সেটটির ওপরে গড় এবং প্রকরণ (বা মানক বিচ্যুতি) গ্রহণ করে। আমি এখানে যে বড় ত্রুটি দেখতে পাচ্ছি তা হ'ল আপনি যদি তা করেন তবে আপনি প্রকৃতপক্ষে ভবিষ্যতের তথ্য প্রশিক্ষণের ভবিষ্যদ্বাণী ভেরিয়েবলগুলিতে প্রবর্তন করছেন অর্থাত্ গড় এবং বৈসাদৃশ্যগুলিতে থাকা ভবিষ্যতের তথ্য।
অতএব, আমি প্রশিক্ষণের ডেটা ধরে বৈশিষ্ট্যটির স্বাভাবিককরণ করি এবং গড় এবং বৈচিত্রটি সংরক্ষণ করি। তারপরে আমি প্রশিক্ষণের গড় এবং বৈকল্পগুলি ব্যবহার করে বৈধতা এবং পরীক্ষার ডেটা সেটগুলির পূর্বাভাসকারী ভেরিয়েবলগুলিতে বৈশিষ্ট্য সাধারণকরণ প্রয়োগ করি। এর সাথে কি কোনও মৌলিক ত্রুটি রয়েছে? কেউ কি আরও ভাল বিকল্প প্রস্তাব করতে পারেন?