হ্যাঁ আপনার অ্যালগোরিদম যদি স্বাভাবিক প্রশিক্ষণ ডেটা * এর সাথে কাজ করে বা প্রয়োজন হয় তবে ডেটা পরীক্ষা করতে আপনার স্বাভাবিককরণ প্রয়োগ করতে হবে।
এর কারণ আপনার মডেলটি এর ইনপুট ভেক্টরদের দেওয়া উপস্থাপনে কাজ করে। এই সংখ্যাগুলির স্কেল উপস্থাপনের অংশ। এটি পা এবং মিটারের মধ্যে রূপান্তর করার মতো। । । একটি মডেল বা সূত্রটি সাধারণত এক ধরণের ইউনিটের সাথে কাজ করবে।
কেবলমাত্র আপনাকে সাধারণীকরণের প্রয়োজন নেই, তবে আপনার প্রশিক্ষণের ডেটার মতো সঠিক স্কেলিংটি প্রয়োগ করা উচিত। তার অর্থ আপনার প্রশিক্ষণ ডেটার সাথে ব্যবহৃত স্কেল এবং অফসেট সংরক্ষণ করা এবং এটি আবার ব্যবহার করা। একটি সাধারণ শিক্ষামূলক ভুলটি হ'ল পৃথকভাবে আপনার ট্রেন এবং পরীক্ষার ডেটা স্বাভাবিক করা।
পাইথন এবং এসকেলেয়ারনে, আপনি স্ট্যান্ডার্ড স্কেলারটি ব্যবহার করে আপনার ইনপুট / এক্স মানগুলি স্বাভাবিক করতে পারেন:
scaler = StandardScaler()
train_X = scaler.fit_transform( train_X )
test_X = scaler.transform( test_X )
কীভাবে train_X
কোনও ফাংশন (প্যারামগুলি দেখায়) ব্যবহারের রূপান্তর কীভাবে তারপরে স্বাভাবিক হয় Note যতক্ষণ test_X
রূপান্তর মাত্র রূপান্তরিত করে, একই প্যারাম এটি ট্রেন তথ্য থেকে শিখেছি ব্যবহার করে।
আপনি যে টিএফ-আইডিএফ নরমালাইজেশন করছেন তা একইভাবে কাজ করা উচিত, কারণ এটি সম্পূর্ণ হিসাবে সেট করা ডেটা থেকে কিছু পরামিতি (সমস্ত নথিতে শব্দের ফ্রিকোয়েন্সি) এবং পাশাপাশি প্রতিটি নথিতে প্রাপ্ত অনুপাত ব্যবহার করে।
* কিছু অ্যালগরিদম (যেমন সিদ্ধান্ত গাছের উপর ভিত্তি করে) সাধারণকরণের ইনপুটগুলির প্রয়োজন হয় না এবং বিভিন্ন বৈশিষ্ট্যগুলির মধ্যে বিভিন্ন মাপের স্কেলগুলির সাথে লড়াই করতে পারে।