নীচের ব্যাখ্যা উপর ভিত্তি করে তৈরি fit_transform
এর Imputer
বর্গ, কিন্তু ধারণা জন্য একই fit_transform
অন্যান্য scikit_learn শ্রেণীর পছন্দ MinMaxScaler
।
transform
একটি সংখ্যার সাথে অনুপস্থিত মানগুলি প্রতিস্থাপন করে। ডিফল্টরূপে এই সংখ্যাটি আপনার চয়ন করা কিছু ডেটার কলামের মাধ্যম। নিম্নলিখিত উদাহরণ বিবেচনা করুন:
imp = Imputer()
# calculating the means
imp.fit([[1, 3], [np.nan, 2], [8, 5.5]])
প্রথমটি কলামের জন্য ইম্পিউটারটি একটি গড় (1 + 8) / 2 = 4.5 ব্যবহার করতে শিখেছে এবং দ্বিতীয় স্তম্ভের জন্য যখন এটি একটি দ্বি-কলামের ডেটা প্রয়োগ করা হবে তখন তার অর্থ (2 + 3 + 5.5) / 3 = 3.5:
X = [[np.nan, 11],
[4, np.nan],
[8, 2],
[np.nan, 1]]
print(imp.transform(X))
আমরা পেতে
[[4.5, 11],
[4, 3.5],
[8, 2],
[4.5, 1]]
সুতরাং fit
ইম্পিউটার দ্বারা কিছু ডেটা থেকে কলামগুলির মাধ্যম গণনা করে এবং এর মাধ্যমে কিছু উপাত্তগুলিতে transform
সেগুলি প্রয়োগ করা হয় (যা কেবলমাত্র অর্থগুলি হারিয়ে যাওয়ার মানগুলি প্রতিস্থাপন করে)। যদি এই উভয় ডেটা একই হয় (অর্থাত্ উপায়গুলি গণনার জন্য ডেটা এবং যার অর্থ ডেটা প্রয়োগ করা হয়) আপনি ব্যবহার করতে পারেন fit_transform
যা মূলত একটি এর fit
পরে থাকে transform
।
এখন আপনার প্রশ্নগুলি:
আমাদের কেন ডেটা ট্রান্সফর্ম করার দরকার হতে পারে?
"বিভিন্ন কারণে, অনেকগুলি বাস্তব বিশ্বের ডেটাসেটে অনুপস্থিত মান রয়েছে, প্রায়শই ফাঁকা, এনএএন বা অন্যান্য স্থানধারক হিসাবে এনকোড থাকে ed এই জাতীয় ডেটাসেটগুলি বিজ্ঞান-শিখার অনুমানের সাথে সঙ্গতিপূর্ণ নয় যা ধরে নেয় যে অ্যারের সমস্ত মান সংখ্যাসূচক" ( উত্স )
প্রশিক্ষণের ডেটা এবং টেস্টের ডেটাতে রূপান্তরকরণের জন্য উপযুক্ত মডেলটির অর্থ কী?
fit
একটি আরোপক সঙ্গে কিছুই করার আছে fit
ফিটিং মডেল ব্যবহার করা হয়। সুতরাং fit
প্রশিক্ষণ ডেটাতে ইম্পিউটারগুলি ব্যবহার করে প্রশিক্ষণের ডেটার প্রতিটি কলামের মাধ্যমগুলি গণনা করা হয়। transform
পরীক্ষার ডেটা ব্যবহার করে তারপরে পরীক্ষার ডেটাগুলির অনুপস্থিত মানগুলি পরিবর্তিত করে যার অর্থ প্রশিক্ষণ ডেটা থেকে গণনা করা হয়েছিল।