নীচের ব্যাখ্যা উপর ভিত্তি করে তৈরি fit_transformএর Imputerবর্গ, কিন্তু ধারণা জন্য একই fit_transformঅন্যান্য scikit_learn শ্রেণীর পছন্দ MinMaxScaler।
transformএকটি সংখ্যার সাথে অনুপস্থিত মানগুলি প্রতিস্থাপন করে। ডিফল্টরূপে এই সংখ্যাটি আপনার চয়ন করা কিছু ডেটার কলামের মাধ্যম। নিম্নলিখিত উদাহরণ বিবেচনা করুন:
imp = Imputer()
# calculating the means
imp.fit([[1, 3], [np.nan, 2], [8, 5.5]])
প্রথমটি কলামের জন্য ইম্পিউটারটি একটি গড় (1 + 8) / 2 = 4.5 ব্যবহার করতে শিখেছে এবং দ্বিতীয় স্তম্ভের জন্য যখন এটি একটি দ্বি-কলামের ডেটা প্রয়োগ করা হবে তখন তার অর্থ (2 + 3 + 5.5) / 3 = 3.5:
X = [[np.nan, 11],
[4, np.nan],
[8, 2],
[np.nan, 1]]
print(imp.transform(X))
আমরা পেতে
[[4.5, 11],
[4, 3.5],
[8, 2],
[4.5, 1]]
সুতরাং fitইম্পিউটার দ্বারা কিছু ডেটা থেকে কলামগুলির মাধ্যম গণনা করে এবং এর মাধ্যমে কিছু উপাত্তগুলিতে transformসেগুলি প্রয়োগ করা হয় (যা কেবলমাত্র অর্থগুলি হারিয়ে যাওয়ার মানগুলি প্রতিস্থাপন করে)। যদি এই উভয় ডেটা একই হয় (অর্থাত্ উপায়গুলি গণনার জন্য ডেটা এবং যার অর্থ ডেটা প্রয়োগ করা হয়) আপনি ব্যবহার করতে পারেন fit_transformযা মূলত একটি এর fitপরে থাকে transform।
এখন আপনার প্রশ্নগুলি:
আমাদের কেন ডেটা ট্রান্সফর্ম করার দরকার হতে পারে?
"বিভিন্ন কারণে, অনেকগুলি বাস্তব বিশ্বের ডেটাসেটে অনুপস্থিত মান রয়েছে, প্রায়শই ফাঁকা, এনএএন বা অন্যান্য স্থানধারক হিসাবে এনকোড থাকে ed এই জাতীয় ডেটাসেটগুলি বিজ্ঞান-শিখার অনুমানের সাথে সঙ্গতিপূর্ণ নয় যা ধরে নেয় যে অ্যারের সমস্ত মান সংখ্যাসূচক" ( উত্স )
প্রশিক্ষণের ডেটা এবং টেস্টের ডেটাতে রূপান্তরকরণের জন্য উপযুক্ত মডেলটির অর্থ কী?
fitএকটি আরোপক সঙ্গে কিছুই করার আছে fitফিটিং মডেল ব্যবহার করা হয়। সুতরাং fitপ্রশিক্ষণ ডেটাতে ইম্পিউটারগুলি ব্যবহার করে প্রশিক্ষণের ডেটার প্রতিটি কলামের মাধ্যমগুলি গণনা করা হয়। transformপরীক্ষার ডেটা ব্যবহার করে তারপরে পরীক্ষার ডেটাগুলির অনুপস্থিত মানগুলি পরিবর্তিত করে যার অর্থ প্রশিক্ষণ ডেটা থেকে গণনা করা হয়েছিল।