অবশ্যই, হ্যাঁ
ডেটা বিশ্লেষণ আপনাকে অনেকগুলি পয়েন্টে নিয়ে যেতে পারে যা আপনার ভবিষ্যদ্বাণীমূলক মডেলটিকে আঘাত করবে:
অসম্পূর্ণ ডেটা
ধরে নিই আমরা পরিমাণগত ডেটা নিয়ে কথা বলছি, আপনি সিদ্ধান্ত নিতে হবে আপনি কলামটি উপেক্ষা করতে চান (যদি খুব বেশি ডেটা অনুপস্থিত থাকে) অথবা আপনার "ডিফল্ট" মানটি কী হবে তা নির্ধারণ করতে হবে (গড়, মোড, ইত্যাদি)। আপনি প্রথমে আপনার ডেটা অন্বেষণ না করে এটি করতে পারবেন না।
অস্বাভাবিক ডেটা
আপনি ডাটা যে বেশ জোরালোভাবে সম্পর্কিত করা হয় কিন্তু আছে আপনার ডেটার একটি 2% হল না, তারা বলে উপায় এই পারস্পরিক সম্পর্ক বন্ধ। আপনার ভবিষ্যদ্বাণীমূলক মডেলটিকে সহায়তা করতে আপনি এই ডেটা পুরোপুরি সরিয়ে দিতে চাইবেন
অত্যধিক সম্পর্কযুক্ত কলামগুলি সরান
ঠিক আছে এটি আমার পূর্ববর্তী পয়েন্টটিকে সামান্য বিপরীতমুখী করে তবে ইংরেজি আমার মূল ভাষা নয় তাই আমি আশা করি আপনি বুঝতে পারবেন।
আমি একটি বোবা উদাহরণ গ্রহণ করব, বলুন আপনি কোনও ফুটবলের স্টেডিয়ামের ডেটাসেট বিশ্লেষণ করুন এবং আপনার Width, Length, Area
পরামিতি রয়েছে। ঠিক আছে, আমরা সহজেই ধারণা করতে পারি যে এই তিনটি পরামিতি দৃ strongly়ভাবে সম্পর্কযুক্ত হবে। আপনার কলামের মধ্যে অত্যধিক সম্পর্ক থাকার কারণে ভবিষ্যদ্বাণীমূলক মডেলটিকে একটি ভুল দিকে নিয়ে যায়। আপনি প্যারামিটারগুলির এক বা একাধিক ফ্লাশ করার সিদ্ধান্ত নিতে পারেন।
নতুন বৈশিষ্ট্যগুলি সন্ধান করুন
আমি ছোট টাইটানিক কাগল "প্রতিযোগিতা" এর উদাহরণ নেব । লোকদের নাম তাকানোর সময়, আপনি বুঝতে পারবেন যে আপনি Title
কোনও ব্যক্তির বৈশিষ্ট্যটি বের করতে পারেন । মডেলিংয়ের ক্ষেত্রে এই বৈশিষ্ট্যটি বেশ গুরুত্বপূর্ণ হয়ে দাঁড়িয়েছে, তবে আপনি যদি প্রথমে আপনার ডেটা বিশ্লেষণ না করেন তবে আপনি এটিটি মিস করবেন।
আপনি আপনার অবিচ্ছিন্ন ডেটা বিনের সিদ্ধান্ত নিতে পারেন কারণ এটি আরও উপযুক্ত বোধ করে বা একটি অবিচ্ছিন্ন বৈশিষ্ট্যটিকে শ্রেণীবদ্ধে পরিণত করে।
কোন ধরণের অ্যালগরিদম ব্যবহার করতে হবে তা সন্ধান করুন
আমি এখনই প্লট আঁকতে পারি না, তবে আসুন এটির একটি সাধারণ উদাহরণ।
কল্পনা করুন যে আপনার কাছে একটি বৈশিষ্ট্য কলাম এবং একটি বাইনারি (কেবল 0 বা 1) "ফলাফল" কলাম সহ একটি ছোট মডেল রয়েছে। আপনি এই ডেটাসেটের জন্য ভবিষ্যদ্বাণীমূলক শ্রেণিবদ্ধকরণ মডেল তৈরি করতে চান।
যদি, উদাহরণস্বরূপ, আপনি আবার এটি প্লট করার জন্য ছিলেন (তাই, আপনার ডেটা বিশ্লেষণ করুন), আপনি বুঝতে পারেন যে প্লটটি আপনার 1 মানের চারপাশে একটি নিখুঁত বৃত্ত তৈরি করে। এ জাতীয় দৃশ্যে, যদি আপনি স্পষ্টতই স্পষ্ট হন যে আপনি সরাসরি ডিএনএন-তে লাফানোর পরিবর্তে একটি দুর্দান্ত মডেল তৈরি করতে বহুপদী শ্রেণিবদ্ধ ব্যবহার করতে পারেন। (স্পষ্টতই, আমার উদাহরণে দুটি মাত্র কলাম রয়েছে তা বিবেচনা করে, এটি একটি দুর্দান্ত উদাহরণ তৈরি করে না, তবে আপনি পয়েন্টটি পান)
সামগ্রিকভাবে, আপনি যদি ডেটাটি প্রথমে না দেখেন তবে আপনি কোনও ভবিষ্যদ্বাণীমূলক মডেলটি ভাল পারফরম্যান্সের আশা করতে পারবেন না।
[descriptive-statistics]
এবং বর্ণনামূলক পরিসংখ্যান গুরুত্বপূর্ণ কিনা তা আপনার চূড়ান্ত প্রশ্ন। এই প্রসঙ্গে আপনি যখন ইডিএর কথা উল্লেখ করেন তখনই কেবল বিভিন্ন বর্ণনামূলক পরিসংখ্যানের গণনা করা বা আপনি বর্ণনামূলক পরিসংখ্যান এবং ইডিএ উভয় সম্পর্কে জিজ্ঞাসা করছেন? আমি জিজ্ঞাসা করি কারণ অনেক লোক (আমাকে সহ) ইডিএকে কেবল বর্ণনামূলক পরিসংখ্যানের চেয়ে বেশি মনে করে।