আমার ফেসবুক অ্যাপ্লিকেশন থেকে আমার একটি ডাটাবেস রয়েছে এবং আমি তাদের ফেসবুকের সাইটগুলি কী পছন্দ করে তার ভিত্তিতে ব্যবহারকারীদের বয়সের অনুমান করতে মেশিন লার্নিং ব্যবহার করার চেষ্টা করছি।
আমার ডাটাবেসের তিনটি গুরুত্বপূর্ণ বৈশিষ্ট্য রয়েছে:
আমার প্রশিক্ষণ সেটে বয়সের বিতরণ (সমুদ্রের 12 কেজি ব্যবহারকারী) তরুণ ব্যবহারকারীদের দিকে ঝুঁকছে (যেমন আমার 277 বছর বয়সী 1157 ব্যবহারকারী এবং 65 বছরের বয়সের 23 জন ব্যবহারকারী);
অনেক সাইটের 5 টিরও বেশি পছন্দ নেই (আমি 5 টিরও কম সংখ্যক এফবি সাইটগুলি ফিল্টার আউট করেছি)।
নমুনার চেয়ে আরও অনেক বৈশিষ্ট্য রয়েছে।
সুতরাং, আমার প্রশ্নগুলি হ'ল: আরও বিশ্লেষণের জন্য আপনি কী কৌশলটি ডেটা প্রস্তুত করার পরামর্শ দিবেন? আমি কি কিছু ধরণের মাত্রা হ্রাস করা উচিত? এই ক্ষেত্রে কোন এমএল পদ্ধতি ব্যবহার করা সবচেয়ে উপযুক্ত হবে?
আমি সাধারণত পাইথন ব্যবহার করি, তাই পাইথন-নির্দিষ্ট ইঙ্গিতগুলি প্রশংসিত হবে।