যখন আপনার কাছে এত বড় ডেটা সেট থাকে আপনি কোনও পরিসংখ্যান এবং মেশিন লার্নিং মডেলিং কৌশলগুলির সাথে খেলতে পারেন এবং এটি অত্যন্ত উত্সাহিত হয়। অন্যরা যেমন পরামর্শ দিয়েছে আমিও ডেটা থেকে কয়েক মিলিয়ন এলোমেলো নমুনা নেওয়ার পরামর্শ দিয়েছি with যেহেতু এটি একটি শ্রেণিবিন্যাসের সমস্যা তাই আমি প্রথমে সাধারণ শ্রেণিবদ্ধকরণ কৌশলগুলি অনুসরণ করব এবং তারপরে আরও জটিল বিষয়গুলি নিয়ে চলব। লজিস্টিক রিগ্রেশন শুরু দিয়ে দুর্দান্ত।
আমি যুক্ত করতে চেয়েছিলাম যে জেনারেটাল মডেলগুলিও চেষ্টা করে দেখতে হবে। নাইভ বায়েস শ্রেণিবদ্ধকারী হ'ল একটি সহজ সম্ভাব্য শ্রেণিবদ্ধকারী এবং এটি অনেকগুলি কার্যবিধিতে সাপোর্ট ভেক্টর মেশিনের মতো জটিল পদ্ধতিকে ছাড়িয়ে যায়। আপনি তাকান করতে পারেন এই বিশেষ দ্রষ্টব্য এবং একটি সহজ বাস্তবায়ন এই রিগ্রেশনকে NB এর তুলনা করার জন্য লিঙ্কটি দেখতে পারেন।
বেসিক মডেল হিসাবে কেউ নাইভ বেইস (এনবি) শ্রেণিবদ্ধ তৈরি করতে পারে এবং তারপরে সাপোর্ট ভেক্টর মেশিনস (এসভিএম) বা মাল্টিলেয়ার পারসেপ্ট্রনস (এমএলপি) এর মতো যেকোন মেশিন লার্নিং টেকনিক গ্রহণ করতে পারে। এখানে একটি বাণিজ্য হ'ল এনবি এমএলপির তুলনায় কমপক্ষে কম ব্যয়বহুল তাই এমএলপি থেকে আরও ভাল পারফরম্যান্স কাঙ্ক্ষিত।
আপনার যথাযথ ক্যোয়ারিতে আসছেন: গভীর শেখা এবং গ্রেডিয়েন্ট ট্রি বুস্টিং অত্যন্ত শক্তিশালী কৌশল যা ডেটাগুলির মধ্যে যে কোনও সম্পর্কের মডেল করতে পারে। তবে আপনার ক্ষেত্রে যদি কোনও সাধারণ লজিস্টিক রিগ্রেশন বা এনবি পছন্দসই নির্ভুলতা দিচ্ছে। তাই প্রথমে সহজ কৌশলগুলি চেষ্টা করে দেখতে এবং একটি বেসলাইন পারফরম্যান্স করা সর্বদা ভাল। তারপরে কেউ জটিল মডেলগুলির জন্য যেতে পারে এবং বেসলাইনের সাথে তুলনা করতে পারে।