ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের জন্য, আমাদের কি এলোমেলো প্রভাব এবং পর্যবেক্ষণের স্বতন্ত্রতা না পাওয়ার মতো বারবার পরিসংখ্যানগুলির মতো পরিসংখ্যানগত ধারণাগুলি নিয়ে নিজেকে উদ্বেগ করা উচিত? উদাহরণ স্বরূপ....
আমার কাছে 5 টি সরাসরি মেইল প্রচারগুলি (এক বছরের মধ্যে ঘটেছিল) থেকে বিভিন্ন বৈশিষ্ট্য এবং ক্রয়ের জন্য একটি পতাকা রয়েছে data আদর্শভাবে, আমি প্রচারের সময় প্রদত্ত গ্রাহক বৈশিষ্ট্যগুলি কেনার জন্য একটি মডেল তৈরি করতে এই সমস্ত ডেটা একত্রে ব্যবহার করব। কারণটি হ'ল কেনার ইভেন্টটি বিরল এবং আমি যতটা সম্ভব তথ্য ব্যবহার করতে চাই। একটি সুযোগ রয়েছে যে কোনও প্রদত্ত গ্রাহক প্রচারাভিযানের 1 থেকে 5 পর্যন্ত যে কোনও জায়গায় থাকতে পারেন - যার অর্থ রেকর্ডগুলির মধ্যে স্বাতন্ত্র্য নেই।
ব্যবহার করার সময় এই বিষয়টি কি:
1) একটি মেশিন লার্নিং পদ্ধতির (যেমন গাছ, এমএলপি, এসভিএম)
2) একটি পরিসংখ্যান পদ্ধতির (লজিস্টিক রিগ্রেশন)?
**ADD:**
ভবিষ্যদ্বাণীপূর্ণ মডেলিং সম্পর্কে আমার ধারণাটি যদি মডেলটি কাজ করে তবে এটি ব্যবহার করুন। যাতে আমি কখনই অনুমানের গুরুত্ব বিবেচনা করি নি। উপরে বর্ণিত মামলাটি সম্পর্কে ভাবতে ভাবতে আমি অবাক হয়েছি।
মেশিন লার্নিং অ্যালগরিদম যেমন একটি MLP and SVM
। বাইনারি ইভেন্টের মডেল হিসাবে এগুলি সফলভাবে ব্যবহৃত হয় যেমন আমার উপরের উদাহরণের সাথে সাথে টাইম সিরিজ ডেটাও যা পরিষ্কারভাবে সম্পর্কযুক্ত। তবে, অনেকগুলি লোকসান ফাংশনগুলি সম্ভাব্যতা এবং ত্রুটিগুলি ধরে নিয়ে আইডি হ'ল। উদাহরণস্বরূপ, আরে গ্রেডিয়েন্ট বুস্টেড গাছগুলি gbm
দ্বিপদী থেকে প্রাপ্ত ডেভিলেন্স লস ফাংশনগুলি ব্যবহার করে ( পৃষ্ঠা 10 )।