ভবিষ্যদ্বাণীপূর্ণ মডেলিং - আমাদের কি মিশ্র মডেলিং সম্পর্কে যত্ন নেওয়া উচিত?


19

ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ের জন্য, আমাদের কি এলোমেলো প্রভাব এবং পর্যবেক্ষণের স্বতন্ত্রতা না পাওয়ার মতো বারবার পরিসংখ্যানগুলির মতো পরিসংখ্যানগত ধারণাগুলি নিয়ে নিজেকে উদ্বেগ করা উচিত? উদাহরণ স্বরূপ....

আমার কাছে 5 টি সরাসরি মেইল ​​প্রচারগুলি (এক বছরের মধ্যে ঘটেছিল) থেকে বিভিন্ন বৈশিষ্ট্য এবং ক্রয়ের জন্য একটি পতাকা রয়েছে data আদর্শভাবে, আমি প্রচারের সময় প্রদত্ত গ্রাহক বৈশিষ্ট্যগুলি কেনার জন্য একটি মডেল তৈরি করতে এই সমস্ত ডেটা একত্রে ব্যবহার করব। কারণটি হ'ল কেনার ইভেন্টটি বিরল এবং আমি যতটা সম্ভব তথ্য ব্যবহার করতে চাই। একটি সুযোগ রয়েছে যে কোনও প্রদত্ত গ্রাহক প্রচারাভিযানের 1 থেকে 5 পর্যন্ত যে কোনও জায়গায় থাকতে পারেন - যার অর্থ রেকর্ডগুলির মধ্যে স্বাতন্ত্র্য নেই।

ব্যবহার করার সময় এই বিষয়টি কি:

1) একটি মেশিন লার্নিং পদ্ধতির (যেমন গাছ, এমএলপি, এসভিএম)

2) একটি পরিসংখ্যান পদ্ধতির (লজিস্টিক রিগ্রেশন)?

**ADD:**

ভবিষ্যদ্বাণীপূর্ণ মডেলিং সম্পর্কে আমার ধারণাটি যদি মডেলটি কাজ করে তবে এটি ব্যবহার করুন। যাতে আমি কখনই অনুমানের গুরুত্ব বিবেচনা করি নি। উপরে বর্ণিত মামলাটি সম্পর্কে ভাবতে ভাবতে আমি অবাক হয়েছি।

মেশিন লার্নিং অ্যালগরিদম যেমন একটি MLP and SVM। বাইনারি ইভেন্টের মডেল হিসাবে এগুলি সফলভাবে ব্যবহৃত হয় যেমন আমার উপরের উদাহরণের সাথে সাথে টাইম সিরিজ ডেটাও যা পরিষ্কারভাবে সম্পর্কযুক্ত। তবে, অনেকগুলি লোকসান ফাংশনগুলি সম্ভাব্যতা এবং ত্রুটিগুলি ধরে নিয়ে আইডি হ'ল। উদাহরণস্বরূপ, আরে গ্রেডিয়েন্ট বুস্টেড গাছগুলি gbmদ্বিপদী থেকে প্রাপ্ত ডেভিলেন্স লস ফাংশনগুলি ব্যবহার করে ( পৃষ্ঠা 10 )।


1
এটি রেকর্ডগুলির মধ্যে স্বাতন্ত্র্যকে ধরে নিয়েছে এমন পরিসংখ্যানগত পদ্ধতির জন্য গুরুত্বপূর্ণ কারণ আপনি তারপরে বারবার ব্যবস্থা গ্রহণ করছেন।
মিশেল

4
ভবিষ্যদ্বাণী এবং অনুমানের উপর দৃষ্টি নিবদ্ধ করা পরিসংখ্যানকে কেন্দ্র করে মেশিন লার্নিংয়ের মধ্যে অন্যতম প্রধান পার্থক্য আমার কাছে মনে হচ্ছে ঠিক আপনি যা বলছেন, বি_মিনার in Traditionalতিহ্যগত পরিসংখ্যান অনুমানের দিকে বিশেষ মনোযোগ দেয় তবে মেশিন লার্নিং কী কাজ করে তা নিয়ে বেশি উদ্বিগ্ন। উভয় ক্ষেত্রেই আপনার পদ্ধতির অনুমান / বৈশিষ্ট্য সম্পর্কে আপনাকে সচেতন হওয়া দরকার তারপরে সেগুলি গুরুত্বপূর্ণ কি না তা একটি অবগত সিদ্ধান্ত নিন। আপনি যদি ধারণাটির ধারণা বা বৈশিষ্ট্যগুলি বুঝতে না পারেন তবে আপনার মডেলটি কাজ করে কিনা সে সম্পর্কে আপনি ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ে নিজেকে বোকা বানাচ্ছেন।
অ্যান জেড।

2
@ অ্যানিজ্যাড.আপনি যদি ভবিষ্যদ্বাণীমূলক মডেলিংয়ের প্রশিক্ষণ-, পরীক্ষা- এবং বৈধতা (সমস্ত নমুনা যথেষ্ট পরিমাণে) এর প্রস্তাবিত বৈধতা পদ্ধতির অনুসরণ করেন এবং আপনি এমন কিছু আবিষ্কার করেন যা অন্তর্নিহিত অনুমানগুলি মেটানো হয় তবে কি এখনও কোনও মাথা ঘামাতে হবে? আমি অবশ্যই
এমএলের

2
এই প্রসঙ্গে, "স্ট্যাটিস্টিকাল মডেলিং: দ্য দুটি সংস্কৃতি" পত্রিকাটি
স্টিফেন

উত্তর:


14

আমি নিজেই এটি ভাবছিলাম এবং এখানে আমার অভ্যাসগত সিদ্ধান্তগুলি রয়েছে। যদি কেউ তাদের জ্ঞান এবং এই বিষয়ে কোনও রেফারেন্স দিয়ে এটিকে পরিপূরক / সংশোধন করতে পারে তবে আমি খুশি হব।

আপনি যদি পরিসংখ্যানগত তাত্পর্য পরীক্ষা করে লজিস্টিক রিগ্রেশন সহগগুলির সম্পর্কে অনুমানগুলি পরীক্ষা করতে চান তবে আপনাকে পর্যবেক্ষণের জুড়ে পারস্পরিক সম্পর্ককে মডেল করতে হবে (বা অন্যথায় স্ব-স্বাধীনতার জন্য সঠিক নয়) কারণ অন্যথায় আপনার স্ট্যান্ডার্ড ত্রুটিগুলি খুব ছোট হবে, কমপক্ষে আপনি যখন বিবেচনা করছেন - গুচ্ছ প্রভাব। তবে রিগ্রেশন কোএফিসিয়েন্টগুলি পারস্পরিক সম্পর্কযুক্ত পর্যবেক্ষণের সাথেও পক্ষপাতহীন, সুতরাং ভবিষ্যদ্বাণী করার জন্য এই জাতীয় মডেলটি ব্যবহার করা ভাল।

ভবিষ্যদ্বাণীপূর্ণ মডেলিংয়ে, আপনার মডেলটিকে প্রশিক্ষণ দেওয়ার সময় আপনার স্পষ্টভাবে পারস্পরিক সম্পর্কের জন্য অ্যাকাউন্টিং করার দরকার নেই, আপনি লজিস্টিক রিগ্রেশন বা অন্য কোনও পদ্ধতির ব্যবহার করছেন কিনা। তবে, যদি আপনি নমুনা ছাড়াই ত্রুটিটি যাচাই বা গণনার জন্য একটি হোল্ডআউট সেট ব্যবহার করতে চান, আপনি নিশ্চিত করতে চাইবেন যে প্রতিটি ব্যক্তির জন্য পর্যবেক্ষণগুলি কেবলমাত্র একটি সেটে উপস্থিত হয়েছে, হয় প্রশিক্ষণ বা বৈধতা উভয় নয়। অন্যথায় আপনার মডেলটি ব্যক্তিদের জন্য ভবিষ্যদ্বাণী করবে এটি সম্পর্কে ইতিমধ্যে কিছু তথ্য রয়েছে এবং আপনি নমুনা ছাড়াই শ্রেণিবিন্যাসের যোগ্যতার বিষয়ে সত্যিকারের পড়া পাচ্ছেন না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.