আমি আমার সমস্যাটি একটি উদাহরণ দিয়ে ব্যাখ্যা করব। ধরুন আপনি কোনও ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চান এমন কয়েকটি বৈশিষ্ট্য দেওয়া হয়েছে: {বয়স, লিঙ্গ, দেশ, অঞ্চল, শহর} আপনার মতো প্রশিক্ষণ ডেটাসেট রয়েছে
train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),
RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5),
CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8),
Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50),
Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")),
Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23))
train
CountryID RegionID CityID Age Gender Income
1 1 1 1 23 M 31
2 1 1 1 48 F 42
3 1 1 2 62 M 71
4 1 2 3 63 F 65
5 2 3 4 25 M 50
6 2 3 5 41 F 51
7 2 4 6 45 M 101
8 2 4 6 19 F 38
9 3 5 7 37 F 47
10 3 5 7 41 F 50
11 3 5 7 31 F 55
12 3 5 8 50 M 23
এখন ধরুন আমি সিটিতে lives সালে বসবাসকারী নতুন ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চাই City সিটির 7 জন লোকের সাথে আমার প্রশিক্ষণ সংস্থায় মোট 3 টি নমুনা রয়েছে (ধরে নিও এটি অনেকটা) সুতরাং আমি সম্ভবত শহর থেকে City এর গড় আয় ব্যবহার করতে পারি এই নতুন ব্যক্তির আয়ের পূর্বাভাস দিন।
এখন ধরুন আমি সিটি ২-এ বসবাসকারী কোনও নতুন ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চাই My আমার প্রশিক্ষণ সংস্থায় সিটি 2 এর সাথে কেবলমাত্র 1 টি নমুনা রয়েছে সুতরাং নগর 2 এর গড় আয় সম্ভবত কোনও নির্ভরযোগ্য ভবিষ্যদ্বাণীকারী নয়। তবে আমি সম্ভবত অঞ্চল 1 এর গড় আয় ব্যবহার করতে পারি।
এই ধারণাটি কিছুটা এক্সপ্লোরোপল করে, আমি আমার প্রশিক্ষণ ডেটাসেটকে রূপান্তর করতে পারি
Age Gender CountrySamples CountryIncome RegionSamples RegionIncome CitySamples CityIncome
1: 23 M 4 52.25 3 48.00 2 36.5000
2: 48 F 4 52.25 3 48.00 2 36.5000
3: 62 M 4 52.25 3 48.00 1 71.0000
4: 63 F 4 52.25 1 65.00 1 65.0000
5: 25 M 4 60.00 2 50.50 1 50.0000
6: 41 F 4 60.00 2 50.50 1 51.0000
7: 45 M 4 60.00 2 69.50 2 69.5000
8: 19 F 4 60.00 2 69.50 2 69.5000
9: 37 F 4 43.75 4 43.75 3 50.6667
10: 41 F 4 43.75 4 43.75 3 50.6667
11: 31 F 4 43.75 4 43.75 3 50.6667
12: 50 M 4 43.75 4 43.75 1 23.0000
সুতরাং, প্রতিটি মানকে একটি ওজন / বিশ্বাসযোগ্যতা দেওয়ার জন্য প্রশিক্ষণের নমুনাগুলির সংখ্যা ব্যবহার করার সময় লক্ষ্যটি হ'ল একরকম গড় সিটি ইনকাম, রিজিওন ইনকাম এবং কান্ট্রি ইনকামকে একত্রিত করা। (আদর্শভাবে, এখনও বয়স এবং লিঙ্গ সম্পর্কিত তথ্য সহ))
এই ধরণের সমস্যা সমাধানের জন্য টিপস কী? আমি বৃক্ষভিত্তিক বন বা গ্রেডিয়েন্ট বুস্টিংয়ের মতো গাছভিত্তিক মডেলগুলি ব্যবহার করতে পছন্দ করি তবে এগুলি আরও ভালভাবে সম্পাদন করতে আমার সমস্যা হচ্ছে।
হালনাগাদ
যে কেউ এই সমস্যায় ছুরিকাঘাত করতে ইচ্ছুক, আমি এখানে আপনার প্রস্তাবিত সমাধানটি পরীক্ষা করার জন্য নমুনা ডেটা তৈরি করেছি ।