মেশিন লার্নিংয়ের শ্রেণিবদ্ধ / নেস্টেড ডেটা কীভাবে মোকাবেলা করবেন


29

আমি আমার সমস্যাটি একটি উদাহরণ দিয়ে ব্যাখ্যা করব। ধরুন আপনি কোনও ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চান এমন কয়েকটি বৈশিষ্ট্য দেওয়া হয়েছে: {বয়স, লিঙ্গ, দেশ, অঞ্চল, শহর} আপনার মতো প্রশিক্ষণ ডেটাসেট রয়েছে

train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), 
             RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), 
             CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), 
             Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), 
             Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")),
             Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23))
train
   CountryID RegionID CityID Age Gender Income
1          1        1      1  23      M     31
2          1        1      1  48      F     42
3          1        1      2  62      M     71
4          1        2      3  63      F     65
5          2        3      4  25      M     50
6          2        3      5  41      F     51
7          2        4      6  45      M    101
8          2        4      6  19      F     38
9          3        5      7  37      F     47
10         3        5      7  41      F     50
11         3        5      7  31      F     55
12         3        5      8  50      M     23

এখন ধরুন আমি সিটিতে lives সালে বসবাসকারী নতুন ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চাই City সিটির 7 জন লোকের সাথে আমার প্রশিক্ষণ সংস্থায় মোট 3 টি নমুনা রয়েছে (ধরে নিও এটি অনেকটা) সুতরাং আমি সম্ভবত শহর থেকে City এর গড় আয় ব্যবহার করতে পারি এই নতুন ব্যক্তির আয়ের পূর্বাভাস দিন।

এখন ধরুন আমি সিটি ২-এ বসবাসকারী কোনও নতুন ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে চাই My আমার প্রশিক্ষণ সংস্থায় সিটি 2 এর সাথে কেবলমাত্র 1 টি নমুনা রয়েছে সুতরাং নগর 2 এর গড় আয় সম্ভবত কোনও নির্ভরযোগ্য ভবিষ্যদ্বাণীকারী নয়। তবে আমি সম্ভবত অঞ্চল 1 এর গড় আয় ব্যবহার করতে পারি।

এই ধারণাটি কিছুটা এক্সপ্লোরোপল করে, আমি আমার প্রশিক্ষণ ডেটাসেটকে রূপান্তর করতে পারি

    Age Gender CountrySamples CountryIncome RegionSamples RegionIncome CitySamples CityIncome
 1:  23      M              4         52.25             3        48.00           2    36.5000
 2:  48      F              4         52.25             3        48.00           2    36.5000
 3:  62      M              4         52.25             3        48.00           1    71.0000
 4:  63      F              4         52.25             1        65.00           1    65.0000
 5:  25      M              4         60.00             2        50.50           1    50.0000
 6:  41      F              4         60.00             2        50.50           1    51.0000
 7:  45      M              4         60.00             2        69.50           2    69.5000
 8:  19      F              4         60.00             2        69.50           2    69.5000
 9:  37      F              4         43.75             4        43.75           3    50.6667
10:  41      F              4         43.75             4        43.75           3    50.6667
11:  31      F              4         43.75             4        43.75           3    50.6667
12:  50      M              4         43.75             4        43.75           1    23.0000

সুতরাং, প্রতিটি মানকে একটি ওজন / বিশ্বাসযোগ্যতা দেওয়ার জন্য প্রশিক্ষণের নমুনাগুলির সংখ্যা ব্যবহার করার সময় লক্ষ্যটি হ'ল একরকম গড় সিটি ইনকাম, রিজিওন ইনকাম এবং কান্ট্রি ইনকামকে একত্রিত করা। (আদর্শভাবে, এখনও বয়স এবং লিঙ্গ সম্পর্কিত তথ্য সহ))

এই ধরণের সমস্যা সমাধানের জন্য টিপস কী? আমি বৃক্ষভিত্তিক বন বা গ্রেডিয়েন্ট বুস্টিংয়ের মতো গাছভিত্তিক মডেলগুলি ব্যবহার করতে পছন্দ করি তবে এগুলি আরও ভালভাবে সম্পাদন করতে আমার সমস্যা হচ্ছে।

হালনাগাদ

যে কেউ এই সমস্যায় ছুরিকাঘাত করতে ইচ্ছুক, আমি এখানে আপনার প্রস্তাবিত সমাধানটি পরীক্ষা করার জন্য নমুনা ডেটা তৈরি করেছি ।


7
হায়ারার্কিকাল বেয়েসিয়ান মডেলগুলি আপনার ডেটাতে বর্ণিত কাঠামোটি শোষণ করার জন্য খুব স্বাভাবিক। রেডন দূষণ মডেলিংয়ের শাস্ত্রীয় উদাহরণটি দেখুন: এমসি
ভ্লাদিস্লাভস দোভালিক্লস

এই ক্যাগল শুরু করা টিউটোরিয়াল চ্যালেঞ্জটি একবার দেখুন: kaggle.com / c / টাইটানিক । এটি একই ধরণের সমস্যার সাথে সম্পর্কিত, ভবিষ্যদ্বাণী করা যদি কোনও ব্যক্তি জেন্ডার, টিকিটের ধরণের মত ব্যক্তির সম্পর্কে বিভিন্ন বৈশিষ্ট্য প্রদান করে টাইটানিক বিপর্যয় থেকে বেঁচে থাকে তবে গ্রেডিয়েন্ট বুস্টিং এবং হাইয়ারাকিকাল বায়সিয়ান মডেলগুলির মতো উন্নত পদ্ধতির জন্য এই ব্যবহারের সর্বোত্তম জমা দেওয়া সমাধান ইত্যাদি
বিহারী পীরাতলা

6
@ বিহারিপিরাতলা ইনপুটটির জন্য ধন্যবাদ, তবে আমি টাইটানিক ডেটাসেট এবং চ্যালেঞ্জের সাথে পরিচিত এবং আমি জিজ্ঞাসা করা নেস্টেড ডেটা ইস্যুর সাথে এটি কীভাবে সম্পর্কিত তা আমি দেখতে পাই না।
বেন

এই মডেলগুলির জন্য এল 2 / এল 1 নিয়মিতকরণ ব্যবহার করে যেমন লজিস্টিক রিগ্রেশন / এসভিএম যা এটি সম্পাদন করে তাদের সহায়তা করা উচিত (দরিদ্র ম্যান হায়ারার্কিকাল বেইস)। কার্যকরভাবে আপনি সহগকে দণ্ডিত করেন, সুতরাং একটি গুণফল উল্লেখযোগ্যভাবে (অর্থাত প্রচুর ডেটাতে) ত্রুটিটি উন্নত না করা হলে এটি শূন্যের কাছাকাছি সেট করা হবে। এবং আপনি দণ্ডের মাত্রা নির্ধারণের জন্য ক্রসওয়েডেশন ব্যবহার করেন
seanv507

আপনি কি 9 নগরীর বাসিন্দা ব্যক্তির আয়ের ভবিষ্যদ্বাণী করতে সক্ষম হতে চান?
জান-গ্লেক্স

উত্তর:


14

আমি এই সাইটে নিম্নলিখিত প্রশ্নগুলি থেকে অনুপ্রেরণা নিয়ে কিছুক্ষণের জন্য এই সমস্যাটি নিয়ে ভাবছিলাম।

প্রথমে শ্রেণিবদ্ধ / নেস্টেড ডেটাগুলির জন্য মিশ্র-প্রভাবগুলির মডেলগুলি উপস্থাপন করি এবং একটি সাধারণ দ্বি-স্তরের মডেল (শহরগুলির মধ্যে নেস্টেড নমুনা) থেকে শুরু করি। জন্য মধ্যে -th নমুনা -th শহর, আমরা ফলাফল লিখতে covariates এর কার্যকারিতা হিসেবে , (লিঙ্গ এবং বয়স সহ বিভিন্ন ধরণের তালিকার) যেখানে প্রতিটি শহরের জন্য র্যান্ডম ইন্টারসেপ্ট, । আমরা যদি ধরে নিই যে এবং normal গড় 0 এবং এবং সহ সাধারণ বিতরণগুলি অনুসরণ করেi y i jjiyij Y আমি = ( এক্স আমি ) + + U আমি + + ε আমি , U আমি= 1 , ... , এন আমি তোমার আমি ε আমি σ 2 U σ 2 U আমি তোমার i = σ 2 ইউxij

yij=f(xij)+ui+ϵij,
uij=1,,niuiϵijσu2σ2, এর অভিজ্ঞতা বায়সিয়ান (EB) হ'ল যেখানে ,আমরা যদি এর (সাধারণ সর্বনিম্ন বর্গ) অনুমান হিসাবে তবে EB অনুমান 0 এর ওজনযুক্ত যোগফল এবং ওএলএস অনুমান, এবং ওজন নমুনা আকারের ক্রমবর্ধমান ফাংশন । চূড়ান্ত পূর্বাভাস হ'ল কোথায়ui ˉ Y আমি=1
u^i=σu2σu2+σ2/ni(y¯i.f(x¯i.)),
f( ˉ x i)=1y¯i.=1niiniyij( ˉ Y আমি-( ˉ এক্স আমি))তোমার দর্শন লগ করাআমিএনআমি (এক্সআমি)+ + U আমি, (এক্সআমি)f(x¯i.)=1niinif(xij).(y¯i.f(x¯i.))uini
f^(xij)+u^i,
f^(xij) র্যান্ডম বনের মতো লিনিয়ার রিগ্রেশন বা মেশিন লার্নিং পদ্ধতি থেকে স্থির প্রভাবের অনুমান। এটি সহজেই যে কোনও স্তরের ডেটাতে প্রসারিত হতে পারে, শহরগুলি এবং তারপরে অঞ্চল এবং তারপরে দেশগুলিতে নেস্টেড নমুনাগুলি বলুন। গাছ-ভিত্তিক পদ্ধতিগুলি ছাড়াও এসভিএম ভিত্তিক একটি পদ্ধতি রয়েছে ।

এলোমেলো-বন-ভিত্তিক পদ্ধতির জন্য, আপনি CRAN- MixRF()এ আমাদের আর প্যাকেজটিতে চেষ্টা করতে পারেন MixRF


কেন পথিমধ্যে সঙ্গে পরিবর্তিত হতে অনুমোদিত হয় ব্যাখ্যা গেল কিন্তু সবার জন্য পরামিতি একটি একক সেট আছে ? অতিরিক্ত চাপ এড়াতে বা সমস্যাটিকে ট্র্যাকটেবল করার পক্ষে কি এটি সরলকরণ অনুমান? f iifi
ব্যবহারকারী20160

@ ব্যবহারকারী20160 হ্যাঁ, আমরা অংশটিকে ফিক্সড-এফেক্টস অংশ হিসাবে এবং এলোমেলো প্রভাব হিসাবে । আমাদের কিছু like এর মতো কিছু এলোমেলো থাকতে পারে তবে এলোমেলো slালু সংখ্যাকে সীমাবদ্ধ করা উচিত কারণ এটি বিপুল সংখ্যক বৈকল্পিক উপাদানগুলি প্রবর্তন করবে in যদি এটিকে কাঠামোগত করা হয় তবে এলোমেলো-ইফেক্টের কোভারিয়েন্স ম্যাট্রিক্স। u i xfuixijui,
রেন্ডেল

6

আপনার কেবল দুটি ভেরিয়েবল এবং সোজা নেস্টিং রয়েছে তা প্রদত্ত, আমি অন্য শ্রেণিবদ্ধ বায়েস মডেলটির উল্লেখ করে অন্যদের মন্তব্য প্রতিধ্বনিত করব। আপনি গাছ ভিত্তিক পদ্ধতির জন্য একটি অগ্রাধিকার উল্লেখ করেছেন, তবে এর কোনও বিশেষ কারণ আছে কি? ন্যূনতম সংখ্যক ভবিষ্যদ্বাণী নিয়ে আমি দেখতে পেলাম যে লিনিয়ারটিটি প্রায়শই একটি কার্যকর ধারণা হয় যা ভাল কাজ করে এবং কোনও মডেলের ভুল-স্পেসিফিকেশন অবশিষ্টাংশের প্লটগুলির মাধ্যমে সহজেই পরীক্ষা করা যায়।

আপনার যদি প্রচুর ভবিষ্যদ্বাণী থাকে, তবে @ র্যান্ডেল দ্বারা উল্লিখিত ইএম পদ্ধতির উপর ভিত্তি করে আরএফ উদাহরণটি অবশ্যই একটি বিকল্প হবে। আর একটি অপশন যা আমি এখনও দেখিনি তা হ'ল মডেল-ভিত্তিক বুস্টিং ( আরবিতে এমবুস্ট প্যাকেজের মাধ্যমে উপলব্ধ ) ব্যবহার করা। মূলত, এই পদ্ধতির সাহায্যে আপনি বিভিন্ন বেইস লার্নার্স (লিনিয়ার এবং নন-লিনিয়ার) ব্যবহার করে আপনার ফিক্সড-ইফেক্টের কার্যকরী ফর্মটি অনুমান করতে পারবেন এবং এলোমেলো প্রভাবগুলির অনুমানটি সেই নির্দিষ্ট ফ্যাক্টরের সমস্ত স্তরের জন্য একটি রিজ-ভিত্তিক জরিমানা ব্যবহার করে প্রায় অনুমান করা যায়। এই কাগজটি একটি দুর্দান্ত টিউটোরিয়াল (র্যান্ডম এফেক্টস বেস শিখরগুলি 11 পৃষ্ঠায় আলোচনা করা হয়েছে)।

আমি আপনার নমুনা ডেটা দেখেছি, তবে দেখে মনে হচ্ছে এটিতে কেবল শহর, অঞ্চল এবং দেশের এলোমেলো প্রভাবের পরিবর্তনশীল রয়েছে। এই ক্ষেত্রে, কোনও ভবিষ্যদ্বাণীকারীদের থেকে পৃথক হয়ে কেবল সেগুলিগুলির জন্য এমিরিকাল বেইস অনুমানগুলি গণনা করা কার্যকর হবে। সাধারণভাবে শুরু করার জন্য এটি সম্ভবত একটি ভাল অনুশীলন হতে পারে, সম্ভবত উচ্চ স্তরের (উদাহরণস্বরূপ দেশ), ফলাফলটিতে নূন্যতম বৈচিত্র্য ব্যাখ্যা করেছে এবং তাই এগুলি আপনার মডেলটিতে যুক্ত করা সম্ভবত উপযুক্ত হবে না।


1
mboostপ্যাকেজ প্রবর্তনের জন্য +1
রেন্ডেল

আমি যে সত্যিকারের ডেটা নিয়ে কাজ করছি তার মধ্যে দু'বারের চেয়ে অনেক বেশি ভেরিয়েবল রয়েছে যা প্রচুর বাস্তব-জগাখিচুড়ি যুক্ত করে যা আমার সাধারণ উদাহরণ দ্বারা গ্রহণ করা হয় না (যেমন, লাইনারিটি, কোডনির্ভেনডেন্স, অনুপস্থিত মান, শ্রেণিবদ্ধ মান ইত্যাদি) । আমার অভিজ্ঞতায়, বৃক্ষভিত্তিক শিক্ষার্থীরা সমস্ত বাস্তব-জগাখিচুড়ি সামাল দেওয়ার ক্ষেত্রে সেরা কাজ করে, এজন্যই আমি তাদের ব্যবহারের দিকে ঝুঁকছি। (কাগল-এর প্রায় সব কাঠামোগত ডেটা প্রতিযোগিতাটি এক্সজিবিস্ট জয়ের একটি কারণ রয়েছে)) mboostআকর্ষণীয় মনে হচ্ছে - আমি এটি একবার দেখব। ধন্যবাদ
বেন

1
আমি দেখছি, সম্মত হয়েছেন যে গাছগুলি অবশ্যই সেই পরিস্থিতিতে কার্যকর হতে পারে। সেক্ষেত্রে @ রেন্ডেলের পরামর্শ অনুসারে স্টিক করা ভাল বিকল্প হবে would এমবুস্টের একটি ট্রি বেস লার্নার পাশাপাশি রয়েছে যা এলোমেলো প্রভাব বেস শিখার সাথে মিলিয়ে কার্যকর প্রমাণিত হতে পারে।
dmartin

3

এটি উত্তরের চেয়ে মন্তব্য বা পরামর্শের চেয়ে বেশি, তবে আমি মনে করি আপনি এখানে একটি গুরুত্বপূর্ণ প্রশ্ন জিজ্ঞাসা করেছেন। যে কেউ একচেটিয়া মাল্টিলেভাল ডেটা নিয়ে কাজ করে, আমি বলতে পারি যে মাল্টিলেভাল ডেটা সহ আমি মেশিন লার্নিং সম্পর্কে খুব কম পেয়েছি। তবে ভার্জিনিয়া বিশ্ববিদ্যালয়ের পরিমাণগত মনোবিজ্ঞানে সাম্প্রতিক পিএইচডি স্নাতক ড্যান মার্টিন বহুস্তরের তথ্য সহ রিগ্রেশন ট্রি ব্যবহারের বিষয়ে তাঁর গবেষণামূলক প্রবন্ধটি করেছিলেন। নীচে এই কয়েকটি উদ্দেশ্যে তিনি লিখেছেন একটি আর প্যাকেজের লিঙ্ক রয়েছে:

https://github.com/dpmartin42/mleda/blob/master/README.md

এছাড়াও, আপনি তার গবেষণামূলক সন্ধান এখানে পাবেন:

http://dpmartin42.github.io/about.html


2
রেফারেন্সের জন্য ধন্যবাদ, এরিক! আমার গবেষণার সাথে একটি জিনিস মনে রাখবেন তা হ'ল মাল্টি-লেভেল ডেটা স্ট্রাকচারের সংস্পর্শে এসে বন পদ্ধতিগুলি "বাক্সের বাইরে" কীভাবে সম্পাদন করে তা কেবল মূল্যায়ন করে। @ রান্ডেল উল্লিখিত পদ্ধতিগুলি অধ্যায় 3 এ সাহিত্য পর্যালোচনা হিসাবে আলোচনা করা হয়েছে, তবে সিমুলেশন অধ্যয়নটি মূলত ব্রেম্যানের মূল অ্যালগরিদম এবং শর্তসাপেক্ষ শর্তাবলী গাছ / বন তদন্ত করে।
স্মার্টিন

1

RFcluster()আর "গ্যামক্লাস প্যাকেজ থেকে ফাংশনটি ক্লাস্টারযুক্ত শ্রেণিবদ্ধ ফলাফলের ডেটা সহ এলোমেলো বনগুলিকে কাজ করতে (এলোমেলোভাবে এবং অদক্ষভাবেই) অভিযোজিত করে"। নিম্নলিখিত উদাহরণ হেল্প পৃষ্ঠা থেকে এর জন্য RFcluster:

 library(randomForest)
 library(gamclass)
 data(mlbench::Vowel)
 RFcluster(formula=Class ~., id = V1, data = Vowel, nfold = 15,
           tree=500, progress=TRUE, printit = TRUE, seed = 29)

এটি একটি OOB যথার্থতা প্রদান করে (যেখানে "ব্যাগগুলি" স্পিকারের ব্যাগ, স্বতন্ত্র স্পিকারের নমুনাগুলির ব্যাগ নয়), যেটি আমার মেশিনটি 0.57 হিসাবে দেয়।


0

আপনি মেটা বুস্টটি একবার দেখতে চান : মিলার পিজে এবং অন্যান্য। মেটাবোস্ট: শ্রেণিবদ্ধভাবে ক্লাস্টারযুক্ত ডেটা সহ এক্সপ্লোরেটরি রিগ্রেশন বিশ্লেষণ arআরএক্স: 1702.03994

বিমূর্ত থেকে উদ্ধৃতি: আমরা ক্রমবর্ধমান ক্লাস্টারযুক্ত ডেটার জন্য মেটবোস্ট নামে পরিচিত সিদ্ধান্ত গৃহীত গাছগুলির বৃদ্ধির প্রস্তাব করি। এটি প্রতিটি গাছের কাঠামোকে গ্রুপগুলিতে সমান হতে সীমাবদ্ধ করে কাজ করে, তবে টার্মিনাল নোডের অর্থ পৃথক করে। এটি ভবিষ্যদ্বাণীকারীদের এবং বিভক্ত পয়েন্টগুলিকে প্রতিটি গোষ্ঠীর মধ্যে বিভিন্ন পূর্বাভাসের দিকে নিয়ে যায় এবং ননলাইনার গ্রুপের নির্দিষ্ট প্রভাবগুলির সান্নিধ্য লাভ করে। গুরুত্বপূর্ণভাবে, হাজার হাজার পর্যবেক্ষণ এবং শত শত ভবিষ্যদ্বাণী যেগুলি অনুপস্থিত মান ধারণ করতে পারে তার জন্য মেটাবুস্ট গণনাযোগ্যভাবে সম্ভব remains

এটি আর প্যাকেজ এমভিটিবুস্টে প্রয়োগ করা হয়েছে


1
দয়া করে কেবল লিঙ্কগুলির পরিবর্তে রেফারেন্স সরবরাহ করুন (বিশেষত আপনার প্রথম লিঙ্কের জন্য), কারণ লিঙ্কগুলি মারা যেতে পারে
এন্টোইন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.