বহু স্তরের / শ্রেণিবদ্ধ-কাঠামোগত ডেটাতে এলোমেলো বন


13

আমি মেশিন লার্নিং, কার্ট-কৌশল এবং এ জাতীয় মতামতে বেশ নতুন এবং আমি আশা করি আমার ভোদাভুটিও খুব স্পষ্ট নয়।

র্যান্ডম ফরেস্ট কীভাবে একাধিক স্তরের / স্তরক্রমিক ডেটা স্ট্রাকচারগুলি পরিচালনা করে (উদাহরণস্বরূপ যখন ক্রস-লেভেল ইন্টারঅ্যাকশন আগ্রহী)?

এটি হ'ল বিভিন্ন শ্রেণিবদ্ধ স্তরের বিশ্লেষণের ইউনিটগুলির সাথে ডেটা সেট করে ( উদাহরণস্বরূপ , শিক্ষার্থীরা বিদ্যালয়ের ভিতরেই বাসা বেঁধেছিল, শিক্ষার্থী এবং বিদ্যালয় উভয়েরই ডেটা সহ)।

উদাহরণ হিসাবে, প্রথম স্তরের ব্যক্তিদের সাথে একাধিক স্তরের ডেটা সেট বিবেচনা করুন ( উদাহরণস্বরূপ , ভোটদানের আচরণের সাথে ডেটা সহ, ডেমোগ্রাফিকগুলি ইত্যাদি) দ্বিতীয় স্তরের দেশগুলিতে বাসা বেঁধেছে (দেশ-স্তরের ডেটা সহ; যেমন , জনসংখ্যা):

ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54

আসুন এটি বলি যে votedপ্রতিক্রিয়া / নির্ভরশীল ভেরিয়েবল এবং অন্যগুলি হ'ল ভবিষ্যদ্বাণীকারী / স্বতন্ত্র ভেরিয়েবল। এই ধরণের ক্ষেত্রে মার্জিন এবং কিছু উচ্চ-স্তরের ভেরিয়েবলের ( যেমন , population) বিভিন্ন পৃথক স্তরের ভেরিয়েবল ইত্যাদির জন্য আংশিক নির্ভরতা (আংশিক নির্ভরতা) এর প্রান্তিক প্রভাবগুলি খুব আকর্ষণীয় হতে পারে। এর অনুরূপ ক্ষেত্রে glmঅবশ্যই আরও উপযুক্ত - তবে যখন অনেকগুলি ভেরিয়েবল, ইন্টারঅ্যাকশন এবং / বা অনুপস্থিত মান এবং / অথবা খুব বড়-স্ক্রিনের ডেটাসেটস থাকে তখন এগুলি glmনির্ভরযোগ্য নয়।

অনুচ্ছেদ: র্যান্ডম ফরেস্ট কি কোনও উপায়ে এই ধরণের ডেটা কাঠামো স্পষ্টভাবে পরিচালনা করতে পারে? নির্বিশেষে যদি ব্যবহার করা হয় তবে এটি কোন ধরণের পক্ষপাতিত্বের পরিচয় দেয়? র‌্যান্ডম ফরেস্ট যদি উপযুক্ত না হয়, তবে অন্য কোনও নকশাকৃত ধরণের পদ্ধতি কি এটি?

( গোষ্ঠীভিত্তিক ডেটা সম্পর্কিত প্রশ্ন র্যান্ডম বন সম্ভবত একই রকম, তবে সত্যই এর উত্তর দেয় না))


হাই @ মিকায়েলএন্ডারসন, আপনার উত্থাপিত প্রশ্নগুলির সমাধান কি খুঁজে পেয়েছেন? আমিও একই ধরণের পরিস্থিতির মুখোমুখি হয়েছি এবং আপনার অভিজ্ঞতাটি শোনার আশা করছি। ধন্যবাদ।
নভিসপ্রাগ

উত্তর:


4

র্যান্ডম অরণ্য সূক্ষ্মভাবে কাজ করবে, তবে হাইপারপ্যারামিটারগুলি টিউন করার সময় আপনাকে খুব সতর্কতা অবলম্বন করতে হবে (বিশেষত যদি আপনি সাধারণীকরণের পারফরম্যান্সের একটি বাস্তব পরিমাপ চান)। Dataতিহ্যবাহী ওওবি ত্রুটির প্রাক্কলনটি আশাবাদী হবে যেহেতু আপনার ডেটাতে প্রচুর "দ্বিগুণ" রয়েছে।

সঠিক টিউনিং এবং সাধারণীকরণের অনুমানের জন্য আপনাকে বুঝতে হবে যে কোনও নতুন ডেটার মুখোমুখি হওয়ার প্রত্যাশাগুলি কী কী the আপনি যদি নতুন দেশে এক্সট্রোপোলেট করতে চান, তবে আপনাকে পুনরায় নমুনা ভিত্তিক টিউনিংয়ের কিছু পদ্ধতি স্থাপন করতে হবে (যেমন কে-ভাঁজ ক্রস বৈধকরণ) যা দেশ অনুসারে স্তরবদ্ধ নমুনা তৈরি করে।

আপনি কীভাবে ডেটাটিকে এলোমেলোভাবে ফরেস্টে এনকোড করবেন সে বিষয়ে আপনাকেও যত্নবান হওয়া দরকার। এটি প্রদর্শিত হয় যা countryএকটি পৃথক পরিবর্তনশীল। এটি একটি সংখ্যাসূচক হিসাবে খাওয়ানো কিছুটা রুক্ষ হবে, তবে হতাশ নয় (বিশেষত যদি আপনি কোনও কার্যকর কোনও আইডির অর্ডার দিয়ে থাকেন)।


ওওবি ত্রুটির প্রাক্কলন কেন খুব আশাবাদী হবে এ বিষয়ে আপনি কিছুটা প্রসারিত করতে পারেন?
dmarin

2
আমি মনে করি তাদের আশাবাদ নির্ভর করে নতুন ডেটা কেমন হতে পারে তার উপর। যদি অন্য ডেটা থেকে নতুন ডেটা আসে, তবে সম্ভবত এই এলোমেলো বনটি পাশাপাশি কাজ করতে পারে না কারণ এটি OOB এর ত্রুটিগুলি নির্দেশ করে। এটি কারণ ওওবি ত্রুটিগুলি এখনও একই সেট কাউন্টির নমুনা থেকে উদাহরণস্বরূপ আসছে for
শেয়া পার্কস

3

আমি আসলে একটি আর প্যাকেজ নিয়ে কাজ করছি যা প্রাক-সংজ্ঞায়িত শ্রেণীর শ্রেণিবিন্যাসের সাথে স্থানীয় শ্রেণিবদ্ধ হিসাবে র্যান্ডমফোরস্টকে চালায়। প্যাকেজটি 'হাই-রে-ফরেস্ট' এর আওতায় আর ফোর্জে পাওয়া যাবে। প্যাকেজটি ইতিমধ্যে চালু রয়েছে, যদিও এটি ক্র্যান পরীক্ষার একটিতে (ম্যাকের জন্য) ব্যর্থ হচ্ছে, আমি ঠিক জানি না কেন। প্রতিটি পিতামাতার নায়কের জন্য ক্রমবর্ধমানভাবে ক্রমান্বয়ে চলমান ছাড়াও প্যাকেজেও পূর্বাভাস ফাংশন এবং কার্যকারিতা রয়েছে। কর্মক্ষমতা ব্যবস্থাগুলির মধ্যে একটি হায়ারারিকালিকাল বর্গ কাঠামোর জন্য অ্যাকাউন্টগুলি।

প্যাকেজটি শ্রেণিবদ্ধের প্রতিটি প্যারেন্ট নোডে স্থানীয় শ্রেণিবদ্ধ হিসাবে প্রথমে এলোমেলো বন চালিয়ে ক্রস লেভেল মিথস্ক্রিয়াকে সম্বোধন করে। পরবর্তী পূর্বাভাস ফাংশন প্রতিটি স্থানীয় শ্রেণিবদ্ধে প্রতিটি কেস প্রাপ্ত ব্যাগের ভোটের অনুপাত পুনরুদ্ধার করে। তারপরে ভোটের অনুপাতকে কঙ্কাল শ্রেণিবিন্যাসে পরিণত করার দুটি উপায় রয়েছে: ১. ধাপে ধাপে সংখ্যাগরিষ্ঠ বিধি- গাছের মূলের নিকটবর্তী স্থানীয় শ্রেণিবদ্ধের সাথে শুরু করুন এবং ভোটের সর্বোচ্চ অনুপাত প্রাপ্ত এই শ্রেণিবদ্ধের শিশুটিকে নির্বাচন করুন। এরপরে, নির্বাচিত নোডের সমস্ত শিশুদের দিকে নজর দিন এবং আবার সেই শিশুটি নির্বাচন করুন যা সম্পর্কিত স্থানীয় শ্রেণিবদ্ধে সর্বোচ্চ অনুপাত পেয়েছে। একটি টার্মিনাল নোড পৌঁছানো অবধি চালিয়ে যান। 2।

ভোটের গুণগত অনুপাত একটি নিয়মিত র্যান্ডমফোরস্ট দ্বারা উত্পাদিত ভোটের অনুপাতের সাথে তুলনীয়


2
আপনার প্যাকেজটি "ক্রস-লেভেল ইন্টারঅ্যাকশনগুলি" সম্বোধন করে এবং আপনি যদি তা পরিষ্কার করেন তবে এটি কীভাবে এটি করে? একটি প্যাকেজ উপস্থিত রয়েছে তা কেবল উত্তর দেওয়ার মতো নয় (সিভির অর্থ এখানে খুব সমালোচিত হওয়া উচিত নয়, তবে সিভি উচ্চমানের এমএল তথ্যের স্থায়ী ভান্ডার তৈরি করতে চাইছে এবং প্যাকেজটি বিদ্যমান রয়েছে তা সত্য নয়) বেশিরভাগ সেই
মানটির সাথে

দ্রষ্টব্য, আপনার ব্যবহারকারীর নাম, ডাব্লু / আপনার ব্যবহারকারী পৃষ্ঠার একটি লিঙ্ক, আপনি এখানে করা প্রতিটি পোস্টের সাথে স্বয়ংক্রিয়ভাবে সংযুক্ত থাকে। সুতরাং আপনার পোস্টগুলিতে স্বাক্ষর করার দরকার নেই - আসলে, আমরা আপনাকে পছন্দ করি না। আপনি যদি চান যে লোকেরা আপনার সাথে যোগাযোগ করতে সক্ষম হয়, আপনি নিজের ব্যবহারকারী পৃষ্ঠায় একটি পদ্ধতি (যেমন, আপনার ইমেল ঠিকানা) পোস্ট করতে পারেন।
গুং - মনিকা পুনরায়

এটি দুর্দান্ত, ধন্যবাদ @ যোনিগাভিশ। আপনার উত্তরটি সম্পাদনা করে তাতে তথ্যটি যুক্ত করবেন না কেন?
গুং - মনিকা পুনরায়

এটি কি আরও ভাল @ গুং?
যোনি গাভিশ

হ্যাঁ, এটি এটি করবে, @ যোনিগাভিশ, +1। সাইটে স্বাগতম।
গুং - মনিকা পুনরায়

3

একটি একক শ্রেণিবিন্যাস গাছে, এই গোষ্ঠীগুলি অন্য কোনও শ্রেণিবদ্ধ ভেরিয়েবলের মতোই কোড করা হয়। এটি প্রায়শই হয় বাইনারি কোডিং বা কেবল একটি পূর্ণসংখ্যা ব্যবহার হিসাবে করা হয়। হয় উভয় ব্যবহারের জন্য বিভিন্ন যুক্তি আছে। এলোমেলো অরণ্যে যদি আপনি বাইনারি কোডিং ব্যবহার করে থাকেন তবে কোনও গোষ্ঠী কোনও দেওয়া গাছের জন্য অন্তর্ভুক্ত / বাদ থাকবে। সুতরাং আপনার জন্য একটি সূচক থাকতে পারে country_2তবে তা নয় country_3। আপনি যদি গোষ্ঠীটি ভেরিয়েবলটিকে পূর্ণসংখ্যা হিসাবে ছেড়ে যান তবে ক্রমটি ক্রমশও ফলাফলটিকে প্রভাবিত করতে পারে। এর অর্থ কী country > 5এবং country < 12? আপনি যদি এলোমেলোভাবে নতুন পূর্ণসংখ্যার সাথে দেশগুলিকে পুনরায় লেবেল করেন তবে কীভাবে এটি পরিবর্তন হবে?

গাছ বাড়ানোর প্রতিটি ধাপে, অ্যালগরিদম বিভাজনের জন্য সন্ধান করে যা মানদণ্ডকে অনুকূল করে তোলে। যদি গ্রুপগুলির মধ্যে বৃহত্তর পার্থক্য থাকে তবে গ্রুপিং ভেরিয়েবলটি গুরুত্বপূর্ণ হবে তবে এটি যদি কেবলমাত্র মাঝারিভাবে গুরুত্বপূর্ণ এবং আপনি একটি গাছের ছাঁটাই করেন তবে ভেরিয়েবলটি মূলত বাদ যায়।

অন্যান্য মেশিন লার্নিং অ্যালগরিদমগুলির মতো, কার্ট এবং এলোমেলো বনগুলি যেমন শ্রেণিবদ্ধের মধ্যে পর্যবেক্ষণের মধ্যে নির্ভরতা হিসাবে বিবেচিত হয় না আপনি যেভাবে হায়ারারিকিকাল রিগ্রেশন মডেলটিতে প্রত্যাশা করবেন। যদি হয় পর্যবেক্ষণের মধ্যে নির্ভরতা, এটা অনেক গাছ যে গ্রুপিং ভেরিয়েবল ব্যবহার প্রজন্মের মাধ্যমে র্যান্ডম বন আলগোরিদিম দ্বারা দখল করা উচিত। তবে অন্যান্য ভেরিয়েবল যদি বৃহত্তর বৈষম্য দেখায় তবে গ্রুপিং ভেরিয়েবল উপেক্ষা করা যেতে পারে।

আপনার ক্ষেত্রে, countryএবং populationপুরোপুরি কোলাইনারি হয়। আপনার মডেল উভয় ভেরিয়েবল ব্যবহার করে অর্জিত তথ্য নেই। সুতরাং আপনি এলোমেলো বন মডেল কীভাবে আপনার ডেটাতে এই পরিবর্তনশীলগুলি ব্যবহার করবে সে সম্পর্কে ভাবতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.