র‌্যান্ডম ফরেস্ট মডেলের আরও সাম্প্রতিক ডেটা ওজন


14

আমি 6 টি বিভাগের মধ্যে বৈষম্য র্যান্ডম ফরেস্টের সাথে একটি শ্রেণিবদ্ধকরণ মডেলকে প্রশিক্ষণ দিচ্ছি। আমার লেনদেনের ডেটাতে প্রায় 60k + পর্যবেক্ষণ এবং 35 ভেরিয়েবল রয়েছে। এটি প্রায় দেখতে কেমন লাগে তার একটি উদাহরণ এখানে।

 _________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay  |
|-------|----------------|-------|-------|--------|
|111    | 2013-04-01     | 12    | US    | group1 |
|222    | 2013-04-12     | 6     | PNG   | group1 |
|333    | 2013-05-05     | 30    | DE    | group2 |
|444    | 2013-05-10     | 78    | US    | group3 |
|555    | 2013-06-15     | 15    | BR    | group1 |
|666    | 2013-06-15     | 237   | FR    | group6 |

মডেলটি তৈরি হয়ে গেলে, আমি গত কয়েক সপ্তাহ থেকে পর্যবেক্ষণগুলি করতে চাই। সিস্টেমে যেমন পরিবর্তন হয়েছে তেমনি সাম্প্রতিক পর্যবেক্ষণগুলি বর্তমান পর্যবেক্ষণগুলির পরিবেশের সাথে আরও ঘনিষ্ঠভাবে মিলবে যা আমি পূর্বাভাস দিতে চাই। অতএব, আমি একটি ওজন পরিবর্তনশীল তৈরি করতে চাই যাতে র্যান্ডম ফরেস্ট সাম্প্রতিক পর্যবেক্ষণগুলিতে আরও বেশি গুরুত্ব দেয়।

R এ র্যান্ডমফোরেস্ট প্যাকেজটি পর্যবেক্ষণে ওজন পরিচালনা করতে সক্ষম কিনা তা কি কেউ জানেন?

এছাড়াও, আপনি কি দয়া করে ওজন পরিবর্তনশীল তৈরির জন্য একটি ভাল পদ্ধতিটি বলতে পারেন? উদাহরণস্বরূপ, আমার ডেটা 2013 হিসাবে, আমি ভাবছিলাম যে আমি তারিখ থেকে মাসের নম্বরটিকে ওজন হিসাবে নিতে পারি। কেউ কি এই পদ্ধতিতে সমস্যা দেখছেন?

অগ্রিম ধন্যবাদ!


আপনি স্ট্যাক ওভারফ্লোতে কোনও প্রশ্ন পোস্ট করার বিষয়টি বিবেচনা করতে পারেন। বাস্তবায়ন সম্পর্কিত সমস্যাগুলিতে তারা আপনাকে আরও সহায়তা করবে। এই সাইটের ফোকাস আরও তত্ত্ব-ভিত্তিক।
অ্যালেক্স উইলিয়ামস

আমি সম্ভবত আমার লেখায় যথেষ্ট পরিস্কার নই, তবে আমার প্রশ্নগুলি বাস্তবায়নের সমস্যা সম্পর্কিত নয়। উদাহরণস্বরূপ, আমি যে অংশে ওজন পরিবর্তনশীল তৈরির বিষয়ে জিজ্ঞাসা করছি, তার অর্থ আমি আর এর মধ্যে কোন কমান্ড আমাকে এটি করতে সহায়তা করতে পারে তা জিজ্ঞাসা করার অর্থ নয়। আমি কেবল ভাবছিলাম যে এটির মাধ্যমে আমি এলোমেলো বনের কোনও অনুমান লঙ্ঘন করব কিনা।
নিকোলে নেनोভ

1
উত্তরটি হ'ল না, আমি বিশ্বাস করি। আমি নীচের আমার উত্তরে ব্যাখ্যা হিসাবে আপনি বিভিন্ন গ্রুপকে ওজন নির্ধারণ করতে পারেন। আমি বুঝতে পারি এটি আপনার আগ্রহী নয়, তবে এটি একটি অনুরূপ ধারণা। আমার পরামর্শ অনুসারে আপনি সদৃশ পর্যবেক্ষণগুলি ব্যবহার করার চেষ্টা করতে পারেন।
অ্যালেক্স উইলিয়ামস

উত্তর:


5

rangerআর ( পিডিএফ ) এর প্যাকেজটি , যা তুলনামূলকভাবে নতুন, এটি করবে। এলোমেলো বনগুলির রেঞ্জার বাস্তবায়নের একটি case.weightsযুক্তি রয়েছে যা পৃথক কেস / পর্যবেক্ষণের ওজন সহ একটি ভেক্টর নেয় takes


ঝরঝরে! আমি যে সলিউশনটি সন্ধান করছিলাম তার মতো Seams। সম্ভাব্যতা কেস.ওয়েটগুলি কীভাবে গণনা করা হয় তার বিশদটির সাথে কী আপনার লিঙ্ক আছে?
নিকোলে নেनोভ

1
তারা কীভাবে সম্ভাবনাগুলি গণনা করে আমি 100% নিশ্চিত নই - তবে আমি মনে করি, আপনি যদি একটি সূচনা চান তবে এই কাগজটি একবার দেখুন: ম্যালি, জেডি, কৃপ্পা, জে।, দাশগুপ্ত, এ।, ম্যালি, কেজি এবং জিগেলার , এ। (2012)। সম্ভাব্যতা মেশিন: ননপ্যারমেট্রিক লার্নিং মেশিনগুলি ব্যবহার করে ধারাবাহিক সম্ভাবনার অনুমান। পদ্ধতিগুলি ইনফ মেড 51: 74-81। dx.doi.org/10.3414/ME00-01-0052
অনুদান RWHumphries

7

আপনি সাম্প্রতিক ডেটা পয়েন্টগুলি উপস্থাপন করতে ডেটাটিকে পুনরায় নমুনা করতে পারেন। আরএফ যেভাবেই প্রতিস্থাপনের সাথে একটি নমুনা পদক্ষেপ জড়িত এবং ভারসাম্যহীন শ্রেণীর জন্য "মোটামুটি ভারসাম্য ব্যাগিং" সংখ্যালঘু শ্রেণীর উপস্থাপনের জন্য নমুনা ব্যবহার করে এবং আমার অভিজ্ঞতার ক্ষেত্রে শ্রেণিভিত্তিক এলোমেলো বন হিসাবে ফলাফলের ভাল বা আরও ভাল ফলাফল করে।

বাস্তবায়ন সহজ রাখার জন্য ব্যাগিংয়ের পরিবর্তে আপনার প্রশিক্ষণ ম্যাট্রিক্স ( রেফারেন্স ) তৈরির স্তরে আপনি পুনরায় নমুনা জানাতে পারেন যদিও আমি সেই ক্ষেত্রে অনেক পুনরাবৃত্তি করার পরামর্শ দিই।

অভ্যন্তরীণভাবে সাইকিট-শিখুন সহ এলোমেলো বনের কিছু বাস্তবায়ন নমুনা ওজনের ব্যবহার করে প্রতিটি নমুনা কতবার ব্যাগে রয়েছে তা ট্র্যাক করে রাখতে এবং এটি ব্যাগিং স্তরে ওভারস্যাম্পলিংয়ের সমতুল্য এবং ক্রস বৈধকরণের প্রশিক্ষণ স্তরে ওভারস্যাম্পলিংয়ের সমান হওয়া উচিত।


4

আপনার "ক্লাসওট" প্যারামিটারটি সন্ধান করা উচিত। এই আপনি সরাসরি আগ্রহী হবে বলে মনে হচ্ছে না, কিন্তু আপনার কি একটা ধারনা দিতে পারে চান না।

এখানে দেখুন: স্ট্যাক এক্সচেঞ্জ প্রশ্ন # 1

এবং এখানে: স্ট্যাক এক্সচেঞ্জ প্রশ্ন # 2

ভারী এলোমেলো বন সম্পর্কিত নিবন্ধ: পিডিএফ

প্রাথমিক ধারণাটি ওজন শ্রেণীর ক্ষেত্রে যা খুব কমই পর্যবেক্ষণ করা গোষ্ঠী / শ্রেণিবিন্যাস আপনার বুটস্ট্র্যাপের নমুনায় নির্বাচিত হওয়ার সম্ভাবনা বেশি। ভারসাম্যহীন ডেটার জন্য এটি সহায়ক (যখন বিভিন্ন শ্রেণীর পূর্বের সম্ভাবনাগুলি ব্যাপকভাবে পৃথক হয়)।

আমার কাছে মনে হচ্ছে আপনি অনুরূপ কিছু করতে চান তবে সাম্প্রতিক ইভেন্টগুলির জন্য (নির্দিষ্ট গ্রুপ / শ্রেণিবদ্ধার জন্য নয়)। এটি করার একটি সহজ উপায় হ'ল সাম্প্রতিক পর্যবেক্ষণগুলির জন্য সদৃশ পর্যবেক্ষণগুলি (যেমন পুনরাবৃত্তিযুক্ত, অভিন্ন সারিগুলিতে রাখা) তৈরি করা। তবে এটি সম্ভাব্যভাবে অদক্ষ হতে পারে। আর এর প্রতিটি পর্যবেক্ষণকে সরাসরি ওজন করার কোনও উপায় আমি জানি না, তবে আমি এটি সম্পর্কে অজানা থাকতে পারি।

আপনি বিকল্প বাস্তবায়নের সন্ধানের জন্য আশেপাশে চেষ্টা করতে পারেন, যেমন সি তে - সবচেয়ে খারাপভাবে এগুলি কিছুটা কোডিংয়ের মাধ্যমে কাস্টমাইজ করা যেতে পারে।


1
লিঙ্কগুলির জন্য অনেক ধন্যবাদ, অ্যালেক্স। আপনি নিজের শ্রেণিবদ্ধদের ওজন করতে চান এমন ক্ষেত্রে উদাহরণগুলি কাগজটি দেয়। আমি আশঙ্কা করছি এটি আমার জন্য কাজ করছে না, যদিও শ্রেণিবদ্ধকারীদের ওজন ছাড়া অন্য কোনও কিছুর জন্য "ক্লাসওয়ট" প্যারামিটারটি ব্যবহার করা যায় না - যেমন আপনার প্রতি ক্লাসে একটি ওজন প্রয়োজন, অন্যথায় এলোমেলোভাবে একটি ত্রুটি ফিরে আসবে।
নিকোলে নেनोভ

1
হ্যাঁ, আপনি সরাসরি "শ্রেণিবদ্ধ" ব্যবহার করতে পারবেন বলে আমি মনে করি না। আপনি "অবজারভেশনস" এর মতো কিছু পরামিতি চান তবে আমার মনে হয় না এটি বিদ্যমান আছে।
অ্যালেক্স উইলিয়ামস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.