এখানে কি এমন কোনও র্যান্ডম ফরেস্ট বাস্তবায়ন রয়েছে যা খুব বিরল ডেটার সাথে ভাল কাজ করে?


23

এমন কি কোনও আর এলোমেলো বন বাস্তবায়ন যা খুব বিরল ডেটার সাথে ভালভাবে কাজ করে? আমার কাছে কয়েক হাজার বা কয়েক মিলিয়ন বুলিয়ান ইনপুট ভেরিয়েবল রয়েছে তবে কেবলমাত্র শত শত বা অন্য কোনও নির্দিষ্ট উদাহরণের জন্য সত্য হবে।

আমি আর এর তুলনায় তুলনামূলকভাবে নতুন এবং লক্ষ্য করেছি যে বিচ্ছুরিত ডেটা নিয়ে কাজ করার জন্য একটি 'ম্যাট্রিক্স' প্যাকেজ রয়েছে তবে মানক 'র্যান্ডমফোরস্ট' প্যাকেজটি এই ডেটা ধরণের স্বীকৃতি হিসাবে দেখায় না। যদি এটি গুরুত্বপূর্ণ হয় তবে ইনপুট ডেটা আর এর বাইরে তৈরি এবং আমদানি হতে চলেছে।

কোন পরামর্শ? আমি ওয়েকা, মাহাউট বা অন্যান্য প্যাকেজগুলি ব্যবহার করেও দেখতে পারি।


আমি যতদূর বলতে পারি, বিরল সিদ্ধান্ত গাছের জন্য আর প্যাকেজ নেই। আমি বিশ্বাস করি যে বিরল সিদ্ধান্ত গাছের জন্য অ্যালগরিদম আছে, যা আর-এ প্রয়োগ করা হলে এলোমেলো বন তৈরিতে ব্যবহার করা যেতে পারে।
Zach

2
এখানে একটি ভাল প্রার্থী: cs.cornell.edu/~nk/fest । আপনি যদি libsvm ফর্ম্যাটে আপনার ডেটা রফতানি করতে পারেন তবে আপনি এই কমান্ড লাইন প্রোগ্রামটি ব্যবহার করতে পারেন। একটি আর বন্দর দেখতে পছন্দ করবে ...
Zach

জাচ - লিঙ্কটি মারা গেছে বলে মনে হচ্ছে।
বেনোইট_প্লান্ট

2
@ cmoibenlepro লিঙ্কটি lowrank.net/nikos/fest
seanv507

লিঙ্কটি আমার পক্ষে ভাল কাজ করেছে
ডেভিড মার্কস

উত্তর:


13

না, আরে স্পার্স ডেটাগুলির জন্য কোনও আরএফ বাস্তবায়ন নেই আংশিক কারণ আরএফ এই ধরণের সমস্যায় খুব ভাল ফিট করে না - ব্যাগিং এবং স্প্লিটগুলির সাবঅপটিমাল নির্বাচনগুলি কেবলমাত্র শূন্য-অঞ্চলগুলিতে মডেল অন্তর্দৃষ্টি নষ্ট করতে পারে।

কিছু কার্নেল পদ্ধতি চেষ্টা করুন বা কিছু বর্ণনাকারী (বা কিছু মাত্রিক হ্রাস পদ্ধতি ব্যবহার করুন) এর সাথে আপনার ডেটাটিকে আরও কিছু উপভোগে রূপান্তরিত করার বিষয়ে আরও ভাল চিন্তা করুন।


হ্যাক-আর এর উত্তরটি xgboost প্যাকেজটি নির্দেশ করে, যা স্পারস ম্যাট্রিক্সের সাহায্যে এলোমেলো বন করতে সক্ষম।
এডগার

7

আসলে, হ্যাঁ আছে

এটি xgboost, যা এক্সট্রিম গ্রেডিয়েন্ট বুস্টিংয়ের জন্য তৈরি। এটি বর্তমানে প্রচুর লোকের জন্য আর এলোমেলো ম্যাট্রিক্স সহ মডেলগুলি চালনার পছন্দের প্যাকেজ এবং উপরের লিঙ্কটি যেমন ব্যাখ্যা করেছে, আপনি প্যারামিটারগুলি টুইট করে র্যান্ডম ফরেস্টের জন্য এটি ব্যবহার করতে পারেন !


4

আর প্যাকেজ "রেঞ্জার" করা উচিত।

https://cran.r-project.org/web/packages/ranger/ranger.pdf

র্যান্ডম বনগুলির একটি দ্রুত বাস্তবায়ন, উচ্চ মাত্রিক ডেটার জন্য বিশেষভাবে উপযুক্ত।

র্যান্ডমফরেস্টের সাথে তুলনা করে, এই প্যাকেজটি সম্ভবত আমি দেখেছি সবচেয়ে দ্রুত আরএফ বাস্তবায়ন। এটি স্থানীয়ভাবে শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে আচরণ করে।


-4

কুইক-আর নামে একটি ব্লগ রয়েছে যা আপনাকে আর এর মূল বিষয়গুলি সম্পর্কে সহায়তা করবে should

আর প্যাকেজ নিয়ে কাজ করে। প্রতিটি প্যাকেজ আলাদা কিছু করতে পারে। "র্যান্ডমফোরসেটস" নামক এই প্যাকেজগুলি রয়েছে যা আপনি যা চাইছেন ঠিক তেমন হওয়া উচিত।

সচেতন থাকুন যে বিরল ডেটা আপনার যে পদ্ধতি প্রয়োগ করুক না কেন সমস্যা দেয় give আমার জানা মতে এটি একটি খুব উন্মুক্ত সমস্যা এবং সাধারণভাবে ডেটা মাইনিং বিজ্ঞানের চেয়ে বেশি শিল্প art এলোমেলো বনগুলি সামগ্রিকভাবে খুব ভাল করে তবে এগুলি সর্বদা সেরা পদ্ধতি নয়। আপনি অনেক স্তর সহ একটি নিউরাল নেটওয়ার্ক চেষ্টা করে দেখতে চাইতে পারেন, এটি সাহায্য করতে পারে।


4
না, এলোমেলো তথ্য সহ এলোমেলোভাবে দুর্ভাগ্যজনকভাবে খারাপ, সুতরাং পুরো প্রশ্ন। Classwt প্যারামিটারটি যথাযথভাবে র্যান্ডমফোরস্টে প্রয়োগ করা হয় না। ম্যানুয়াল ওভারস্যাম্পলিংয়ের একটি পদ্ধতি, তবে এটি ওওবি ত্রুটিটিকে মেসেজ করে। যাইহোক, প্যাকেজটিকে 'র্যান্ডম ফোরেস্টস' বলা হয় না।
স্মি

1
এর যে অংশগুলি সত্য তা প্রশ্নের জবাব নয়।
সাইকোরাক্স মনিকাকে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.