আর এর এলোমেলো প্যাকেজ 32 টিরও বেশি স্তরের সাথে ফ্যাক্টর পরিচালনা করতে পারে না। যখন এটি 32 টিরও বেশি স্তরের দেওয়া হয় তখন এটি একটি ত্রুটি বার্তা প্রকাশ করে:
32 টিরও বেশি বিভাগ সহ শ্রেণিবদ্ধ ভবিষ্যদ্বাণী পরিচালনা করতে পারে না।
তবে আমার কাছে থাকা ডেটাতে কয়েকটি কারণ রয়েছে। এর মধ্যে কয়েকটিতে 1000+ স্তর রয়েছে এবং তাদের কারও কারও 100+ রয়েছে। এমনকি এটিতে মার্কিন যুক্তরাষ্ট্রের 'রাষ্ট্র' রয়েছে যা 52 is
সুতরাং, এখানে আমার প্রশ্ন।
কেন এমন সীমাবদ্ধতা রয়েছে? র্যান্ডমফোরেস্ট সাধারণ ক্ষেত্রে এমনকি চালাতে অস্বীকার করে।
> d <- data.frame(x=factor(1:50), y=1:50) > randomForest(y ~ x, data=d) Error in randomForest.default(m, y, ...) : Can not handle categorical predictors with more than 32 categories.
যদি এটি কেবল মেমরির সীমাবদ্ধতার কারণে হয় তবে কীভাবে স্কাইকিট শিখতে হবে এর র্যান্ডমফরেস্টরেগ্রিজার 32 টিরও বেশি স্তরের সাথে চালাতে পারে?
এই সমস্যাটি হ্যান্ডেল করার সর্বোত্তম উপায় কী? ধরুন আমার কাছে এক্স 1, এক্স 2, ..., এক্স 50 স্বতন্ত্র ভেরিয়েবল এবং ওয়াই নির্ভরশীল পরিবর্তনশীল। এবং ধরুন যে এক্স 1, এক্স 2 এবং এক্স 3 এর 32 টিরও বেশি স্তর রয়েছে। আমার কি করা উচিৎ?
আমি যা ভাবছি তা এক্স 1, এক্স 2 এবং এক্স 3 এর প্রতিটি জন্য ক্লাস্টারিং অ্যালগরিদম চালাচ্ছে যেখানে দূরত্বকে ওয়াইয়ের পার্থক্য হিসাবে সংজ্ঞায়িত করা হয়েছে। তিনটি সমস্যাযুক্ত ভেরিয়েবল থাকায় আমি তিনটি ক্লাস্টারিং চালাবো। এবং প্রতিটি ক্লাস্টারিংয়ে, আমি আশা করি আমি একই স্তরের সন্ধান করতে পারি। এবং আমি তাদের একীভূত করব।
কেমন লাগছে এই শব্দ?