আর এলোমেলোভাবে প্রতিস্থাপনের সাথে নমুনা ling


11

প্রতিস্থাপনের সাথে নমুনা দেওয়ার সময়ও এলোমেলোভাবে বাস্তবায়ন পর্যবেক্ষণের সংখ্যার বাইরে স্যাম্পলিংয়ের অনুমতি দেয় না। কেন?

ঠিকভাবে কাজ করে:

rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE)
rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE)

আমি কি করতে চাই:

rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE)
Error in randomForest.default(m, y, ...) : 
  sampsize can not be larger than class frequency

স্তরিত নমুনা ছাড়াই অনুরূপ ত্রুটি:

rf <- randomForest(Species ~ ., iris, sampsize=151, replace=TRUE)
Error in randomForest.default(m, y, ...) : sampsize too large

যেহেতু আমি উভয় ক্ষেত্রে = সত্য সত্য প্রতিস্থাপন করার সময় বুটস্ট্র্যাপ নমুনা নেওয়ার পদ্ধতিটি আশা করছিলাম, তাই আমি এই সীমাটি আশা করছিলাম না।

অপেক্ষাকৃত বিরল শ্রেণীর থেকে পর্যাপ্ত পরিমাণে নমুনা আঁকতে আমার উদ্দেশ্যটি হ'ল স্তরযুক্ত নমুনা বিকল্পের সাথে এটি ব্যবহার করা।


আসল কারণটি কী তা আমি নিশ্চিত নই তবে বুটস্ট্র্যাপের নমুনাটি সাধারণত আপনার মূল নমুনার সমান আকারের হয় তাই বুটস্ট্র্যাপের নমুনাগুলি গ্রহণ করার দাবিতে আমি কিছু প্রত্যাশা করে যা আশা করি তার সাথে এই আচরণটি পুরোপুরি মিলিত মনে হয়।
জয়েন

1
ঠিক আছে, এটি ডকুমেন্টেশনের নয় আমার শব্দ পছন্দ ছিল, তবে আপনার বক্তব্যটি যথাযথভাবে গ্রহণ করা হয়েছে। তবুও, বিতরণটি পুনরায় ভারসাম্য বজায় রাখার চেষ্টা করার সময় এই অসুবিধে হয় এবং এটি আরোপ করার জন্য সহায়ক সীমাবদ্ধতার কারণ আমি জানি না।
কোহোজ

উত্তর:


5

এটি কেন জবাব দেয় না , তবে এটি সম্পর্কে জানতে, প্রশিক্ষণের ডেটাতে বিরল শ্রেণীর জন্য ডেটা নকল করতে পারে এবং ফলাফলটির একটি স্তরিত নমুনা নিতে পারে।

"প্রাকৃতিক" ওভারস্যাম্পলিংয়ের সাথে তুলনা করে এই পদ্ধতির দুটি ত্রুটি:

  • ব্যাগের অনুমানের বাইরে থাকা আর অর্থবহ নয়
  • অবজেক্টটি সঞ্চয় করতে এবং এলোমেলো নমুনা নিতে আরও সংস্থান প্রয়োজন

তবে এটি পছন্দসই শ্রেণির অনুপাতের সাহায্যে বন নির্মানের অনুমতি দেবে।


4

আমি ঠিক একই প্রশ্নটি পেয়েছি এবং এটি এলোমেলোভাবে তৈরির জন্য চেঞ্জলগে পেয়েছি :

4.1-0 এ পরিবর্তনগুলি:

  • র্যান্ডমফোরেস্টে (), যদি স্যাম্পসাইজ দেওয়া হয়, শ্রেণি দ্বারা স্তরিত ছাড়াও এই প্রতিস্থাপন ছাড়াই এখন স্যাম্পলিং করা হয়। অতএব স্যাম্পসাইজ ক্লাস ফ্রিকোয়েন্সিগুলির চেয়ে বড় হতে পারে না।

মেনুয়ালি = TRUE প্রতিস্থাপন সেট করাও এটিকে ওভাররাইড করে বলে মনে হয় না।


2
এটি এমন পরিস্থিতিতে হতে পারে যে প্রতিস্থাপনের প্যারামিটারটি কেবল উপেক্ষা করা হচ্ছে, তবে পরে সেই পরিবর্তনলগের মধ্যে: 4.5-12-এ পরিবর্তন: * 'স্ট্র্যাটা' যুক্তিটি র্যান্ডমফোরেস্টে যুক্ত করা হয়েছে, যা 'স্যাম্পসাইজ' এর সাথে একযোগে, নমুনা দেওয়ার অনুমতি দেয় (বা এর সাথে বা স্ট্র্যাট ভেরিয়েবল অনুসারে (প্রতিস্থাপন ছাড়াই) (যা ক্লাস ভেরিয়েবল ছাড়া অন্য কিছু হতে পারে)। বর্তমানে কেবল শ্রেণিবিন্যাসে কাজ করে।
কোহোজ

উদাহরণস্বরূপ, একই ত্রুটি উত্পন্ন হয়rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), strata=iris$Species, replace=TRUE)
cohoz

তদতিরিক্ত, বর্তমান সংস্করণ (4.6-7) সহ কয়েকটি পরীক্ষার কেস সূচিত করে যে নমুনাগুলি প্রতিস্থাপনের সাথে নেওয়া হয়েছে, সুতরাং এটি ব্যাখ্যা নয়।
কোহোজ

1
আমি র্যান্ডমফোরেস্ট চালানোর আগে ওভারস্যাম্পলিং শেষ করেছি। এই পদ্ধতিটির সাথে সম্ভবত কিছু ভুল আছে, তবে ফলাফলগুলি পরীক্ষা করার সময় এটি কাজ করা মনে হয়।
hgcrpd

1
না, এটিই আমি ব্যবহার করি এবং এটি যা চায় ঠিক তা করে। বিশেষত একটি অপেক্ষাকৃত বিরল শ্রেণীর ব্যবহারের ক্ষেত্রে, প্রশিক্ষণের সেটটিতে এবং শ্রেণিবদ্ধ নমুনা নেওয়ার আগে সেই শ্রেণীর জন্য ডেটা নকল করা ভালভাবে কাজ করে এবং অতিরিক্ত মেমরি / সিপিইউয়ের ক্ষেত্রে "ব্যয়" খুব বেশি হয় না। আমি অনুমান করি যে এটি একটি "উত্তর" লিখে
রাখাই উপযুক্ত
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.