আর ক্যারেট এবং এনএ


26

আমি এর প্যারামিটার টিউনিং ক্ষমতা এবং ইউনিফর্ম ইন্টারফেসের জন্য ক্যারেটকে অনেক বেশি পছন্দ করি তবে আমি লক্ষ্য করেছি যে এটি প্রয়োগ করা "নগ্ন" মডেলটি এনএকে অনুমতি দেয় এমনকি এমনকি এটির জন্য সর্বদা সম্পূর্ণ ডেটাসেটগুলি (যেমন এনএ ছাড়া হয়) প্রয়োজন। এটি খুব বিরক্তিকর, এটি সম্পর্কে যে কোনও ব্যক্তিকে শ্রমহীন অভিশংসনের পদ্ধতি প্রয়োগ করা উচিত, যা প্রথম স্থানে প্রয়োজনীয় নয়। কেউ কীভাবে এই জল্পনা থেকে বিরত থাকতে পারে এবং এখনও ক্যারেট সুবিধা ব্যবহার করতে পারে?


3
আপনাকে সর্বদা অনুপস্থিত মান সহ কিছু করতে হবে । আমার অবশ্যই বলতে হবে আমি আপনার প্রশ্নটি সত্যই বুঝতে পারি না - আপনি কিছু এক-আকারের-ফিট-সমস্ত পদ্ধতির সন্ধান করছেন ..? আপনি যদি এনএগুলিকে চাপিয়ে দিতে চান না, তবে আপনি তাদের সাথে কী করতে চান? মুছে ফেলা?
টিম

1
আমি এনএগুলিকে সেখানে ছেড়ে যেতে চাই এবং এনএদের সাথে মানিয়ে নিতে মডেলটিতে রেখে যেতে চাই। আমি যদি এটি সি 50 এ একটি সি 5.0 ফাংশন দিয়ে করি, উদাহরণস্বরূপ, এটি এনএ নিজেই মোকাবেলা করতে পারে তবে এই ক্ষেত্রে আমি ক্যারেট ব্যবহার করতে পারি না, কারণ ক্যারেটের ট্রেন ফাংশনটি আমি সি 5 ব্যবহার করতে চাইলেও ডেটাসেটগুলিতে কোনও এনএকে অনুমতি দেয় না। উপরে উল্লিখিত সি 50 এর 0 ক্রিয়াকলাপ।
ফ্রেড্রিক

3
তবে "মডেল" কী করে তা হ'ল এই ডেটাটিকে উপেক্ষা করে (মুছে ফেলা) আপনি আরও ছোট নমুনা রেখে চলেছেন; এটি অনুমান করে (মান) এই মানগুলি; অথবা এটি "এনএ" বিভাগটি পূর্বাভাস দেয় (উদাহরণস্বরূপ কিছু গাছ ভিত্তিক মডেলগুলিতে)। আপনি আপনার "মডেল" আরও কি করতে চান? কিছু সফ্টওয়্যার আপনার জন্য স্বয়ংক্রিয়ভাবে এই জিনিসগুলি করে, তবে ধারণা করুন যে আপনার কফি মেশিনটি আপনাকে "ডিফল্ট" কফি দিয়েছে ... কিছু সফ্টওয়্যার এনএর বাইরে "ডিফল্ট কফি" তৈরি করে, তবে এটি আপনার পক্ষে পাওয়া সেরা নয়।
টিম

3
আপনি কি নিশ্চিত যে ক্যারেটটি এনএগুলিকে অনুমতি দেয় না? আমি ট্রেন সহায়তা পৃষ্ঠায় ডিফল্ট উদাহরণ সহ এনএ প্রবর্তনের চেষ্টা করেছি এবং পদ্ধতিতে সি 5.0 ট্রেনটি ঠিক কাজ করেছে। এটি এলোমেলো বন নিয়ে ব্যর্থ হয়েছিল।
এমপিটিকাস

উত্তর:


32

ক্যারেটে ট্রেনের ক্রিয়াকলাপের জন্য, আপনি প্যারামিটারটি না.অ্যাকশন = না.পাস পাস করতে পারবেন এবং কোনও প্রিপ্রসেসিং নেই (প্রিপ্রসেসটি নির্দিষ্ট করবেন না, এটিকে তার ডিফল্ট মান NULL হিসাবে রেখে দিন)। এটি সরাসরি ভবিষ্যদ্বাণী ফাংশনটিতে আন-মোডেড এনএ মানগুলিকে পাস করবে (এটি অনুমানের ফাংশনগুলির কল করার আগে অনুপস্থিত মানগুলি গণনা করার জন্য প্রিপ্রসেস নির্দিষ্ট করতে হবে তাদের ক্ষেত্রে এটি অনুমানের ফাংশনগুলি যা অনুপস্থিত মানগুলিকে ব্যর্থ করতে সহায়তা করে না) pre উদাহরণ স্বরূপ:

train(formula,
      dataset,
      method = "C5.0",
      na.action = na.pass)

এই ক্ষেত্রে, C5.0 নিজেই অনুপস্থিত মানগুলি পরিচালনা করবে।


1
এটি একটি মজার আলোচনা হয়। শ্রেণিবদ্ধ পূর্বাভাসকারীকে আরও একটি স্তর হিসাবে এনএ যুক্ত করার ভুল কী হবে? যদি এনএগুলিকে মডেল বা অভিযুক্ত করা যায় না, অর্থাত্ অনুপস্থিতির উপস্থিতি আসলে তথ্যমূলক হয়, তবে মনে হয় যে কেবল এনএকে একটি অতিরিক্ত স্তর তৈরি করা কোনও অর্থবোধ করে?
সানোসাপিয়েন

একটি ব্যবহার এক্স তাহলে, Y স্পেসিফিকেশন trainথাকার na.action = na.pass: বিকল্প সেট নিম্নলিখিত ত্রুটির কারণ হবেSomething is wrong; all the RMSE metric values are missing
user29609

3

আপনি কি এনএগুলি পুনরায় সংশোধন করার চেষ্টা করেছেন? আপনার ডেটার বাইরে কিছু> 3 স্ট্যান্ডার্ড বিচ্যুতির (যেমন -12345) সি 5.0 কে আলাদাভাবে ভবিষ্যদ্বাণী করতে উত্সাহিত করা উচিত, যেমন এটি এনএর মতো হয়।


2

আমি মনে করি আপনার সমাধানটি হ'ল পূর্বাভাস () ফাংশনটি ব্যবহার করার সময় মানগুলিকে বোঝানো হবে ।

দেখুন ?predict.trainআরো বিস্তারিত জানার জন্য।

আপনি na.omitক্যারেটকে মান বোঝানোর অনুমতি দিতে ব্যবহার করতে পারেন । উদাহরণ স্বরূপ:

    ## S3 method for class 'train':
    predict((object, newdata = NULL, type = "raw", na.action = na.omit, ...)

http://www.inside-r.org/packages/cran/care/docs/predict.train থেকে

আর একটি সমাধান হ'ল ডেটা প্রিপ্রোসেসিংয়ের সময় অপব্যবহার করা :

    ## S3 method for class 'default':
    preProcess(x, 
       method = "knnImpute",   # or *bagImpute* / *medianImpute*
       pcaComp = 10,
       na.remove = TRUE,
       k = 5,
       knnSummary = mean,
       outcome = NULL,
       fudge = .2,
       numUnique = 3,
       verbose = TRUE,
       )

http://www.inside-r.org/node/86978 থেকে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.