Itionতিহ্যগত সিদ্ধান্ত গাছ বনাম শর্ত সাপেক্ষে গাছ

অধিকতর inতিহ্যবাহী সিদ্ধান্ত গাছের অ্যালগরিদমের (যেমন আর-তে) তুলনায় শর্তাধীন আনফরেন্স গাছের মধ্যে ( আর মধ্যে প্যাকেজ ctreeথেকে party) যে কেউ প্রাথমিক পার্থক্য ব্যাখ্যা করতে পারে rpart?

সিআই গাছগুলি কী আলাদা করে তোলে?
শক্তি এবং দুর্বলতা?

আপডেট: আমি হরথর্ন এট আল-এর কাগজটি দেখেছি যা চি মন্তব্যগুলিতে উল্লেখ করেছে। আমি এটি সম্পূর্ণরূপে অনুসরণ করতে সক্ষম ছিলাম না - কেউ কীভাবে ব্যাখ্যা করতে পারেন যে কীভাবে চলকগুলি অনুমতি ব্যবহার করে নির্বাচিত হয় (উদাহরণস্বরূপ একটি প্রভাব ফাংশন কী)?

ধন্যবাদ!

r machine-learning cart

— B_Miner
সূত্র

আপনার অর্থ এমন একটি ব্যাখ্যা যা হথর্নের কাগজে বর্ণিত আছে তার থেকেও বেশি ? আমি থেকে কিছু চমৎকার কনটেন্ট কপিরাইট আইনে পূর্বানুমতি স্মরণ Carolin Strobl এ IMPS2009 সম্মেলন; আমি মনে করি তার ওয়েবসাইটে কিছু হ্যান্ডআউট আছে।

— chl

এই লিঙ্কটি বিভিন্ন ধরণের সিদ্ধান্তের গাছের প্যাকেজগুলির মধ্যে তুলনা দেখায় r-blogger.com/a-brief-tour-of-thetstree-

— এবং-

এর মূল্য কী:

উভয় rpartএবং ctreeপুনরাবৃত্তভাবে covariates একটি সেট মান উপর ভিত্তি করে নির্ভরশীল পরিবর্তনশীল অবিচ্ছিন্ন বিভাজন সঞ্চালন । rpartএবং সম্পর্কিত অ্যালগরিদমগুলি সাধারণত বর্তমান কোভেরিয়েট বাছাই করার জন্য তথ্য ব্যবস্থা (যেমন গিনি সহগ ) নিয়োগ করে ।

ctree, এর লেখকদের মতে ( সিএলএর মন্তব্য দেখুন) নিম্নলিখিত rpart(এবং সম্পর্কিত পদ্ধতি) এর পরিবর্তনশীল নির্বাচন পক্ষপাত এড়িয়ে চলে : তারা ভেরিয়েবলগুলি বেছে নেওয়ার ঝোঁক রাখে যার অনেকগুলি সম্ভাব্য বিভাজন বা অনেকগুলি মূল্যবোধ রয়েছে। অন্যদের মত নয়, ctreeভেরিয়েবল নির্বাচন করার পরিবর্তে ভেরিয়েবল নির্বাচন করার জন্য একটি তাত্পর্য পরীক্ষা পদ্ধতি ব্যবহার করে যা কোনও তথ্য পরিমাপকে সর্বাধিক করে তোলে (যেমন গিনি সহগ)।

তাত্পর্য পরীক্ষা বা আরও ভাল: অ্যালগরিদমের প্রতিটি শুরুতে গণনা করা একাধিক তাত্পর্য পরীক্ষাগুলি (কোভেরিয়েট নির্বাচন করুন - বিভাজন নির্বাচন করুন - পুনরাবৃত্তি নির্বাচন করুন) হ'ল ফলশ্রুতি পরীক্ষা , অর্থাৎ "নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যানের বিতরণ গণনা করে প্রাপ্ত হয় পরীক্ষিত পরিসংখ্যানগুলির সমস্ত সম্ভাব্য মান পর্যবেক্ষণ করা ডাটা পয়েন্টগুলিতে লেবেলগুলির পুনর্বিন্যাসের আওতায়। " (উইকিপিডিয়া নিবন্ধ থেকে)।

এখন পরীক্ষার পরিসংখ্যানগুলির জন্য: এটি নির্ভরশীল ভেরিয়েবল এবং কোভারিয়েটগুলির রূপান্তরগুলি (পরিচয় সহ, যে কোনও রূপান্তর নয়) থেকে গণনা করা হয়। উভয় ভেরিয়েবলের জন্য আপনি কোনও সংখ্যক রূপান্তর চয়ন করতে পারেন। ডিভি (নির্ভরশীল পরিবর্তনশীল) এর জন্য, রূপান্তরটিকে আপনি যে প্রভাবের ফাংশন সম্পর্কে জিজ্ঞাসা করেছিলেন তা বলা হয় called

উদাহরণ ( কাগজ থেকে নেওয়া ):

যদি ডিভি এবং কোভেরিয়েট উভয়ই সংখ্যাসূচক হয়, তবে আপনি পরিচয় রূপান্তর নির্বাচন করতে পারেন এবং কোভেরিয়েট এবং ডিভিয়ের মানগুলির সমস্ত সম্ভাব্য ক্রমশিকার মধ্যে পারস্পরিক সম্পর্ক গণনা করতে পারেন। তারপরে, আপনি এই নির্গমন পরীক্ষাটি থেকে পি- মূল্য নির্ধারণ করুন এবং এটি অন্যান্য সমবায়িকদের জন্য পি- মূল্যগুলির সাথে তুলনা করুন ।
যদি ডিভি এবং কোভেরিয়েট উভয়ই নামমাত্র (অযৌক্তিক শ্রেণীবদ্ধ) হয় তবে পরীক্ষার পরিসংখ্যানকে একটি आकस्मिक টেবিল থেকে গণনা করা হয়।
আপনি এই সাধারণ প্রকল্প থেকে যে কোনও ধরণের রূপান্তর (পরিচয় রূপান্তর সহ) থেকে সহজেই অন্যান্য ধরণের পরীক্ষার পরিসংখ্যান তৈরি করতে পারেন।

এর মধ্যে অনুক্রমের পরীক্ষার জন্য ছোট উদাহরণ R:

require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE) 
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate)) 
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the 
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test

এখন ধরুন আপনার উপরের মতো কেবল একটি নয়, কোভারিয়েটগুলির একটি সেট রয়েছে। তারপরে উপরের স্কিমের মতো প্রতিটি সমবায়ার জন্য পি- ভ্যালু গণনা করুন এবং সবচেয়ে ছোট পি- মূল্য দিয়ে একটি নির্বাচন করুন । আপনি সরাসরি পারস্পরিক সম্পর্কের পরিবর্তে পি- মূল্যগুলি গণনা করতে চান , কারণ আপনার বিভিন্ন ধরণের (যেমন সংখ্যাসূচক এবং শ্রেণিবদ্ধ) কোভারিয়েট থাকতে পারে।

একবার আপনি কোনও কোভেরিয়েট নির্বাচন করে নিলে এখন সম্ভাব্য সমস্ত বিভাজনগুলি (বা প্রায়শই সমস্ত সম্ভাব্য বিভাজনগুলির মধ্যে কিছুটা সীমিত সংখ্যক উদাহরণস্বরূপ, বিভাজনের আগে ডিভি এর ন্যূনতম সংখ্যক উপাদানগুলির প্রয়োজনের মাধ্যমে) অন্বেষণ করুন পুনরায় অনুমতিপত্র ভিত্তিক পরীক্ষার মূল্যায়ন করুন।

ctreeজন্য উভয় ডিভি এবং covariates সম্ভব রূপান্তরের একটি সংখ্যা দিয়ে আসে (জন্য সহায়তা দেখুন Transformationsমধ্যে partyপ্যাকেজ)।

সুতরাং সাধারণত মূল পার্থক্যটি মনে হয় যে ctreeপরিসংখ্যানগত তত্ত্বের উপর ভিত্তি করে কোভারিয়েট নির্বাচন পরিকল্পনা ব্যবহার করে (অর্থাত্ ক্রম-ভিত্তিক তাত্পর্যপূর্ণ পরীক্ষা দ্বারা নির্বাচন করা) এবং এর ফলে কোনও সম্ভাব্য পক্ষপাত এড়ানো যায় rpart, অন্যথায় তারা অনুরূপ বলে মনে হয়; উদাহরণস্বরূপ শর্তসাপেক্ষ অনুমিত গাছগুলি এলোমেলো বনগুলির জন্য বেস শিখার হিসাবে ব্যবহার করা যেতে পারে।

এটি যতদূর আমি পেতে পারি is আরও তথ্যের জন্য, আপনাকে সত্যিই কাগজপত্রগুলি পড়তে হবে। নোট করুন যে আমি দৃ strongly়ভাবে প্রস্তাব দিচ্ছি যে আপনি যখনই কোনও ধরণের পরিসংখ্যানগত বিশ্লেষণ প্রয়োগ করতে চান তখন আপনি সত্যিই জানেন।

— wolf.rauch
সূত্র

সুতরাং এটি নিখুঁতভাবে বলা কি ন্যায়সঙ্গত হবে: ১. নীতিগতভাবে, যদি গিনির জন্য তাত্পর্যপূর্ণ পরীক্ষাগুলি পাওয়া যেত এবং সহজেই গণনা করা সহজ হত, তবে যে কোনও বর্তমান সিদ্ধান্ত গাছ নির্মাতারা এগুলির সাথে সংযুক্ত হতে পারে; ২. তবে বাস্তবে এগুলি বেশিরভাগ ক্ষেত্রে পাওয়া যায় না (অর্থাত্ খুব কঠিন / গণনা করা অদক্ষ); ৩. সিআই গাছের লেখকগণ বিভাজনের মানদণ্ডের একটি পরিবারকে বেছে নিয়েছিলেন। শ্রেণিবদ্ধকরণের নির্ভুলতার জন্য এটি সর্বোত্তম পরিবার নয়, তবে কমপক্ষে এটির জন্য এটি তাত্পর্যপূর্ণ তাত্পর্য গণনা করা সহজ; ৪. এবং তাই সিআই গাছগুলির একটি দুর্বলতা হ'ল আপনার এই নির্দিষ্ট মানদণ্ডটি ব্যবহার করা দরকার?

— শেল্ডনকুপার

@ শেল্ডনকুপার: ১ এবং ২ আমার মাথার উপরে কিছুটা থাকতে পারে। আমার মনে হয় আপনি প্রায় 3. এবং 4 এর ঠিক বলেছেন

— wolf.rauch

(...) এবং ডিভির মানগুলির সমস্ত সম্ভাব্য অনুমতি "ডিভির মানগুলির সমস্ত সম্ভাব্য অনুমতি? 10 টি উপাদানের সমস্ত সম্ভাব্য অনুমতি পেতে এটি 130 সেকেন্ডের বেশি সময় নেয় This আপনার যখন সিআই গাছগুলি বেশি রাখবেন তখন আপনার অকার্যকর হবে trees 20 টি পর্যবেক্ষণ - একটি মডারেটর দ্বারা যুক্ত

— chl

আমি দুঃখিত তবে ডিভি মানে কি?

— পৌরাণিক প্রোগ্রামার

@ মাইথিক্যাল প্রোগ্রামার নির্ভরশীল পরিবর্তনশীল, আমার মনে হয়

— ফ্রিকস্টার