এর মূল্য কী:
উভয় rpart
এবং ctree
পুনরাবৃত্তভাবে covariates একটি সেট মান উপর ভিত্তি করে নির্ভরশীল পরিবর্তনশীল অবিচ্ছিন্ন বিভাজন সঞ্চালন । rpart
এবং সম্পর্কিত অ্যালগরিদমগুলি সাধারণত বর্তমান কোভেরিয়েট বাছাই করার জন্য তথ্য ব্যবস্থা (যেমন গিনি সহগ ) নিয়োগ করে ।
ctree
, এর লেখকদের মতে ( সিএলএর মন্তব্য দেখুন) নিম্নলিখিত rpart
(এবং সম্পর্কিত পদ্ধতি) এর পরিবর্তনশীল নির্বাচন পক্ষপাত এড়িয়ে চলে : তারা ভেরিয়েবলগুলি বেছে নেওয়ার ঝোঁক রাখে যার অনেকগুলি সম্ভাব্য বিভাজন বা অনেকগুলি মূল্যবোধ রয়েছে। অন্যদের মত নয়, ctree
ভেরিয়েবল নির্বাচন করার পরিবর্তে ভেরিয়েবল নির্বাচন করার জন্য একটি তাত্পর্য পরীক্ষা পদ্ধতি ব্যবহার করে যা কোনও তথ্য পরিমাপকে সর্বাধিক করে তোলে (যেমন গিনি সহগ)।
তাত্পর্য পরীক্ষা বা আরও ভাল: অ্যালগরিদমের প্রতিটি শুরুতে গণনা করা একাধিক তাত্পর্য পরীক্ষাগুলি (কোভেরিয়েট নির্বাচন করুন - বিভাজন নির্বাচন করুন - পুনরাবৃত্তি নির্বাচন করুন) হ'ল ফলশ্রুতি পরীক্ষা , অর্থাৎ "নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যানের বিতরণ গণনা করে প্রাপ্ত হয় পরীক্ষিত পরিসংখ্যানগুলির সমস্ত সম্ভাব্য মান পর্যবেক্ষণ করা ডাটা পয়েন্টগুলিতে লেবেলগুলির পুনর্বিন্যাসের আওতায়। " (উইকিপিডিয়া নিবন্ধ থেকে)।
এখন পরীক্ষার পরিসংখ্যানগুলির জন্য: এটি নির্ভরশীল ভেরিয়েবল এবং কোভারিয়েটগুলির রূপান্তরগুলি (পরিচয় সহ, যে কোনও রূপান্তর নয়) থেকে গণনা করা হয়। উভয় ভেরিয়েবলের জন্য আপনি কোনও সংখ্যক রূপান্তর চয়ন করতে পারেন। ডিভি (নির্ভরশীল পরিবর্তনশীল) এর জন্য, রূপান্তরটিকে আপনি যে প্রভাবের ফাংশন সম্পর্কে জিজ্ঞাসা করেছিলেন তা বলা হয় called
উদাহরণ ( কাগজ থেকে নেওয়া ):
- যদি ডিভি এবং কোভেরিয়েট উভয়ই সংখ্যাসূচক হয়, তবে আপনি পরিচয় রূপান্তর নির্বাচন করতে পারেন এবং কোভেরিয়েট এবং ডিভিয়ের মানগুলির সমস্ত সম্ভাব্য ক্রমশিকার মধ্যে পারস্পরিক সম্পর্ক গণনা করতে পারেন। তারপরে, আপনি এই নির্গমন পরীক্ষাটি থেকে পি- মূল্য নির্ধারণ করুন এবং এটি অন্যান্য সমবায়িকদের জন্য পি- মূল্যগুলির সাথে তুলনা করুন ।
- যদি ডিভি এবং কোভেরিয়েট উভয়ই নামমাত্র (অযৌক্তিক শ্রেণীবদ্ধ) হয় তবে পরীক্ষার পরিসংখ্যানকে একটি आकस्मिक টেবিল থেকে গণনা করা হয়।
- আপনি এই সাধারণ প্রকল্প থেকে যে কোনও ধরণের রূপান্তর (পরিচয় রূপান্তর সহ) থেকে সহজেই অন্যান্য ধরণের পরীক্ষার পরিসংখ্যান তৈরি করতে পারেন।
এর মধ্যে অনুক্রমের পরীক্ষার জন্য ছোট উদাহরণ R
:
require(gtools)
dv <- c(1,3,4,5,5); covariate <- c(2,2,5,4,5)
# all possible permutations of dv, length(120):
perms <- permutations(5,5,dv,set=FALSE)
# now calculate correlations for all perms with covariate:
cors <- apply(perms, 1, function(perms_row) cor(perms_row,covariate))
cors <- cors[order(cors)]
# now p-value: compare cor(dv,covariate) with the
# sorted vector of all permutation correlations
length(cors[cors>=cor(dv,covariate)])/length(cors)
# result: [1] 0.1, i.e. a p-value of .1
# note that this is a one-sided test
এখন ধরুন আপনার উপরের মতো কেবল একটি নয়, কোভারিয়েটগুলির একটি সেট রয়েছে। তারপরে উপরের স্কিমের মতো প্রতিটি সমবায়ার জন্য পি- ভ্যালু গণনা করুন এবং সবচেয়ে ছোট পি- মূল্য দিয়ে একটি নির্বাচন করুন । আপনি সরাসরি পারস্পরিক সম্পর্কের পরিবর্তে পি- মূল্যগুলি গণনা করতে চান , কারণ আপনার বিভিন্ন ধরণের (যেমন সংখ্যাসূচক এবং শ্রেণিবদ্ধ) কোভারিয়েট থাকতে পারে।
একবার আপনি কোনও কোভেরিয়েট নির্বাচন করে নিলে এখন সম্ভাব্য সমস্ত বিভাজনগুলি (বা প্রায়শই সমস্ত সম্ভাব্য বিভাজনগুলির মধ্যে কিছুটা সীমিত সংখ্যক উদাহরণস্বরূপ, বিভাজনের আগে ডিভি এর ন্যূনতম সংখ্যক উপাদানগুলির প্রয়োজনের মাধ্যমে) অন্বেষণ করুন পুনরায় অনুমতিপত্র ভিত্তিক পরীক্ষার মূল্যায়ন করুন।
ctree
জন্য উভয় ডিভি এবং covariates সম্ভব রূপান্তরের একটি সংখ্যা দিয়ে আসে (জন্য সহায়তা দেখুন Transformations
মধ্যে party
প্যাকেজ)।
সুতরাং সাধারণত মূল পার্থক্যটি মনে হয় যে ctree
পরিসংখ্যানগত তত্ত্বের উপর ভিত্তি করে কোভারিয়েট নির্বাচন পরিকল্পনা ব্যবহার করে (অর্থাত্ ক্রম-ভিত্তিক তাত্পর্যপূর্ণ পরীক্ষা দ্বারা নির্বাচন করা) এবং এর ফলে কোনও সম্ভাব্য পক্ষপাত এড়ানো যায় rpart
, অন্যথায় তারা অনুরূপ বলে মনে হয়; উদাহরণস্বরূপ শর্তসাপেক্ষ অনুমিত গাছগুলি এলোমেলো বনগুলির জন্য বেস শিখার হিসাবে ব্যবহার করা যেতে পারে।
এটি যতদূর আমি পেতে পারি is আরও তথ্যের জন্য, আপনাকে সত্যিই কাগজপত্রগুলি পড়তে হবে। নোট করুন যে আমি দৃ strongly়ভাবে প্রস্তাব দিচ্ছি যে আপনি যখনই কোনও ধরণের পরিসংখ্যানগত বিশ্লেষণ প্রয়োগ করতে চান তখন আপনি সত্যিই জানেন।