অবিচ্ছিন্ন ভেরিয়েবল এবং বাইনারি টার্গেট ভেরিয়েবল (0 এবং 1) সহ আমার কাছে একটি ডেটা সেট রয়েছে।
টার্গেট ভেরিয়েবলের বিষয়ে এবং প্রতিটি অন্তর পর্যবেক্ষণের ফ্রিকোয়েন্সি ভারসাম্যপূর্ণ হওয়া উচিত এমন সীমাবদ্ধতার সাথে আমার ধারাবাহিক পরিবর্তনশীল (লজিস্টিক রিগ্রেশনের জন্য) বিবেচনা করা দরকার। আমি চি মার্জ, সিদ্ধান্ত গাছের মতো মেশিন লার্নিং অ্যালগরিদম চেষ্টা করেছি। চি একত্রীকরণ আমাকে প্রতিটি বিরতিতে খুব ভারসাম্যহীন সংখ্যার সাথে বিরতি দেয় (3 টি পর্যবেক্ষণের সাথে একটি অন্তর এবং 1000 এর সাথে আরও একটি)। সিদ্ধান্ত গাছগুলি ব্যাখ্যা করা শক্ত ছিল।
আমি এই সিদ্ধান্তে পৌঁছেছি যে একটি অনুকূল বিচক্ষণতা বিচ্ছিন্ন পরিবর্তনশীল এবং লক্ষ্য ভেরিয়েবলের মধ্যে পরিসংখ্যানকে সর্বাধিক করে তোলা উচিত এবং প্রায় একই পরিমাণ পর্যবেক্ষণগুলি অন্তর্ভুক্ত থাকতে হবে।
এটি সমাধানের জন্য কি কোনও অ্যালগরিদম আছে?
এটি আর-তে কীভাবে দেখতে পারা যায় (ডিএফ হ'ল টার্গেট ভেরিয়েবল এবং এক্স ভেরিয়েবলকে পৃথক করা যায়)। রূপান্তরিত এবং লক্ষ্য ভেরিয়েবলের মধ্যে "পারস্পরিক সম্পর্ক" মূল্যায়নের জন্য আমি স্চুপ্রোর গণনা করেছি কারণ পরিসংখ্যান অন্তরগুলির সংখ্যা সহ বাড়তে থাকে। এটি সঠিক উপায় কিনা তা আমি নিশ্চিত নই।
আমার বিচক্ষণতা স্চুপ্রোর (ক্লাসের সংখ্যা হ্রাস যখন বৃদ্ধি পায়) ব্যতীত অন্য কোনটি অনুকূল হয় তবে মূল্যায়নের অন্য কোনও উপায় আছে কি ?
chitest <- function(x){
interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
#Tschuprow
Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}