কীভাবে ক্রমাগত চলকটির জন্য অনুকূল বিবেচনার সন্ধান এবং মূল্যায়ন করবেন ate


9

অবিচ্ছিন্ন ভেরিয়েবল এবং বাইনারি টার্গেট ভেরিয়েবল (0 এবং 1) সহ আমার কাছে একটি ডেটা সেট রয়েছে।

টার্গেট ভেরিয়েবলের বিষয়ে এবং প্রতিটি অন্তর পর্যবেক্ষণের ফ্রিকোয়েন্সি ভারসাম্যপূর্ণ হওয়া উচিত এমন সীমাবদ্ধতার সাথে আমার ধারাবাহিক পরিবর্তনশীল (লজিস্টিক রিগ্রেশনের জন্য) বিবেচনা করা দরকার। আমি চি মার্জ, সিদ্ধান্ত গাছের মতো মেশিন লার্নিং অ্যালগরিদম চেষ্টা করেছি। চি একত্রীকরণ আমাকে প্রতিটি বিরতিতে খুব ভারসাম্যহীন সংখ্যার সাথে বিরতি দেয় (3 টি পর্যবেক্ষণের সাথে একটি অন্তর এবং 1000 এর সাথে আরও একটি)। সিদ্ধান্ত গাছগুলি ব্যাখ্যা করা শক্ত ছিল।

আমি এই সিদ্ধান্তে পৌঁছেছি যে একটি অনুকূল বিচক্ষণতা বিচ্ছিন্ন পরিবর্তনশীল এবং লক্ষ্য ভেরিয়েবলের মধ্যে পরিসংখ্যানকে সর্বাধিক করে তোলা উচিত এবং প্রায় একই পরিমাণ পর্যবেক্ষণগুলি অন্তর্ভুক্ত থাকতে হবে।χ2

এটি সমাধানের জন্য কি কোনও অ্যালগরিদম আছে?

এটি আর-তে কীভাবে দেখতে পারা যায় (ডিএফ হ'ল টার্গেট ভেরিয়েবল এবং এক্স ভেরিয়েবলকে পৃথক করা যায়)। রূপান্তরিত এবং লক্ষ্য ভেরিয়েবলের মধ্যে "পারস্পরিক সম্পর্ক" মূল্যায়নের জন্য আমি স্চুপ্রোর গণনা করেছি কারণ পরিসংখ্যান অন্তরগুলির সংখ্যা সহ বাড়তে থাকে। এটি সঠিক উপায় কিনা তা আমি নিশ্চিত নই।Tχ2

আমার বিচক্ষণতা স্চুপ্রোর (ক্লাসের সংখ্যা হ্রাস যখন বৃদ্ধি পায়) ব্যতীত অন্য কোনটি অনুকূল হয় তবে মূল্যায়নের অন্য কোনও উপায় আছে কি ?T

chitest <- function(x){
  interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE)
  X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic
  #Tschuprow
  Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1))))
  print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup))
}

2
আপনি সম্ভবত এটি জানেন; তবে, রেকর্ডের জন্য, (1) এটি প্রয়োজনীয় নয় বা প্রায়শই, লজিস্টিক রিগ্রেশন জন্য ভবিষ্যদ্বাণীদের বিবেচনা করা বাঞ্ছনীয় নয়, এবং (২) ভবিষ্যদ্বাণীকারীদের সংজ্ঞা দেওয়ার প্রতিক্রিয়া ব্যবহার করে আপনার মডেলের ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের প্রাক্কলনের জন্য একটি আশাবাদী পক্ষপাতিত্ব প্রবর্তন করেছে এবং এটি সুতরাং পুরো ফিটিং পদ্ধতিটি বৈধকরণের জন্য গুরুত্বপূর্ণ (যেমন আপনি ভবিষ্যদ্বাণী গঠনের পদ্ধতিটি ব্যবহার করেন)।
Scortchi - পুনর্বহাল মনিকা

ঠিক আছে, আমি কিভাবে বিচক্ষণতা যাচাই করতে পারি, এটি কীভাবে কাজ করে?
শার্লট

আপনি যদি উদাহরণস্বরূপ ক্রস-বৈধতা ব্যবহার করে থাকেন তবে প্রতিটি ভাগে আপনি সম্পূর্ণ নমুনা থেকে নির্ধারিত ভবিষ্যদ্বাণীকারীদের "অনুকূল" বিবেচনাবাদী ব্যবহার করে কেবলমাত্র লজিস্টিক রিগ্রেশন পরিচালনা করবেন না, তবে পাশাপাশি "অনুকূল" বিবেচনার পুনরায় গণনা করুন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

উত্তর:


8

অবিচ্ছিন্ন পরিবর্তনশীলকে বিভিন্নভাবে চিহ্নিত করার বিভিন্ন উপায় রয়েছে: দেখুন [গার্সিয়া 2013]

739 পৃষ্ঠায় আমি চি-স্কোয়ারের ভিত্তিতে কমপক্ষে 5 টি পদ্ধতি দেখতে পেয়েছি। বিচক্ষণতার সর্বোত্তমতা আসলে আপনি সেই কাজটির উপর নির্ভরশীল যা আপনি ছদ্মবেশী পরিবর্তনশীলটি ব্যবহার করতে চান your আপনার ক্ষেত্রে লজিস্টিক রিগ্রেশন। এবং গার্সিয়া ২০১৩ সালে যেমন আলোচনা হয়েছে, কোনও কার্য প্রদত্ত অনুকূল বিবেচনার সন্ধান করা এনপি-সম্পূর্ণ।

যদিও এখানে প্রচুর হিউরিস্টিকস রয়েছে। এই গবেষণাপত্রে তারা কমপক্ষে ৫০ টি নিয়ে আলোচনা করেছেন। আমার মেশিন লার্নিংয়ের পটভূমি দেওয়া (আমি অনুমান করি যে পরিসংখ্যানগুলিতে লোকেরা অন্যান্য জিনিস পছন্দ করে) আমি প্রায়শই ফায়াদ এবং ইরানের ন্যূনতম বিবরণ দৈর্ঘ্য (এমডিএল) পদ্ধতির প্রতি পক্ষপাতী হয়ে থাকি। আমি দেখতে পাচ্ছি এটি আর প্যাকেজ বিবেচনার মধ্যে উপলব্ধ

যেমনটি আপনি বলেছিলেন, চি-স্কোয়ারটি উচ্চ সংখ্যার অন্তরগুলির দিকে পক্ষপাতদুষ্ট এবং অন্যান্য অনেক পরিসংখ্যান (যেমন এমডিএল পদ্ধতিতে ব্যবহৃত তথ্য লাভ)। তবে এমডিএল বিচক্ষণ ভেরিয়েবলের তথ্য লাভ এবং শ্রেণি এবং বিযুক্ত ভেরিয়েবলের জটিলতা (অন্তর সংখ্যা) এর মধ্যে একটি ভাল বাণিজ্য-সন্ধানের চেষ্টা করে। একবার চেষ্টা করে দেখো.


আপনার গার্সিয়া 2013 লিঙ্কটি নষ্ট হয়ে গেছে বলে মনে হচ্ছে ... আপনি কি এই নিবন্ধটি সম্পর্কে আরও বিশদ পোস্ট করতে বা পুনঃ লিঙ্ক করতে আপত্তি করবেন?
কিরণ কে।

2
@KiranK। আমাকে জানতে দেওয়ার জন্য ধন্যবাদ। আমি লিঙ্কটি ঠিক করেছি।
সাইমন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.