ভারসাম্যহীন ডেটার জন্য লজিস্টিক রিগ্রেশনে ওজন যুক্ত করা


21

আমি ভারসাম্যহীন ডেটা (9: 1) সহ একটি লজিস্টিক রিগ্রেশন মডেল করতে চাই। আমি glmআর তে ফাংশনে ওয়েট বিকল্পটি চেষ্টা করে দেখতে চেয়েছিলাম , তবে আমি এটি 100% নিশ্চিত না যে এটি কী করে।

আমার আউটপুট ভেরিয়েবলটি বলতে দিন c(0,0,0,0,0,0,0,0,0,1)। এখন আমি "1" আরও 10 গুণ বেশি ওজন দিতে চাই। সুতরাং আমি ওজন যুক্তি দিতে weights=c(1,1,1,1,1,1,1,1,1,1,1,10)

যখন আমি এটি করি, এটি সর্বাধিক সম্ভাবনার গণনায় বিবেচনা করা হবে। আমি কি সঠিক? "1" এর ভুল শংসাপত্রের মাত্র 10 গুণ বেশি খারাপ তবে একটি "0" মিস করা হয়েছে ifying

উত্তর:


11

চিং, আপনার ডেটা 1 এবং 0 এর ক্ষেত্রে ভারসাম্যপূর্ণ করতে হবে না। রূপান্তরকরণের সর্বাধিক সম্ভাবনার জন্য আপনার সমস্ত প্রয়োজন 1 এর যথেষ্ট সংখ্যক। আপনার ডেটাসেটে 1 এর বিতরণ দেখে (100,000) আপনার কোনও সমস্যা হবে না। আপনি এখানে একটি সাধারণ পরীক্ষা করতে পারেন

  1. 1 এর 1% এবং 0 এর 10% নমুনা এবং উভয়ের জন্য 10 এর ওজন ব্যবহার করুন
  2. 1 এর 100% এবং 0 এর 10% নমুনা এবং 0 এর জন্য 10 এর ওজন ব্যবহার করুন

উভয় ক্ষেত্রেই আপনি অভিন্ন হিসাব পাবেন। আবার ওজন সম্পর্কে ধারণা নমুনা সম্পর্কিত। আপনি যদি পুরো ডেটা সেট ব্যবহার করেন তবে আপনার এটি ওজন করা উচিত নয়। আমি যদি আপনি থাকতাম আমি 1 এর 1 এবং 10 এর 0% কেবল 10% ব্যবহার করতাম।

আর তে, আপনি ব্যবহার করবেন glm। এখানে একটি নমুনা কোড রয়েছে:

glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))

আপনার ডেটাসেটে wtওজনের জন্য পরিবর্তনশীল হওয়া উচিত ।

যদি আপনি 0 এবং 1 এর উভয়ই 10% ব্যবহার করেন তবে আপনার wtভেরিয়েবলের মান 10 হবে।

আপনি যদি 0 এর 10% এবং 1 এর 100% ব্যবহার করেন: wtভেরিয়েবলের y = 0 সহ পর্যবেক্ষণের জন্য 10 এবং y = 1 সহ পর্যবেক্ষণের জন্য 10 এর মান হবে


12

ওজন এমন একটি প্রক্রিয়া যা নমুনা এবং জনসংখ্যার পার্থক্যের জন্য ক্ষতিপূরণ দেওয়ার জন্য ডেটা ওজন করে (কিং 2001)। উদাহরণস্বরূপ, বিরল ইভেন্টগুলিতে (যেমন creditণ ঝুঁকিতে জালিয়াতি, চিকিত্সা সাহিত্যে মৃত্যু) আমরা সমস্ত 1 এর (বিরল ঘটনা) এবং 0 এর একটি ভগ্নাংশ (অ ইভেন্ট) নমুনার প্রবণতা করি। এই ধরনের ক্ষেত্রে আমাদের সেই অনুযায়ী পর্যবেক্ষণগুলি ওজন করতে হবে।

উদাহরণ: আমাদের বলুন, 500,000 লেনদেনের জনসংখ্যায় 50 টি জালিয়াতি লেনদেন হয়। এই ক্ষেত্রে আপনি হবে

  1. সমস্ত 50 টি জালিয়াতি লেনদেনের নমুনা (জালিয়াতির 100%)
  2. ভাল লেনদেনের 10% (500,000 এর 10% হ'ল 50,000 ভাল লেনদেন)

এই ক্ষেত্রে আপনার জালিয়াতি লেনদেনের জন্য 1 ওজন এবং ভাল লেনদেনের জন্য 10 ওজন নির্ধারণ করা হবে। একে ওয়েটড সর্বাধিক সম্ভাবনা পদ্ধতি বলে। গুরুত্বপূর্ণ গ্রহণযোগ্যতা হ'ল ওজনটি নমুনা অনুপাতের সাথে সম্পর্কিত

উল্লেখ করুন: বিরল ইভেন্টস ডেটাতে লজিস্টিক রিগ্রেশন (কিং 2001)


হাই সুব্রা !!! রাজার পদ্ধতির জন্য আপনাকে অনেক ধন্যবাদ !! এর কথা শুনিনি! আমার ক্ষেত্রে আমার ১ মিলিয়ন লেনদেন হয়েছে! (900.000 হ'ল "0", এবং 100.000 হ'ল "1")। সুতরাং আমার "0" এর 10% নমুনা করা উচিত? তাহলে আমার কাছে প্রায় ভারসাম্যপূর্ণ ডেটা সেট রয়েছে। তাহলে আমাকে "1" এর চেয়ে দশ গুণ বেশি ওজন করতে হবে? এবং ম্যাস প্যাকেজে আর গ্ল্যামে () ফাংশনটি ঠিক তাই করে? যদি আমি আমার পর্যবেক্ষণগুলিতে ওজন রাখি, তবে আমি ওজনটির সর্বোচ্চ সম্ভাবনা গণনা করব? ধন্যবাদ! সত্যিই আপনার উত্তর এবং সহায়তা প্রশংসা
চিং

আমি সত্যিই এই সমস্যা সম্পর্কে অনেক চিন্তা। আমি যদি বলি: এখন লগইট মডেল তৈরি করতে আমার সমস্ত ডেটা ব্যবহার করুন (9: 1 ভারসাম্যহীন ডেটা সহ)। এবং তারপরে আমি আমার "1" দশবার ওজন করব, এমনকি বাস্তবে আমার কাছে আরও ডেটা নেই এবং এটি আমার ডেটার 10% নয়। এটি ঠিক যেমন, আমি আমার মতো কাজ করি ..... তাই এখন যখন আর মডেলটি গণনা করেন, তখন মনে হয় আমি কেবল আমার "1" এর 10% ব্যবহার করি এবং এটি সম্ভাবনার গণনায় বিবেচনা করি। ঐটি কি কোন অনুভূতি সৃষ্টি করবে?
চিং
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.