গণনা তথ্যকে স্বাধীন ভেরিয়েবল হিসাবে ব্যবহার করা কি কোনও জিএলএম অনুমান লঙ্ঘন করে?


14

আমি একটি লজিস্টিক রিগ্রেশন মডেল ফিটিং করার সময় কাউন্টের ডেটা কোভারিয়েট হিসাবে নিয়োগ করতে চাই। আমার প্রশ্নটি হ'ল:

  • গণনা, অ-নেতিবাচক পূর্ণ সংখ্যার ভেরিয়েবলগুলি স্বাধীন ভেরিয়েবল হিসাবে নিয়োগ করে আমি কি লজিস্টিক (এবং আরও সাধারণভাবে সাধারণ রৈখিকের) মডেলগুলির কোনও অনুমান লঙ্ঘন করি?

কাউন্ট ডেটা ফলাফল হিসাবে ব্যবহার করার জন্য উত্তপ্ত সম্পর্কিত সাহিত্যে আমি প্রচুর উল্লেখ পেয়েছি, কিন্তু কোভারিয়েট হিসাবে নয়; উদাহরণস্বরূপ খুব স্পষ্ট কাগজটি দেখুন: "এনই ব্রেসলো (১৯৯)) সাধারণীকরণিত লিনিয়ার মডেলগুলি: অনুমানগুলি এবং শক্তিশালীকরণের সিদ্ধান্তগুলি পরীক্ষা করা হচ্ছে, কংগ্রেস নাজিওনালে সোসিয়েটা ইতালিয়া দি বায়োমেট্রিয়ার, কর্টোনার জুন 1995", http://biostat.georgiahealth.edu/~dryu এ উপলব্ধ /course/stat9110spring12/land16_ref.pdf

আলগাভাবে বলতে গেলে, মনে হচ্ছে গ্ল্যাম অনুমানগুলি নিম্নলিখিত হিসাবে প্রকাশ করা যেতে পারে:

  • আইআইডি অবশিষ্টাংশ;
  • লিঙ্ক ফাংশন অবশ্যই নির্ভরশীল এবং স্বতন্ত্র ভেরিয়েবলের মধ্যে সম্পর্ককে সঠিকভাবে উপস্থাপন করতে পারে;
  • বহিরাগতদের অনুপস্থিতি

প্রত্যেকে কি জানেন যে অন্য কোনও অনুমান / প্রযুক্তিগত সমস্যা রয়েছে যা গণনা সহযাত্রীদের মোকাবেলা করার জন্য কিছু অন্যান্য ধরণের মডেল ব্যবহার করার পরামর্শ দিতে পারে?

পরিশেষে, দয়া করে লক্ষ্য করুন যে আমার ডেটাতে তুলনামূলকভাবে কয়েকটি নমুনা রয়েছে (<100) এবং সেই গণনা ভেরিয়েবলের ব্যাপ্তি 3-4 মাত্রার 3-4 ক্রমের মধ্যে পরিবর্তিত হতে পারে (যেমন কিছু ভেরিয়েবলের মান 0-10 মানের মধ্যে থাকে, অন্য ভেরিয়েবলের মধ্যে মান থাকতে পারে) 0-10000)।

একটি সাধারণ আর উদাহরণ কোড অনুসরণ করে:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

সাইটে স্বাগতম! একটি মন্তব্য: আপনি যদি নিজের পোস্টগুলিতে স্বাক্ষর করতে চান তবে আপনার প্রোফাইলটি (বিশেষত আমার সম্পর্কে বাক্স) ব্যবহার করুন।

11
সাধারণত, জিএলএম মডেলগুলিতে, ভবিষ্যদ্বাণীকারী ("স্বতন্ত্র") ভেরিয়েবলগুলি কেবল কিছু পরিচিত ধ্রুবক হিসাবে অনুমিত হয়, তাদের সম্পর্কে কোনও বিতরণের অনুমান নেই! সুতরাং গণনা ডেটাটিকে ভবিষ্যদ্বাণীকারী হিসাবে ব্যবহার করার ক্ষেত্রে কোনও ভুল নেই।
কেজেটিল বি হালওয়ারসেন 21

1
kjetil এটি সঠিক - এবং প্রশ্নের একটি ভাল উত্তর। তবুও, এখানে বর্ণিত চতুর্থ শ্রেণির চূড়ান্ত ব্যাপ্তির সাথে, ডেটাগুলির প্রভাবের মূল্যায়ন করা, ফিটের সার্থকতা পরীক্ষা করা এবং বিশেষত একটি অনৈখিক সম্পর্কের সম্ভাবনার মূল্যায়ন করা ভাল। এই আশায় সম্পন্ন করা হবে সেই সম্পর্ক আসলে হয় অরৈখিক এবং যে যেমন একটি রুট বা লগ যেমন IVs, একটি পুনরায় ভাবখানা এমন, নিজে রৈখিকরণ করবে যার ফলে একযোগে প্রভাব কিছু সমস্যার মুক্তিদান। এটি সম্ভবত @ ব্যবহারকারী14583 তাদের উত্তরে নির্দেশ করার চেষ্টা করছে।
whuber

@ কেজেটিভালভর্সেন - আমি "কোনও বণ্টনমূলক অনুমান নয়" -এর সাথে একমত, তবে আমি মনে করি না যে আপনি "জ্ঞাত" বা "ধ্রুবক" বলার অর্থ এই শব্দগুলির কোনওটির মতো নয় fits
Rolando2

4
তারা "ধ্রুবক" এই অর্থে যে তারাগুলি এলোমেলো নয়: কোনও বিতরণ নয়। এগুলি "জ্ঞাত" এই অর্থে যে তারা ত্রুটি ছাড়াই পরিমাপ করা হয়েছে বলে ধরে নেওয়া হয়, সুতরাং পরিমাপ করা মান হ'ল যা ডেটা উত্পন্নকরণের ব্যবস্থায় বাস্তবে কাজ করছিল। জিএলএম মডেল ধরে নিয়েছে যে সমস্ত এলোমেলোতা প্রতিক্রিয়া পদ্ধতিতে, এটি প্রায়শই সন্দেহজনক!
কেজেটিল বি হালওয়ারসেন

উত্তর:


5

এখানে খেলতে কিছু সূক্ষ্মতা রয়েছে এবং তারা কিছু বিভ্রান্তি তৈরি করতে পারে।

আপনি উল্লেখ করেছেন যে আপনি একটি লজিস্টিক রিগ্রেশন অনুমানগুলি বুঝতে পেরে " আইআইডি অবশিষ্টাংশ ..." অন্তর্ভুক্ত । আমি যুক্তি দিয়ে বলব যে এটি পুরোপুরি সঠিক নয়। আমরা সাধারণত জেনারেল লিনিয়ার মডেল (যেমন, রিগ্রেশন) সম্পর্কে বলি, তবে সেই ক্ষেত্রে এর অর্থ হল যে অবশিষ্টাংশগুলি একে অপরের থেকে স্বতন্ত্র, একই বন্টন (সাধারণত স্বাভাবিক) একই গড় (0) এবং বৈকল্পিক ( অর্থাত্, ধ্রুবক বৈকল্পিকতা: বৈসাদৃশ্য / সমজাতীয়ত্বের একজাতীয়তা)। তবে উল্লেখ্য যে বার্নোল্লি বিতরণ এবং দ্বিপদী বিতরণের জন্য, বৈকল্পিক গড়ের একটি ক্রিয়া। সুতরাং, বৈকল্পিক স্থির হতে পারে না, যদি না কোভারিটেট প্রতিক্রিয়াটির সাথে পুরোপুরি সম্পর্কিত না হয়। লজিস্টিক রিগ্রেশন নিষ্ক্রিয় রেন্ডার হিসাবে এটি এমন একটি অনুমিত ধারণা হবে। আমি নোট করি যে পিডিএফের বিমূর্তে আপনি উদ্ধৃত করেছেন তাতে এটি "পর্যবেক্ষণের পরিসংখ্যানগত স্বাধীনতা" দিয়ে শুরু হওয়া অনুমানগুলি তালিকাভুক্ত করে, যা আমরা ডাকতে পারিi-but-not-id (এটি সম্পর্কে খুব সুন্দর হওয়ার অর্থ ছাড়াই)।

এরপরে, উপরের মন্তব্যে @ কেজেটিভালভারসন নোট হিসাবে মানগুলি (অর্থাত্, আপনার স্বাধীন ভেরিয়েবলগুলি) জেনারাইজড লিনিয়ার স্থির করা হয়েছে বলে ধরে নেওয়া হয়। যে, কোন নির্দিষ্ট বিতরণ অনুমান করা হয়। সুতরাং, এটি বিবেচনা করা হয় বা না তা বিবেচনাধীন নয় বা তাদের 0 থেকে 10, 1 থেকে 10000, বা -3.1415927 থেকে -2.718281828 পর্যন্ত রয়েছে।

তবে একটি বিষয় বিবেচনা করার জন্য, যেমন হুবহু নোটগুলি , আপনার কাছে যদি কোভারিয়েট মাত্রাগুলির একটিতে খুব চূড়ান্ত এমন একটি ছোট সংখ্যক ডেটা থাকে তবে এই বিশদগুলি আপনার বিশ্লেষণের ফলাফলের উপর খুব বেশি প্রভাব ফেলতে পারে। এটি হ'ল কেবলমাত্র এই পয়েন্টগুলির কারণে আপনি একটি নির্দিষ্ট ফলাফল পেতে পারেন। এ সম্পর্কে চিন্তাভাবনার এক উপায় হ'ল আপনার মডেলটিকে those ডেটা অন্তর্ভুক্ত করে এবং না রেখে ফিট করে এক ধরণের সংবেদনশীলতা বিশ্লেষণ করা। আপনি বিশ্বাস করতে পারেন যে এই পর্যবেক্ষণগুলি বাদ দেওয়া, কিছু শক্তিশালী পরিসংখ্যান বিশ্লেষণের কোনও রূপ ব্যবহার করা বা সেই পন্থাগুলির চূড়ান্ত উত্সাহকে হ্রাস করার জন্য সেই কোয়ারারিগুলিকে রূপান্তর করতে এটি নিরাপদ বা আরও বেশি উপযুক্ত । আমি এই বিবেচনাগুলিকে "অনুমান" হিসাবে চিহ্নিত করব না তবে উপযুক্ত মডেল বিকাশের ক্ষেত্রে এগুলি অবশ্যই গুরুত্বপূর্ণ বিবেচ্য বিষয়।


1

আমি অবশ্যই একটি জিনিস যাচাই করব তা হ'ল আপনার স্বাধীন ভেরিয়েবলগুলির বিতরণ বৈশিষ্ট্য properties খুব ঘন ঘন গণনার ডেটা সহ, আপনি কিছুটা মাঝারি থেকে তীব্র ডান স্কিউ দেখতে পাবেন। সেক্ষেত্রে লগ-লিনিয়ার সম্পর্ক হারাতে আপনি সম্ভবত আপনার ডেটা রুপান্তর করতে চাইবেন। তবে না, একটি লজিস্টিক (বা অন্যান্য জিএলএম) মডেল ব্যবহার করা ভাল।


3
ডান স্কিউ কীভাবে 'লগ-লিনিয়ার সম্পর্ক' হারাবে?
গ্লেন_বি -রিনস্টেট মনিকা

3
এই মন্তব্যটি আমার কাছে ভুল বলে মনে হচ্ছে। @ গ্লেন_বি-এর মতো আমি কীভাবে এটি লগ-লিনিয়ার সম্পর্ক হারাবে তা দেখছি না। যে কোনও ক্ষেত্রে, সম্পর্কের সরাসরি পরীক্ষা করা ভাল (উদাহরণস্বরূপ ষড়যন্ত্রের মাধ্যমে)।
পিটার ফ্লুম - মনিকা পুনরায়

2
আইভি-র একটি অনৈখিক রূপান্তর অবশ্যই লগ-লিনিয়ার সম্পর্কটিকে অন্য কোনও কিছুতে পরিবর্তন করবে, @ পিটার। এই উত্তরটি আমার কাছে মূলত সঠিক বলে মনে হচ্ছে।
whuber

1
@ তবে আমি সম্মত হই যে একটি ভেরিয়েবলের একটি ননলাইনার রূপান্তর এটির সাথে অন্য ভেরিয়েবলের মধ্যে সম্পর্ককে পরিবর্তন করবে। এটা বেশ পরিষ্কার মনে হচ্ছে। তবে কোন ধরণের সম্পর্ক থেকে কী ধরণের? কীভাবে এটি পরিবর্তিত হবে তা ধরে নেওয়ার পরিবর্তে সরাসরি সম্পর্ক পরীক্ষা করবেন না কেন? এছাড়াও, উত্তরটি বলে মনে হচ্ছে যে ব্যক্তি লগ রৈখিক সম্পর্ক হারাতে চায়
পিটার ফ্লুম - মনিকা পুনরায়

2
এটি একটি ভাল পয়েন্ট @ পিটার। তবুও কিছু মানুষ সম্পর্ক পরিবর্তন করতে চান; এটি অগত্যা একটি ভুল ধারণা নয়। আমি একমত যে প্রত্যক্ষ পরীক্ষা সঠিক পদ্ধতি: এটি লিনিয়ার সম্পর্ক তৈরির জন্য জড়িত আইভি (গুলি) কে পুনরায় প্রকাশ করার পরামর্শ দেয় suggest
হোয়বার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.