বাইনারি ডেটার সাথে সম্পর্কের ক্ষেত্রে পার্থক্য বিভাজন এবং দ্রাঘিমাংশীয় পরিবর্তন


14

আমি লজিস্টিক লিনিয়ার মিশ্র প্রভাবগুলির মডেল (এলোমেলো ইন্টারসেপ্ট) সহ ১ 300৫ টি বিদ্যালয়ে ৩০০,০০০ শিক্ষার্থীর উপর ডেটা বিশ্লেষণ করছি। প্রতিটি ছাত্র ঠিক একবার হয় এবং তথ্য 6 বছর বিস্তৃত।

  1. অবিচ্ছিন্ন ফলাফলের জন্য কীভাবে আমি ভিপিসি / আইসিসির অনুরূপভাবে স্কুল এবং শিক্ষার্থীদের স্তরের মধ্যে পার্থক্য ভাগ করব? আমি এই নিবন্ধটি দেখেছি যা 4 টি পদ্ধতির প্রস্তাব দেয়, যার মধ্যে A এবং B আমার কাছে আকর্ষণীয় মনে হয় তবে আমি এগুলির দুটি ব্যবহারের ক্ষেত্রে কী কী সুবিধা / অসুবিধাগুলি থাকতে পারে তা জানতে চাই এবং অবশ্যই যদি অন্য কোনও উপায় থাকে তবে এটা।

  2. আমি কীভাবে স্কুল-স্তরের অবশিষ্ট বছরের সাথে বছরের পর বছর (বা অন্য কোনও সময়কাল) তুলনা করতে পারি? আমি এখনও এটিকে বছরের পর বছর ডেটা বিভক্ত করে এবং প্রতি বছরের ডেটার বিপরীতে মডেল চালিয়ে এটি করেছি তবে আমি মনে করি এটি ত্রুটিযুক্ত কারণ: i) বছর বছর আমাকে বিভক্ত করার কোনও স্পষ্ট কারণ নেই ; এবং ii) যেহেতু স্থির প্রতিক্রিয়াগুলির অনুমান প্রতি বছরের জন্য পৃথক, তাই বছরের পর বছর এলোমেলো প্রভাবগুলির তুলনা করা অর্থবোধ করতে পারে না (এটি কেবল আমার স্বজ্ঞাতই যদি কেউ এটিকে আরও আনুষ্ঠানিকভাবে ব্যাখ্যা করতে পারে তবে এটি সঠিক হবে)।

দ্রষ্টব্য: আমি whwer এবং ম্যাক্রো সঙ্গে মেটা আলোচনার পরে এই প্রশ্নটি আবার লিখেছি


3
আমি মনে করি এটি একটি বড় উন্নতি। প্রশ্নটি এখন খুব স্পষ্ট। এই মুহুর্তে সুসংগঠিত প্রতিক্রিয়া জানাতে আমার কাছে সময় নেই তবে আমি পরে উত্তর পোস্ট করব।
ম্যাক্রো

3
লজিস্টিক মিশ্র প্রভাবগুলির মডেলগুলি উচ্চ বিদ্যালয়ের জন্য অত্যন্ত উন্নত বিষয়ের মতো বলে মনে হচ্ছে। তারা কি আপনার উচ্চ বিদ্যালয়ের সিলেবাসের অংশ বা আপনি স্বাধীনভাবে পড়াশোনা করছেন?
999

4
@ চিহ্ন 999 আমি স্বাধীনভাবে পড়াশোনা করছি। আসলে আমি আমার ভাইকে ভুল প্রমাণ করার চেষ্টা করছি যিনি বলেছিলেন যে "আপনি এটি বোঝার কোনও উপায় নেই" । তিনি পরিসংখ্যান বিষয়ে একটি ডিগ্রী করছেন তাই আমার তাঁর সমস্ত বই ইত্যাদিতে অ্যাক্সেস রয়েছে (
জো কিং

উত্তর:


15

যাক প্রতিক্রিয়া এবং predictor ছাত্রের ভেক্টর বোঝাতে (যথাক্রমে) আমি স্কুলে Yআমি,এক্সআমিআমি

(1) বাইনারি ডেটাগুলির জন্য, আমি মনে করি যে ধারাবাহিক ডেটার জন্য সমান্তরালভাবে বৈকল্পিক ক্ষয় করার স্ট্যান্ডার্ড পদ্ধতিটি হ'ল লেখকরা আপনার লিঙ্কে মেথড ডি (আমি নীচের অন্যান্য পদ্ধতির বিষয়ে মন্তব্য করব) বলছি - বাইনারি ডেটা হিসাবে কল্পনা করা একটি অন্তর্নিহিত অবিচ্ছিন্ন পরিবর্তনশীল থেকে উদ্ভূত যা লিনিয়ার মডেল দ্বারা নিয়ন্ত্রিত হয় এবং সেই সুপ্ত স্কেলের প্রকরণটি পচে যায়। কারণটি হ'ল লজিস্টিক মডেলগুলি (এবং অন্যান্য জিএলএম) প্রাকৃতিকভাবে এইভাবে উত্থিত হয় -

এটি দেখতে, সংজ্ঞা দিন যে এটি একটি রৈখিক মিশ্র মডেল দ্বারা পরিচালিত:Yআমি

Yআমি=α+ +এক্সআমিβ+ +η+ +εআমি

যেখানে হ'ল রিগ্রেশন সহগ, η jN ( 0 , σ 2 ) স্কুল স্তরের এলোমেলো প্রভাব এবং ε i j অবশিষ্টাংশের পদার্থ এবং এটি একটি স্ট্যান্ডার্ড লজিস্টিক বিতরণ করে । এখন যাকα,βη~এন(0,σ2)εij

yij={1if   yij00if   yij<0

আসুন এখন কেবল আমাদের কাছে থাকা লজিস্টিক সিডিএফ ব্যবহার করুনpij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

এখন উভয় পক্ষের লগইট রূপান্তর গ্রহণ , আপনার আছে

log(pij1pij)=α+xijβ+ηj

যা হ'ল লজিস্টিক মিক্সড এফেক্টস মডেল। সুতরাং, লজিস্টিক মডেল উপরে বর্ণিত সুপ্ত পরিবর্তনশীল মডেলের সমতুল্য। একটি গুরুত্বপূর্ণ নোট:

  • স্কেল , যেহেতু চিহ্নিত করা হয় না যদি আপনি এটি আনুপাতিক হারে কমান ছিল কিন্তু একটি ধ্রুবক গুলি , এটা শুধু উপরে পরিবর্তন হবেεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       অতএব সহগ এবং এলোমেলো প্রভাবগুলি কেবলমাত্র একই পরিমাণ দ্বারা বর্ধিত হবে । সুতরাং, গুলি = 1 ব্যবহার করা হয়, যা বোঝা বনাম একটি ( ε আমি ) = π 2 / 3
      s=1var(εij)=π2/3

এখন, আপনি যদি এই মডেলটি ব্যবহার করেন এবং তারপরে পরিমাণটি

σ^η2σ^η2+π2/3

অন্তর্নিহিত সুপ্ত পরিবর্তনশীলগুলির ইন্ট্রাক্লাস পারস্পরিক সম্পর্ক অনুমান করে । আরেকটি গুরুত্বপূর্ণ নোট:

  • εij
    σ^η2σ^η2+1

আপনি লিঙ্ক করেছেন কাগজে উল্লিখিত অন্যান্য পদ্ধতি সম্পর্কে:

  • (ক) আমি লিনিয়ারাইজেশন পদ্ধতিটি কখনও দেখিনি, তবে একটি ত্রুটিটি আমি দেখতে পাচ্ছি যে এটির দ্বারা অনুমানিত ত্রুটির কোনও ইঙ্গিত পাওয়া যায় নি। এছাড়াও, আপনি যদি মডেলটিকে লিনিয়ারাইজ করতে যাচ্ছেন (একটি সম্ভাব্য অশোধিত অনুমানের মাধ্যমে), তবে কেন প্রথম স্থানে রৈখিক মডেলটি ব্যবহার করবেন না (উদাহরণস্বরূপ বিকল্প (সি) , যা আমি এক মিনিটের মধ্যে পেয়ে যাব)? এটি উপস্থাপন করা আরও জটিল হবে যেহেতু আইসিসি নির্ভর করবেএক্সআমি

  • (খ) সিমুলেশন পদ্ধতিটি কোনও পরিসংখ্যানবিদকে স্বজ্ঞাতভাবে আবেদন জানায় যেহেতু এটি আপনাকে তথ্যের মূল স্কেলগুলির উপর একটি আনুমানিক বৈচিত্র্য ক্ষয় দেয় তবে দর্শকের উপর নির্ভর করে এটি (i) আপনার "পদ্ধতিগুলি" এ বর্ণনা করতে জটিল হতে পারে বিভাগ এবং (ii) এমন একটি পর্যালোচক বন্ধ করতে পারে যিনি "আরও বেশি স্ট্যান্ডার্ড" কিছু খুঁজছিলেন

  • (গ) ডেটা অবিরত করা সম্ভবত কোনও দুর্দান্ত ধারণা নয়, যদিও বেশিরভাগ সম্ভাবনা 0 বা 1 এর কাছাকাছি না থাকলে এটি ভয়াবহভাবে সম্পাদন করবে না তবে এটি করার ফলে পর্যালোচনাকারীর কাছে অবশ্যই একটি লাল পতাকা উঠবে তাই আমি দূরে থাকব।

এখন অবশেষে,

(২) যদি স্থির প্রভাবগুলি সারা বছর জুড়ে খুব আলাদা হয়, তবে আপনি সঠিকভাবে ভাবছেন যে বছরের পর বছর ধরে এলোমেলো প্রভাবের বৈচিত্রগুলি তুলনা করা কঠিন হতে পারে, যেহেতু তারা সম্ভাব্যভাবে বিভিন্ন স্কেলের উপর রয়েছে (এটি অ-সনাক্তকরণের সাথে সম্পর্কিত উপরে উল্লিখিত স্কেলিং ইস্যুর)।

যদি আপনি সময়ের সাথে স্থির প্রভাবগুলি রাখতে চান (তবে আপনি যদি সময়ের সাথে সাথে এগুলিকে অনেক পরিবর্তন করে দেখেন তবে আপনি এটি করতে চাইবেন না) তবে এলোমেলো প্রভাবের পরিবর্তনের দিকে তাকান, আপনি কিছু এলোমেলো ব্যবহার করে এই প্রভাবটি ঘুরে দেখতে পারেন opালু এবং ডামি ভেরিয়েবল। উদাহরণস্বরূপ, আপনি যদি দেখতে চান যে আইসিসিগুলি বিভিন্ন বছরে আলাদা ছিল, তবে আপনি তাকে ছেড়ে দিনআমি=1 যদি পর্যবেক্ষণটি বছরে করা হত এবং 0 অন্যথায় এবং তারপরে আপনার রৈখিক ভবিষ্যদ্বাণী হিসাবে মডেল করুন

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

আমি অবশ্যই করব। এই মুহুর্তে আমি কয়েকটি বিষয় সম্পর্কে কিছুটা অনিশ্চিত এবং আমি কিছুটা সময় কাটিয়ে (কয়েক দিন) কিছুটা পড়ার পরে আপনার কাছে ফিরে আসতে চাই এবং আরও কিছু তথ্য দেখুন, কিছু মনে না করলে?
জো কিং

@ জোকিং অবশ্যই - কিছু নতুন সদস্য অজানা, তাই আমি ভেবেছিলাম যে আমি এটি উল্লেখ করব - এটি আপনাকে চাপ দেওয়া মোটেও বোঝানো হয়নি
ম্যাক্রো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.