কীভাবে একজন "অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রণ" করতে পারেন?


140

এই নিবন্ধটি যা এই প্রশ্নকে অনুপ্রাণিত করেছে: অধৈর্যতা কী আমাদের চর্বিযুক্ত করে?

আমি এই নিবন্ধটি পছন্দ করেছি এবং এটি কেবল 2 টি ভেরিয়েবলের মধ্যে সত্যিকারের সম্পর্ককে সর্বোত্তমভাবে বিচ্ছিন্ন করার জন্য "অন্যান্য ভেরিয়েবলগুলির জন্য নিয়ন্ত্রণ" (আইকিউ, ক্যারিয়ার, আয়, বয়স ইত্যাদি) ধারণাটি সুন্দরভাবে প্রদর্শন করে।

আপনি কি আমাকে ব্যাখ্যা করতে পারেন যে আপনি কীভাবে একটি আদর্শ ডেটা সেটটিতে ভেরিয়েবলের জন্য নিয়ন্ত্রণ করেন?

উদাহরণস্বরূপ, আপনার যদি একই অধৈর্যতা স্তর এবং বিএমআই সহ 2 জন লোক থাকে তবে বিভিন্ন আয়ের, আপনি এই ডেটাগুলি কীভাবে ব্যবহার করবেন? আপনি কি তাদের বিভিন্ন উপগোষ্ঠীগুলিতে শ্রেণিবদ্ধ করেন যা একই আয়, ধৈর্য এবং বিএমআই রয়েছে? তবে, অবশেষে (আইকিউ, ক্যারিয়ার, আয়, বয়স ইত্যাদি) নিয়ন্ত্রণের জন্য কয়েক ডজন পরিবর্তনশীল রয়েছে তবে কীভাবে আপনি এই (সম্ভাব্য) 100 টি উপগোষ্ঠীগুলিকে একত্রিত করবেন? আসলে, আমি অনুভব করছি যে এই পদ্ধতির ফলে ভুল গাছটি ছড়িয়ে পড়েছে, এখন আমি এটি মৌখিক করে দিয়েছি।

আমি এখন কয়েক বছর ধরে নীচে পৌঁছানোর বোঝাতে চাইছি এমন কোনও বিষয়ে আলোকপাত করার জন্য ধন্যবাদ ...!


3
এপি এবং বার্ড, এর উত্তর দেওয়ার চেষ্টা করার জন্য আপনাকে অনেক ধন্যবাদ। দুর্ভাগ্যক্রমে, এই উত্তরগুলি আমার প্রশ্ন থেকে একটি বড় লাফালাফি, এবং আমার মাথার উপরে। সম্ভবত এটি খ / সি আমার আর এর সাথে অভিজ্ঞতা নেই এবং কেবলমাত্র একটি প্রাথমিক স্ট্যাটিস্টিকস 101 ফাউন্ডেশন। আপনার শিক্ষার মতামত হিসাবে, একবার আপনি বিএমআই, বয়স, অধৈর্যতা ইত্যাদি থেকে দূরে সরে "কোভারিয়েট" ইত্যাদি হয়ে গেলে আপনি আমাকে সম্পূর্ণ হারিয়ে ফেলেন। স্বয়ংক্রিয়রূপে সিউডো-ডেটা ধারণাগুলি স্পষ্ট করতে সহায়ক ছিল না। আসলে এটি আরও খারাপ করেছে। কোনও অন্তর্নিহিত অর্থ ছাড়াই ডামি ডেটা শেখা কঠিন, যদি না আপনি ইতিমধ্যে ব্যাখ্যা করা নীতিটি না জানেন (যেমন: শিক্ষক আমি জানি
জ্যাকআফএল সমস্ত

7
এই প্রশ্নটি মৌলিক গুরুত্বের জন্য জিজ্ঞাসা করার জন্য ধন্যবাদ, @ জ্যাকআফএল - এই লাইনগুলিতে কোনও প্রশ্ন ছাড়াই সাইটটি অসম্পূর্ণ হবে - আমি এইটিকে 'পছন্দসই' করেছি। এখানে দেওয়া উত্তরগুলি আমার পক্ষে এবং আপাত সংখ্যার উপর ভিত্তি করে আরও অনেকের পক্ষে সহায়ক হয়েছে v যদি, এটি চিন্তা করার পরে, আপনি উত্তরগুলি নিজেরাই সহায়ক (বা আপনার কোনও প্রশ্নের উত্তর ) খুঁজে পেয়েছেন, আমি আপনাকে আপনার উর্ধ্বতনগুলি ব্যবহার করতে উত্সাহিত করি এবং যদি আপনি এটি সুনির্দিষ্ট মনে করেন তবে কোনও উত্তর গ্রহণ করতে উত্সাহিত করি। উত্তর এবং চেকমার্কের যথাক্রমে সামান্য উপরের দিকে নির্দেশিত বেল বক্ররেখা ক্লিক করে এটি করা যেতে পারে।
ম্যাক্রো

4
এটি সম্পূর্ণ উত্তর বা অন্য কিছু নয়, তবে ক্রিস অ্যাকেনের লেখা "লেটস পুট ওয়েস্ট-বর্জ্য-ক্যান রিগ্রেশনস এবং বর্জ্য-ক্যান প্রবিটস হেইথ হিল ওভার" এটি পড়া সার্থক বলে মনে করি। (পিডিএফ লিংক: http://qssi.psu.edu/files/Achen_GorsesCan.pdf ) এটি বায়েশিয়ান এবং ফ্রেসোরিস্ট উভয় পদ্ধতির ক্ষেত্রেই সমানভাবে প্রযোজ্য। প্রভাবগুলির জন্য "নিয়ন্ত্রণ" করার জন্য কেবল আপনার সেট-আপগুলিতে শর্তাবলী নিক্ষেপ করা যথেষ্ট নয়, তবে দুঃখের বিষয় হ'ল এটি অনেকগুলি সাহিত্যে নিয়ন্ত্রণের জন্য যায়।
ইলি

9
আপনি জিজ্ঞাসা করেন " কম্পিউটার সফ্টওয়্যার কীভাবে একই সময়ে গাণিতিকভাবে সমস্ত ভেরিয়েবলের জন্য নিয়ন্ত্রণ করে "। আপনি আরও বলেছিলেন "আমার এমন একটি উত্তর দরকার যা সূত্রগুলিতে জড়িত না"। সত্যিই একইসাথে দু'টি করা কীভাবে সম্ভব আমি তা দেখতে পাচ্ছি না। কমপক্ষে ত্রুটিযুক্ত স্বজ্ঞাততা আপনাকে ছেড়ে যাওয়ার গুরুতর ঝুঁকি ছাড়া না।
গ্লেন_বি

2
আমি অবাক হয়েছি এই প্রশ্নটি আরও মনোযোগ দেয় নি। আমি ওপির মন্তব্যে একমত যে সাইটের অন্যান্য প্রশ্নগুলি এখানে উত্থাপিত নির্দিষ্ট সমস্যাটিকে সঠিকভাবে কভার করে না। @ জেন, আপনার (দ্বিতীয়) প্রশ্নের খুব সংক্ষিপ্ত উত্তর হ'ল একাধিক সংখ্যক সমবায় ব্যক্তি একই সাথে পার্টিয়াল হয়ে গেছে এবং আপনার বর্ণনা অনুসারে পুনরাবৃত্তভাবে নয়। এই প্রশ্নগুলির আরও বিশদ এবং স্বজ্ঞাত উত্তরটি কেমন হবে সে সম্পর্কে আমি এখনই চিন্তা করব।
জেক ওয়েস্টফল

উত্তর:


124

ভেরিয়েবলের জন্য নিয়ন্ত্রণ করার বিভিন্ন উপায় রয়েছে।

সবচেয়ে সহজ এবং আপনি যেটি সামনে এসেছেন তা হ'ল আপনার ডেটা স্ট্র্যাফাই করা যাতে আপনার অনুরূপ বৈশিষ্ট্য সহ উপ-গোষ্ঠী থাকে - তারপরে একক "উত্তর" পাওয়ার জন্য এই ফলাফলগুলিকে একসাথে প্লে করার পদ্ধতি রয়েছে। আপনি যদি নিয়ন্ত্রণ করতে চান এমন খুব কম সংখ্যক ভেরিয়েবল থাকে তবে এটি কাজ করে তবে আপনি যথাযথভাবে আবিষ্কার করেছেন যে, আপনি আপনার ডেটাটিকে ছোট এবং ছোট অংশগুলিতে বিভক্ত করার সাথে সাথে এটি দ্রুত বিচ্ছিন্ন হয়ে পড়ে।

রিগ্রেশন মডেলটিতে আপনি যে ভেরিয়েবলগুলি নিয়ন্ত্রণ করতে চান তা অন্তর্ভুক্ত করার জন্য আরও একটি সাধারণ পন্থা। উদাহরণস্বরূপ, যদি আপনার কাছে কোনও রিগ্রেশন মডেল থাকে যা ধারণাগতভাবে বর্ণনা করা যায়:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

অধৈর্য্যের জন্য আপনি যে অনুমানটি পাবেন তা অন্য কোভেরিয়টের স্তরের মধ্যে অধৈর্যতার প্রভাব হবে - রিগ্রেশন আপনাকে এমন জায়গাগুলিতে প্রয়োজনীয়ভাবে মসৃণ করতে দেয় যেখানে আপনার কাছে খুব বেশি ডেটা নেই (স্ট্র্যাটিফিকেশন পদ্ধতির সমস্যা), যদিও এটি করা উচিত সতর্কতার সাথে.

অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রণের আরও অত্যাধুনিক উপায় রয়েছে তবে কেউ কেউ যখন "অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রিত" বলে থাকেন তখন তাদের প্রতিক্রিয়া হ'ল তারা একটি রিগ্রেশন মডেলটিতে অন্তর্ভুক্ত ছিল mean

ঠিক আছে, আপনি কীভাবে কাজ করতে পারেন তার উদাহরণ চেয়েছিলেন, এটি কীভাবে হয় তা দেখতে। আমি আপনাকে ধাপে ধাপে এটি হাঁটা করব। আপনার যা দরকার তা হ'ল ইনস্টল করা একটি অনুলিপি।

প্রথমত, আমাদের কিছু ডেটা প্রয়োজন। নিম্নলিখিতটিতে কোডের কয়েকটি অংশ কেটে পেস্ট করুন আর এটিকে মনে রাখবেন এটি আমি একটি স্পষ্টরূপে উদাহরণ হিসাবে তৈরি করেছি তবে এটি প্রক্রিয়াটি দেখায়।

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

এটা আপনার তথ্য। নোট করুন যে আমরা ইতিমধ্যে ফলাফল, এক্সপোজার এবং কোভেরিয়েটের মধ্যে সম্পর্কটি জানি - এটি অনেকগুলি সিমুলেশন স্টাডির মূল বিষয় (যার মধ্যে এটি একটি চূড়ান্ত প্রাথমিক উদাহরণ। আপনি জানেন এমন একটি কাঠামো দিয়ে শুরু করেন এবং আপনি নিশ্চিত হন যে আপনার পদ্ধতিটি পারে আপনি সঠিক উত্তর পেতে।

এখন এখন, রিগ্রেশন মডেল উপর। নিম্নলিখিত টাইপ করুন:

lm(outcome~exposure)

আপনি কি একটি ইন্টারসেপ্ট = 2.0 এবং একটি এক্সপোজার = 0.6766 পেয়েছেন? বা এর কাছাকাছি কিছু দেওয়া থাকলে তথ্যগুলিতে কিছু এলোমেলো পরিবর্তন হবে? ভাল - এই উত্তরটি ভুল। আমরা জানি এটি ভুল। কেন এটা ভুল? ফলাফল এবং এক্সপোজারকে প্রভাবিত করে এমন একটি পরিবর্তনশীলের জন্য আমরা নিয়ন্ত্রণ করতে ব্যর্থ হয়েছি। এটি একটি বাইনারি পরিবর্তনশীল, আপনি যা খুশি তাই করুন - লিঙ্গ, ধূমপায়ী / ধূমপায়ী ইত্যাদি,

এখন এই মডেল চালান:

lm(outcome~exposure+covariate)

এবার আপনার ইন্টারসেপ্ট = ২.০০, এক্সপোজার = 0.50 এবং 0.25 এর একটি সহগুণফলের সহগগুলি পাওয়া উচিত। এটি, যেমনটি আমরা জানি, সঠিক উত্তর। আপনি অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রণ করেছেন।

এখন, যখন আমরা জানব না যে আমরা আমাদের প্রয়োজনীয় সমস্ত ভেরিয়েবলের যত্ন নিয়েছি (আমরা সত্যই কখনই করি না)? এটাকে অবশেষত বিভ্রান্তিকর বলা হয় এবং এটি বেশিরভাগ পর্যবেক্ষণমূলক গবেষণায় উদ্বেগ - যে আমরা অসম্পূর্ণভাবে নিয়ন্ত্রণ করেছি এবং আমাদের উত্তর ডান কাছাকাছি থাকলেও সঠিক নয়। এটা কি আরও সাহায্য করে?


ধন্যবাদ। অনলাইনে বা আমি যে পাঠ্যপুস্তকের মধ্য দিয়ে কাজ করতে পারি তার কোনও সহজ উদাহরণ রিগ্রেশন ভিত্তিক উদাহরণ জানেন?
জ্যাকআফএল সমস্ত

@ জ্যাকআফএল সম্ভবত এরকম শত শত উদাহরণ রয়েছে - আপনি কোন ক্ষেত্র / বিভিন্ন ধরণের প্রশ্নে আগ্রহী এবং আপনি কোন সফ্টওয়্যার প্যাকেজ ব্যবহার করতে পারেন?
ফোমাইট

ভাল, যে কোন একাডেমিক / অনুমোদিত উদাহরণ আমার দ্বারা ভাল। আমার এক্সেল আছে, যা একটি বহু-পরিবর্তনশীল রিগ্রেশন করতে পারে, সঠিক? অথবা এটি করার জন্য আমার কি আর এর মতো কিছু দরকার?
জ্যাকআফএল সমস্ত

10
আমি যে নেতিবাচকতা ব্যবহার করব তা ছাড়া এটির উত্তর দেওয়ার জন্য 1 :) সাধারণ আলোচনায়, অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রণ করা মানে লেখকরা তাদেরকে রিগ্রেশনে ফেলে দেন। তারা ভেরিয়েবলগুলি তুলনামূলকভাবে স্বতন্ত্র এবং পুরো মডেল স্ট্রাকচার (সাধারণত একরকম জিএলএম) সুপ্রতিষ্ঠিত হয়েছে কিনা তা যদি তারা বৈধতা না দেয় তবে তারা এর অর্থ কী বলে তা সত্যই বোঝায় না। সংক্ষেপে, আমার দৃষ্টিভঙ্গি হ'ল যখনই কেউ এই বাক্যাংশটি ব্যবহার করেন, তার অর্থ হ'ল তাদের পরিসংখ্যান সম্পর্কে খুব সামান্য ধারণা রয়েছে এবং আপনার দেওয়া স্তরবিন্যাস পদ্ধতিটি ব্যবহার করে ফলাফল পুনরায় গণনা করা উচিত।
Iterator

7
@ সিবসগাম্বলিং আপনি লক্ষ্য করবেন যে মূল প্রশ্নকারী একটি সাধারণ কাজের উদাহরণ চেয়েছিলেন
ফোমাইট

56
  1. ভূমিকা

    আমি @ এপিগ্রাডের উত্তরটি পছন্দ করি (+1) তবে আমাকে অন্য দৃষ্টিকোণ নিতে দিন। নিম্নলিখিতটিতে আমি এই পিডিএফ ডকুমেন্টটি উল্লেখ করছি: "একাধিক রিগ্রেশন বিশ্লেষণ: অনুমান" , যার "এ 'পার্টিলিং আউট' একাধিক রিগ্রেশনটির ব্যাখ্যা" "(পৃষ্ঠা। ৩৩ ফ।) এর একটি বিভাগ রয়েছে। দুর্ভাগ্যক্রমে, এই অধ্যায়ের রচয়িতা কে আমার কোনও ধারণা নেই এবং আমি এটিকে রেগাপ্যাটার হিসাবে উল্লেখ করব। একই রকম ব্যাখ্যা কোহলার / ক্রেটার (২০০৯) "ডেটা অ্যানালাইসিস ব্যবহার করে স্টাটা" , অধ্যায় ৮.২.৩ এ পাওয়া যায় "নিয়ন্ত্রণে থাকা" এর অর্থ কী? "।

    এই পদ্ধতির ব্যাখ্যা করতে আমি @ এপিগ্রাডের উদাহরণ ব্যবহার করব। আর কোড এবং ফলাফল পরিশিষ্টে পাওয়া যাবে।

    এটি আরও লক্ষণীয় হওয়া উচিত যে "অন্যান্য ভেরিয়েবলগুলির জন্য নিয়ন্ত্রণ করা" কেবল তখনই তাৎপর্যপূর্ণ হয় যখন ব্যাখ্যামূলক ভেরিয়েবলগুলি মাঝারিভাবে সম্পর্কযুক্ত হয় (কোলাইনারিটি)। পূর্বোক্ত উদাহরণে, পণ্য-মুহুর্তের সম্পর্ক 0.50 exposureএবং এর মধ্যে covariate, অর্থাৎ,

    > cor(covariate, exposure)
    [1] 0.5036915
  2. অবশিষ্টাংশ

    আমি ধরে নিই যে রিগ্রেশন বিশ্লেষণে আপনার অবশিষ্টাংশের ধারণার প্রাথমিক ধারণা রয়েছে। উইকিপিডিয়া ব্যাখ্যা এখানে : "যদি কেউ কিছু তথ্যের উপর একটি রিগ্রেশন চালায় তবে ফিটেড ফাংশন থেকে নির্ভরশীল পরিবর্তনশীল পর্যবেক্ষণের বিচ্যুতি হ'ল অবশিষ্টাংশ"।

  3. 'নিয়ন্ত্রণে' বলতে কী বোঝায়?

    পরিবর্তনশীল জন্য নিয়ন্ত্রণ covariate, প্রভাব (রিগ্রেশন ওজন) এর exposureউপর outcomeবলা যাইতে পারে অনুসরণ করে (আমি, পঙ্কিল am এবং সবচেয়ে সূচক এবং সব টুপি লাফালাফি একটি সুনির্দিষ্ট বিবরণ জন্য উপরে উল্লিখিত টেক্সট পড়ুন দয়া):

    β1=residi1yiresidi12

    residi1 অবশিষ্টাংশ যখন আমরা প্রত্যাবর্তন হয় exposureউপর covariate, অর্থাত্,

    exposure=const.+βcovariatecovariate+resid

    "অবশিষ্টাংশ [..] অংশ যে সঙ্গে সম্পর্কহীন থাকে । [...] সুতরাং, মধ্যে নমুনা সম্পর্ক পরিমাপ এবং পর হয়েছে আংশিকভাবে আউট "(REGCHAPTER 84)। "আংশিক আউট" এর অর্থ "নিয়ন্ত্রিত"।xi1xi2β^1yx1x2

    আমি @ এপিগ্রাডের উদাহরণ ডেটা ব্যবহার করে এই ধারণাটি প্রদর্শন করব। প্রথমত, আমি প্রত্যাবর্তন করবে exposureউপর covariate। যেহেতু আমি কেবল অবশিষ্টাংশগুলিতে আগ্রহী তাই আমি lmEC.residআউটপুটটি বাদ দিই।

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    পরবর্তী পদক্ষেপটি outcomeএই অবশিষ্টাংশগুলিতে প্রতিক্রিয়া জানানো ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    যেমন আপনি দেখতে পাচ্ছেন, এই সাধারণlmEC.resid (কলাম অনুমান দেখুন, ) জন্য রিগ্রেশন ওজন একাধিক রিগ্রেশন ওজনের সমান , এটিও (দেখুন @ এপিগ্রাডের উত্তর বা আর আউটপুট নিচে).βlmEC.resid=0.50covariate0.50

উপাঙ্গ

আর কোড

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

আর আউটপুট

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
এই অধ্যায়টি বেবি ওলড্রিজের মতো দেখাচ্ছে (ওরফে প্রবর্তনীয় একনোমেট্রিক্স: জেফ্রি এম
ওয়াল্ড্রিজের

2
আমি কিছু ভুল বোঝাবুঝি করছি, তবে কেন আপনাকে কোভারিয়েটে ফলাফলটি পুনরায় চাপাতে হবে না এবং অবশেষে এক্সপোজারের অবশিষ্টাংশগুলিতে ফলাফলের অবশিষ্টাংশগুলি পুনরায় জমা দেওয়ার দরকার নেই?
hlinee

@hlinee ঠিক আছে। আপনি ব্যাখ্যা করতে পারেন কেন আপনি এটি করেন না?
পার্সেলটাংয়ে

41

অবশ্যই কিছু গণিত জড়িত হবে, তবে এটি খুব বেশি নয়: ইউক্লিড এটি ভালভাবে বুঝতে পারতেন। আপনার প্রকৃতপক্ষে যা জানা দরকার তা হ'ল কীভাবে ভেক্টর যুক্ত এবং পুনরুদ্ধার করা যায় । যদিও এটি আজকাল "লিনিয়ার বীজগণিত" নামে যায়, আপনার কেবলমাত্র দুটি মাত্রায় এটি কল্পনা করা দরকার। এটি আমাদেরকে লিনিয়ার বীজগণিতের ম্যাট্রিক্স যন্ত্রপাতি এড়াতে এবং ধারণাগুলিতে ফোকাস করতে সক্ষম করে।


একটি জ্যামিতিক গল্প

প্রথম চিত্রটিতে হ'ল এবং এর যোগফল । (একটি ভেক্টর একটি সংখ্যাসূচক ফ্যাক্টর ; গ্রীক অক্ষর (আলফা), (বিটা) এবং (গামা) দ্বারা পরিমাপ করা এই জাতীয় সংখ্যার স্কেল কারণগুলি উল্লেখ করবে referyy1αx1x1ααβγ

চিত্র 1

এই চিত্রটি আসলে আসল ভেক্টরগুলি (কঠিন লাইন হিসাবে প্রদর্শিত) এবং । থেকে এর সর্বনিম্ন-স্কোয়ার "ম্যাচ" পাওয়া যাবে এর নিয়ে যা চিত্রের প্লেনে সবচেয়ে কাছাকাছি আসে এভাবেই পাওয়া গেল। এই ম্যাচে থেকে দূরে গ্রহণ বাম , অবশিষ্ট এর থেকে সম্মান সঙ্গে । (বিন্দু " " ধারাবাহিকভাবে নির্দেশ করবে যে কোন ভেক্টরকে "ম্যাচ করা হয়েছে," "বাইরে নেওয়া হয়েছে," বা "এর জন্য নিয়ন্ত্রণ করা হয়েছে"))x1yyx1x1yαyy1yx1

আমরা অন্যান্য ভেক্টরগুলিকে মেলে দিতে পারি । এখানে একটি ছবি কোথায় সাথে মানানসই ছিল , একটি একাধিক যেমন প্রকাশ এর প্লাস তার অবশিষ্ট :x1x2x1βx1x21

চিত্র ২

( এবং বিমানটি এবং বিমানের চেয়ে পৃথক হতে পারে তা : এই দুটি পরিসংখ্যান একে অপরের থেকে স্বতন্ত্রভাবে প্রাপ্ত হয় they তাদের গ্যারান্টিযুক্ত সমস্তই ভেক্টর Similarly একইভাবে, যে কোনও সংখ্যা ভেক্টর সাথে সাথে মিল পাওয়া যায় ।x1x2x1yx1x3,x4,x1

এখন সমতল দুই অবশিষ্টাংশ ধারণকারী বিবেচনা এবং । আমি অনুভূমিক তৈরি করতে ছবিটি ওরিয়েন্টেশন করব , যেমন আমি পূর্বের অনুভূমিক তৈরি করতে ওরিয়েন্টেড করেছি , কারণ ম্যাচারের ভূমিকা পালন করবে:y1x21x21x1x21

চিত্র 3

লক্ষ্য করুন যে তিনটি ক্ষেত্রে প্রতিটি ক্ষেত্রে অবশিষ্টাংশগুলি ম্যাচের জন্য লম্ব হয়। (এটি না থাকলে আমরা ম্যাচটিকে আরও , , বা to এর কাছাকাছি পেতে সামঞ্জস্য করতে পারতাম ))yx2y1

মূল ধারণাটি হ'ল আমরা শেষ চিত্রটিতে পৌঁছে যাওয়ার সময়, জড়িত উভয় ভেক্টর ( এবং ) ইতিমধ্যে নির্মানের দ্বারা লম্ব হয়ে গেছে । সুতরাং to এর পরবর্তী কোনও সামঞ্জস্যের ক্ষেত্রে এমন পরিবর্তনগুলি অন্তর্ভুক্ত থাকে যা সবগুলি লম্ব হয় । ফলস্বরূপ, নতুন ম্যাচ এবং নতুন অবশিষ্টাংশ খাড়া থাকে ।x21y1x1y1x1γx21y12x1

(অন্যান্য ভেক্টর জড়িত হয়, তাহলে আমরা একই ভাবে এগিয়ে তাদের অবশিষ্টাংশ মেলে হবে করার ।)x31,x41,x2

আরও একটি গুরুত্বপূর্ণ বিষয় তৈরি করতে হবে। এই নির্মাণের ফলে একটি রেসিডুয়াল produced উত্পাদিত হয়েছে যা এবং উভয়েরই লম্ব । এর অর্থ এই যে হয় এছাড়াও মধ্যে অবশিষ্ট স্থান (ত্রিমাত্রিক ইউক্লিডিয় রাজত্ব) দ্বারা দৃশ্যও এবং । অর্থাৎ, অবশিষ্টাংশগুলি মিলে যাওয়ার এবং নেওয়ার এই দ্বি-পদক্ষেপের প্রক্রিয়াটি অবশ্যই বিমানের মধ্যে অবস্থানটি খুঁজে পেয়েছিল যা নিকটতম । যেহেতু এই জ্যামিতিক বর্ণনায় এটি এবং কোনটি প্রথমে এসেছিল তা বিবেচনা করে না , আমরা এ সিদ্ধান্তেy12x1x2y12x1,x2,yx1,x2yx1x2প্রক্রিয়াটি যদি অন্য ক্রমে সম্পন্ন হয়ে থাকে, হিসাবে দিয়ে শুরু করে এবং ব্যবহার করে , ফলাফলটি একই রকম হত।x2x1

(যদি অতিরিক্ত ভেক্টর থাকে, তবে আমরা এই "ম্যাচার ম্যাচটি" প্রক্রিয়া চালিয়ে যাব যতক্ষণ না those সমস্ত ভেক্টর ম্যাচার হওয়ার পালা না পেত। প্রতিটি ক্ষেত্রে অপারেশনগুলি এখানে দেখানো মত হবে এবং সর্বদা একটি পরিস্থিতিতে উপস্থিত থাকবে) প্লেন ।)


একাধিক রিগ্রেশন আবেদন

এই জ্যামিতিক প্রক্রিয়াটির প্রত্যক্ষ একাধিক রিগ্রেশন ব্যাখ্যা রয়েছে, কারণ সংখ্যার কলামগুলি জ্যামিতিক ভেক্টরগুলির মতো ঠিক কাজ করে। তাদের ভেক্টরগুলির আমাদের প্রয়োজনীয় সমস্ত বৈশিষ্ট্য রয়েছে (অক্সোমেটিক্যালি) এবং তাই সঠিকভাবে গাণিতিক যথাযথতা এবং কঠোরতার সাথে একইভাবে ভাবা যায় এবং ম্যানিপুলেট করা যায় , এবং সাথে একাধিক রিগ্রেশন সেটিংয়ে লক্ষ্যটি হ'ল এবং ( ইত্যাদি ) এর সংমিশ্রণটি সন্ধান করা যা নিকটতম আসে । জ্যামিতিকভাবে, এবং এর মতো সমস্ত সংমিশ্রণ ( ইত্যাদি)X1X2,YX1X2YX1X2) স্পেসের পয়েন্টগুলির সাথে । একাধিক রিগ্রেশন সহগের ফিট করা প্রজেক্টিং ("ম্যাচিং") ভেক্টর ছাড়া আর কিছুই নয়। জ্যামিতিক যুক্তি দেখিয়েছে যেX1,X2,

  1. মিলটি ক্রমান্বয়ে করা যেতে পারে এবং

  2. ক্রমটি যেভাবে মিলছে তা বিবেচনাধীন নয়।

অন্যান্য সমস্ত ভেক্টরকে তাদের অবশিষ্টাংশ দ্বারা প্রতিস্থাপন করে ম্যাচারকে "আউট" নেওয়ার প্রক্রিয়াটি প্রায়শ ম্যাচারের জন্য "নিয়ন্ত্রণ" হিসাবে অভিহিত করা হয়। যেমন আমরা পরিসংখ্যানগুলিতে দেখেছি, একবার যখন কোনও ম্যাথার নিয়ন্ত্রণ করা হয়ে থাকে, পরবর্তী সমস্ত গণনাগুলি সেই ম্যাচারের ক্ষেত্রে লম্ব হয় এমন সামঞ্জস্য করে। আপনি যদি পছন্দ করেন তবে অন্যান্য সমস্ত ভেরিয়েবলের ক্ষেত্রে ম্যাচারের অবদান / প্রভাব / প্রভাব / সহযোগিতার জন্য অ্যাকাউন্টিং (ন্যূনতম বর্গক্ষেত্র হিসাবে) হিসাবে "নিয়ন্ত্রণ" করার কথা ভাবতে পারেন।


তথ্যসূত্র

আপনি https://stats.stackexchange.com/a/46508 এ উত্তরে ডেটা এবং ওয়ার্কিং কোড সহ এই সমস্ত কর্মটি দেখতে পাচ্ছেন । এই উত্তরটি এমন লোকদের কাছে আরও বেশি আবেদন করতে পারে যারা বিমানের ছবির চেয়ে পাটিগণিত পছন্দ করেন। (ম্যাথারগুলি ক্রমানুসারে আনা হয় বলে সহগের সমন্বয় করার পাটিগণিতটি তবুও সহজবোধ্যভাবেই আসে)) মিলনের ভাষা ফ্রেড মোস্টেলারের এবং জন টুয়ের।


1
উইকেনের বই "দ্য জ্যামিতি অফ মাল্টিভারিয়েট স্ট্যাটিস্টিকস" (1994) এ এই রেখাগুলির আরও চিত্র পাওয়া যায়। কিছু উদাহরণ এই উত্তরে রয়েছে
কারাকাল

2
@ কারাকাল উল্লেখের জন্য আপনাকে ধন্যবাদ। আমি প্রাথমিকভাবে এমন একটি উত্তর কল্পনা করেছি যা আপনার উত্তরগুলির মতো ডায়াগ্রামগুলি ব্যবহার করে - যা আমার উত্তরটির জন্য এখানে একটি দুর্দান্ত পরিপূরক তৈরি করে - তবে তাদের তৈরির পরে অনুভব করেছিল যে সিউডো -3 ডি চিত্রগুলি সম্পূর্ণ উপযুক্ত হওয়ার পক্ষে খুব জটিল এবং দ্ব্যর্থক হতে পারে। আমি এই যুক্তিটি সম্পূর্ণরূপে বিমানের সহজতম ভেক্টর অপারেশনে হ্রাস করতে পারে তা জানতে পেরে খুশি হয়েছিল। এটি উল্লেখ করার মতোও হতে পারে যে ডেটাগুলির প্রাথমিক কেন্দ্রিককরণ অপ্রয়োজনীয়, কারণ এটি মধ্যে ননজারো ধ্রুবক ভেক্টরকে অন্তর্ভুক্ত করে পরিচালনা করা হয় । xi
শুক্র

1
আমি এই উত্তরটি পছন্দ করি কারণ এটি বীজগণিতের চেয়ে অনেক বেশি স্বজ্ঞাততা দেয়। বিটিডাব্লু, আপনি এই লোকটির ইউটিউব চ্যানেলটি পরীক্ষা করেছেন কিনা তা নিশ্চিত নন । আমি এটি অনেক উপভোগ করেছি
হাইতাও ডু

3

"অন্যান্য ভেরিয়েবলের জন্য নিয়ন্ত্রণকরণ" এর মাধ্যম হিসাবে কোভারিয়েট সামঞ্জস্যের এখনও অবধি একটি দুর্দান্ত আলোচনা রয়েছে । তবে আমি মনে করি এটি কেবল গল্পেরই একটি অংশ। প্রকৃতপক্ষে, অনেকগুলি অন্যান্য ডিজাইন, মডেল এবং মেশিন লার্নিং ভিত্তিক কৌশল রয়েছে সম্ভাব্য সংখ্যক বিভ্রান্তিকর ভেরিয়েবলের প্রভাব মোকাবেলার জন্য। এটি কয়েকটি গুরুত্বপূর্ণ (সামঞ্জস্যবিহীন) বিষয়গুলির একটি সংক্ষিপ্ত জরিপ। যদিও অ্যাডজাস্টমেন্টটি অন্যান্য ভেরিয়েবলের জন্য "নিয়ন্ত্রণ" করার সর্বাধিক ব্যবহৃত মাধ্যম, আমি মনে করি একটি ভাল পরিসংখ্যানবিদ অন্যান্য প্রক্রিয়া এবং পদ্ধতির প্রেক্ষাপটে এটি কী করে (এবং না করে) তার বোঝা থাকা উচিত।

মিলছে না:

ম্যাচিং একটি যুক্ত বিশ্লেষণ ডিজাইনের একটি পদ্ধতি যেখানে পর্যবেক্ষণগুলি 2 টি সেটে বিভক্ত করা হয় যারা তাদের গুরুত্বপূর্ণ দিকগুলিতে অন্যথায় অনুরূপ। উদাহরণস্বরূপ, আপনি এমন দুটি ব্যক্তির নমুনা দিতে পারেন যারা তাদের শিক্ষা, আয়, পেশাদার সময়কাল, বয়স, বৈবাহিক অবস্থা, (ইত্যাদি ইত্যাদি) ক্ষেত্রে সম্মতিযুক্ত তবে যারা তাদের অধৈর্যতার দিক থেকে ভিন্নমত পোষণ করেন। বাইনারি এক্সপোজারগুলির জন্য, সমস্ত মিলিত বৈশিষ্ট্যগুলির জন্য বিএমআই নিয়ন্ত্রণে তাদের বিএমআই নিয়ন্ত্রণের মধ্যে পার্থক্যের জন্য পরীক্ষা করা সহজ জোড়-টি টেস্টই যথেষ্ট । আপনি যদি অবিচ্ছিন্ন এক্সপোজারকে মডেলিং করে থাকেন তবে পার্থক্যগুলির জন্য উত্সের মাধ্যমে একটি অ্যানালগাসের পরিমাপ একটি রিগ্রেশন মডেল হবে। কার্লিন 2005 দেখুন

E[Y1Y2]=β0(X1X2)

তৌল

ওজন আরও একটি অবিচ্ছিন্ন বিশ্লেষণ যা একটি অবিচ্ছিন্ন বা বাইনারি পূর্বাভাসকারী এবং ফলাফল মধ্যে সংযোগকে মডেল করে যাতে এক্সপোজারের স্তরের বন্টন গ্রুপগুলির মধ্যে সমজাতীয় হয়। এই ফলাফল সাধারণত যেমন রিপোর্ট করা হয় মান যেমন বয়স-প্রমিত মৃত্যুহার দুই দেশের বা একাধিক হাসপাতালগুলোর। পরোক্ষ মানীকরণ একটি "নিয়ন্ত্রণ" বা "স্বাস্থ্যকর" জনসংখ্যায় প্রাপ্ত হার থেকে প্রত্যাশিত ফলাফল বিতরণ গণনা করে যা পৃথক জনগোষ্ঠীর স্তরের বন্টনের জন্য অনুমান করা হয়। সরাসরি মানীকরণ অন্যভাবে যায়। এই পদ্ধতিগুলি সাধারণত বাইনারি ফলাফলের জন্য ব্যবহৃত হয়। প্রচারের স্কোর ওজনXYবাইনারি এক্সপোজারের সম্ভাব্যতার অ্যাকাউন্ট এবং সেই ক্ষেত্রে সেই পরিবর্তনশীলগুলির জন্য নিয়ন্ত্রণ। এটি কোনও এক্সপোজারের জন্য প্রত্যক্ষ মানককরণের মতো। রথম্যান, মডার্ন এপিডেমিওলজি 3 য় সংস্করণ দেখুন।

র্যান্ডমাইজেশন এবং ক্যাসিরানডমাইজেশন

এটি একটি সূক্ষ্ম বিন্দু, তবে আপনি যদি মানুষকে একটি নির্দিষ্ট পরীক্ষামূলক অবস্থানে এলোমেলো করতে সক্ষম হন তবে অন্যান্য ভেরিয়েবলের প্রভাব হ্রাস পাবে। এটি একটি উল্লেখযোগ্যভাবে শক্তিশালী অবস্থা, কারণ আপনার অন্যান্য ভেরিয়েবলগুলি কী তাও জানার দরকার নেই। সেই অর্থে, আপনি তাদের প্রভাবের জন্য "নিয়ন্ত্রণ" করেছেন। পর্যবেক্ষণ গবেষণায় এটি সম্ভব নয়, তবে এটি প্রমাণিত হয়েছে যে প্রপেনসিটি স্কোর পদ্ধতিগুলি এক্সপোজারের জন্য একটি সাধারণ সম্ভাব্যতা পরিমাপ তৈরি করে যা কোনও ব্যক্তিকে ওজন করতে, সামঞ্জস্য করতে বা মেলে যাতে মাপের-এলোমেলোভাবে অধ্যয়ন হিসাবে একই ফ্যাশনে বিশ্লেষণ করা যায় allows । দেখুন করেন Rosenbaum, রুবিন 1983

Microsimulation

এলোমেলোভাবে অধ্যয়ন থেকে প্রাপ্ত ডেটা সিমুলেট করার আরেকটি উপায় হ'ল মাইক্রোসিমুলেশন করা। এখানে, কেউ প্রকৃতপক্ষে মডেলগুলির মতো আরও বড় এবং আরও পরিশীলিত, মেশিন লার্নিংয়ের দিকে তাদের দৃষ্টি নিবদ্ধ করতে পারে। একটি শব্দ যা জুডিয়া পার্ল তৈরি করেছে যে আমি পছন্দ করি তা হল " ওরাকল মডেলস ": জটিল নেটওয়ার্কগুলি যা বিভিন্ন বৈশিষ্ট্য এবং ফলাফলের জন্য ভবিষ্যদ্বাণী এবং পূর্বাভাস তৈরি করতে সক্ষম। দেখা যায় যে এলোমেলো জনগোষ্ঠীর প্রতিনিধিত্বকারী, তাদের "নিয়ন্ত্রণের পরিবর্তনশীল" বিতরণে ভারসাম্যপূর্ণ, এবং সাধারণ টি-টেস্ট রুটিন ব্যবহার করে মূল্যায়ন করার জন্য এমন একটি অরাকল মডেলের তথ্যগুলিকে "ভাঁজ" করতে পারে যেগুলি এলোমেলোভাবে উপস্থাপিত প্রতিনিধিত্ব করে represent সম্ভাব্য পার্থক্যগুলির প্রস্থ এবং যথার্থতা। রটার, জাস্লাভস্কি এবং ফেয়ার 2012 দেখুন

কোনও রিগ্রেশন মডেলটিতে মিলন, ওজন এবং কোভারিয়েট সমন্বয় সমস্ত একই সংস্থার অনুমান করে এবং এইভাবে সমস্ত অন্যান্য ভেরিয়েবলের জন্য "নিয়ন্ত্রণ" করার উপায় বলে দাবি করা যেতে পারে


সম্পূর্ণ আমার মাথার উপর।
জ্যাকআফআল সমস্ত

এটি যে প্রশ্নের জিজ্ঞাসা করা হয়েছিল তার উত্তর, এখন পর্যন্ত ভাল আলোচনা কিছুটা একতরফা মাল্টিভারিয়েট মডেলগুলির সামঞ্জস্যের পক্ষে।
অ্যাডামো

মাল্টিভাইয়ারেট মডেল, ম্যাচিং ইত্যাদি সমস্ত বৈধ কৌশল, তবে কখন একজন গবেষক সাধারণত একটি কৌশল অন্যটির উপর ব্যবহার করেন?
এমএনএমএন

-1

সফ্টওয়্যারটি আক্ষরিকভাবে চলকগুলির জন্য নিয়ন্ত্রণ করে না। যদি আপনি রিগ্রেশন ম্যাট্রিক্স স্বরলিপিটির সাথে পরিচিত হন , তবে আপনি মনে করতে পারেন যে সর্বনিম্ন স্কোয়ার সমাধান । সুতরাং, সফ্টওয়্যারটি গণনা রৈখিক বীজগণিত পদ্ধতি ব্যবহার করে এই ভাবটিকে সংখ্যাসূচকভাবে মূল্যায়ন করে।বি = ( এক্স টি এক্স ) - 1 এক্স টি ওয়াইY=Xβ+εb=(XTX)1XTY


4
এই তথ্য সরবরাহ করার সুযোগ গ্রহণ করার জন্য ধন্যবাদ। প্রশ্নে প্রদত্ত যে চাহিদাগুলি পূরণ করা হয়েছে তার উত্তরের জন্য আমাদের দ্বিতীয় প্রকাশে প্রধানের অর্থ এবং দ্বিতীয় প্রকাশের অর্থটি জানতে হবে। আমি বুঝতে পারি যে opeাল হ'ল অন্য অক্ষরের পরিবর্তনের চেয়ে এক অক্ষের পরিবর্তন। মনে রাখবেন, স্বরলিপি হ'ল একটি বিশেষ ভাষা যা মূলত ননেশনাল শব্দভাণ্ডার ব্যবহার করে তৈরি এবং শেখা হয়েছিল। যে ভাষাগুলি জানেন না তাদের কাছে পৌঁছানোর জন্য অন্যান্য শব্দ ব্যবহার করা প্রয়োজন এবং এটি শাখা-প্রশাখা জুড়ে জ্ঞান আনার চলমান চ্যালেঞ্জ।
জেন

2
একবার আপনি মাল্টিভারিয়েট রিগ্রেশনগুলিতে চলে গেলে লিনিয়ার বীজগণিত ছাড়া এগিয়ে যাওয়ার কোনও উপায় নেই। উইকির লিঙ্কটিতে ভেরিয়েবলের সমস্ত বিবরণ রয়েছে। এখানে, আমি বলতে পারি যে ম্যাট্রিক্সের ট্রান্সপোজ বোঝায় । ডিজাইন ম্যাট্রিক্স কীভাবে তৈরি করা হবে তা শিখতে হবে। এখানে এটি ব্যাখ্যা করার জন্য এটি অনেক দীর্ঘ। উইকি পড়ুন যা আমি পোস্ট করেছি, এতে প্রচুর তথ্য রয়েছে। লিনিয়ার বীজগণিত না বুঝলে আপনি আপনার প্রশ্নের অর্থবহ উপায়ে উত্তর দিতে পারবেন না, আমি ভয় করি afraid এক্সXX
আকসকল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.