কোনও পইসন মডেলটিতে, সময়কে সমাহার হিসাবে ব্যবহার করা বা অফসেটের মধ্যে পার্থক্য কী?


18

আমি সম্প্রতি আবিষ্কার করেছি কীভাবে সময়ের সাথে সাথে এক্সপ্লোরের মডেল করতে পারি (উদাহরণস্বরূপ) লয়েস পয়েসন রিগ্রেশনটিতে অফসেট হিসাবে ব্যবহার করে।

আমি বুঝতে পেরেছিলাম যে অফসেটটি সহগ 1 সহ কোভারিয়েট হিসাবে সময় থাকার সাথে সম্পর্কিত।

আমি একটি অফসেট হিসাবে বা একটি সাধারণ কোভারিয়েট হিসাবে সময় ব্যবহার করার মধ্যে পার্থক্যটি আরও ভালভাবে বুঝতে চাই (সুতরাং সহগের অনুমান করা)। কোন পরিস্থিতিতে আমার একটি পদ্ধতি বা অন্যটি ব্যবহার করতে হবে?

আপগ্রেড: আমি জানি না এটি আকর্ষণীয় কিনা তবে আমি প্রায় 500 বার পুনরায় এলোমেলোভাবে বিভক্ত তথ্য ব্যবহার করে দুটি পদ্ধতির একটি বৈধতা চালিয়েছি এবং আমি লক্ষ্য করেছি যে অফসেট পদ্ধতিটি ব্যবহার করে একটি বৃহত্তর পরীক্ষার ত্রুটির দিকে পরিচালিত করে।

উত্তর:


25

অফসেটগুলি যে কোনও রিগ্রেশন মডেলটিতে ব্যবহার করা যেতে পারে, তবে আপনার প্রতিক্রিয়া ভেরিয়েবলের জন্য গণনা ডেটা নিয়ে কাজ করার সময় সেগুলি আরও বেশি সাধারণ। একটি অফসেট কেবল একটি পরিবর্তনশীল যা মডেলটিতে সহগ থাকতে বাধ্য হয় । (এই দুর্দান্ত সিভি থ্রেডটিও দেখুন: কখন পইসন রিগ্রেশনসে অফসেট ব্যবহার করবেন? ) 1

গণনা ডেটা সহ সঠিকভাবে ব্যবহার করা হলে, এটি আপনাকে গণনার পরিবর্তে হারের মডেল করতে দেয় । যদি এটি আগ্রহী হয়, তবে এটি করার কিছু। সুতরাং, এটি সেই প্রসঙ্গে যা অফসেটগুলি প্রায়শই ব্যবহৃত হয়। আসুন একটি লগ লিঙ্ক (যা ক্যানোনিকাল লিঙ্ক) সহ একটি পায়সন জিএলআইএম বিবেচনা করি।

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)=β0+β1Xln(λ)=β0+β1X+1×ln(time)(still rates)ln(λ)=β0+β1X+β2×ln(time)when β21(counts again)

(যেমন আপনি দেখতে পাচ্ছেন, অফসেটটি সঠিকভাবে ব্যবহারের চাবিকাঠিটি অফসেট তৈরি করা,, নয় )) t i m eln(time)time

যখন এর সহগ হয় না , আপনি আর মডেলিং হার নন। তবে যেহেতু ডেটা ফিট করার জন্য অনেক বেশি নমনীয়তা সরবরাহ করে, যে মডেলগুলি অফসেট হিসাবে ব্যবহার করে না সাধারণত আরও ভাল ফিট (যদিও তারা এমনকি উপকার করতে পারে)। 1 β 2( - , 1 ) ( 1 , ) ln ( t i m e )ln(time)1β2(-,1)(1,)Ln(টিআমিমি)


আপনার মডেল গণনা বা হারগুলি হওয়া উচিত কিনা তা নির্ভর করে আপনার মূল প্রশ্নটি কী তার উপর। আপনি যা জানতে চান তার সাথে মডেল করা উচিত।

না হওয়ার জন্য এর অর্থ কী হতে পারে , একটি উদাহরণ বিবেচনা করুন যেখানে সময় প্রশ্নে পরিবর্তনশীল নয়। বিভিন্ন হাসপাতালে শল্য চিকিত্সার জটিলতার সংখ্যা অধ্যয়ন করার কল্পনা করুন। একটি হাসপাতালে আরও অনেকগুলি শল্য চিকিত্সা সংক্রান্ত জটিলতার রিপোর্ট রয়েছে তবে তারা দাবি করতে পারে যে তুলনাটি ন্যায্য নয় কারণ তারা আরও অনেক শল্য চিকিত্সা করে। সুতরাং আপনি এই জন্য নিয়ন্ত্রণ করার চেষ্টা করার সিদ্ধান্ত নিন। আপনি কেবল অফসেট হিসাবে সার্জারীর সংখ্যার লগটি ব্যবহার করতে পারেন, যা আপনাকে সার্জারি প্রতি জটিলতার হার অধ্যয়ন করতে দেয়। আপনি সার্ভারের সংখ্যাটির লগটিকে অন্য কোভারিয়েট হিসাবেও ব্যবহার করতে পারেন। ধরা যাক যে সহগ থেকে উল্লেখযোগ্যভাবে পৃথক । যদিβ211β2>1, তারপরে আরও বেশি শল্য চিকিত্সা করা হাসপাতালগুলিতে জটিলতার হার বেশি থাকে (সম্ভবত তারা আরও কাজ সম্পন্ন করতে ছুটে চলেছেন)। যদি যেসব হাসপাতালে সর্বাধিক কাজ করা হয় তাদের শল্য চিকিত্সার ক্ষেত্রে কম জটিলতা থাকে (সম্ভবত তাদের সেরা ডাক্তার রয়েছে, তাই আরও কিছু করা এবং আরও ভাল করা)। β2<1

যদি প্রশ্নের পরিবর্তনশীল সময় হয় তবে এটি কীভাবে ঘটতে পারে তা দেখে আরও জটিল complicated পইসন বিতরণের থেকে দেখা দেয় দুটো কারণে পইসন প্রক্রিয়া , যা ইভেন্টের মধ্যে সময় ব্যাখ্যা মূলকভাবে বিতরণ করা হয়, তাই সেখানে বেঁচে থাকার বিশ্লেষণ একটি প্রাকৃতিক সংযোগ। বেঁচে থাকার বিশ্লেষণে, ইভেন্টগুলির সময় প্রায়শই ঘনিষ্ঠ হিসাবে বিতরণ করা হয় না তবে সময়ের সাথে সাথে বেসলাইন বিপত্তি আরও বেশি বা কমতে পারে। সুতরাং, এমন কোনও ক্ষেত্রে বিবেচনা করুন যেখানে আপনি কিছু প্রাকৃতিক সূচনার পয়েন্ট অনুসরণ করে ইভেন্টগুলির সংখ্যাকে মডেলিং করছেন। যদি , এর অর্থ ইভেন্টের হার দ্রুত , অন্যদিকে যদি , এর অর্থ ইভেন্টের হার । β2>1β2<1

প্রাক্তনটির একটি দৃ concrete় উদাহরণের জন্য, প্রাথমিকভাবে টিউমারটি সার্জিকভাবে অপসারণের পরে ক্যান্সার কোষগুলির সংখ্যার সময়ের জন্য একটি স্ক্যান কল্পনা করুন। কিছু রোগীদের ক্ষেত্রে, অস্ত্রোপচারের পর থেকে আরও সময় অতিবাহিত হয়েছে এবং আপনি এটি বিবেচনায় নিতে চেয়েছিলেন। যেহেতু একবার ক্যান্সার তার পায়ে ফিরে এসেছিল এটি তাত্ক্ষণিকভাবে বৃদ্ধি পেতে শুরু করবে, অতিরিক্ত চিকিত্সা ছাড়াই শল্য চিকিত্সা করার পরে এই হার সময়ের সাথে সাথে বৃদ্ধি পাবে।

পরবর্তীকালের একটি দৃ concrete় উদাহরণের জন্য, এমন একটি রোগের প্রাদুর্ভাবে মারা যাওয়া লোকের সংখ্যা বিবেচনা করুন যার জন্য আমাদের কোনও চিকিত্সা নেই। প্রথমদিকে, প্রচুর লোক মারা যায় কারণ তারা এই রোগের প্রতি বেশি সংবেদনশীল ছিল বা ইতিমধ্যে একটি আপোসযুক্ত প্রতিরোধ ব্যবস্থা ছিল ইত্যাদি time সময়ের সাথে সাথে, যেহেতু বাকী মানুষের সংখ্যা এই রোগের প্রতি কম সংবেদনশীল, তাই এই হারও হ্রাস পাবে। (দুঃখিত, এই উদাহরণটি এতটাই দুর্বল))


আপনার ব্যাপক উত্তরের জন্য আপনাকে অনেক ধন্যবাদ! আমি ভাল বুঝতে পারলে আমাকে বলুন। যদি আমরা সময়টিকে অফসেট হিসাবে ব্যবহার করি তবে আমরা সময় এবং ইভেন্টগুলির মধ্যে একটি লিনিয়ার ইতিবাচক সম্পর্ক ধরে নিই যার কৌণিক সহগটি অন্যান্য ভবিষ্যদ্বাণী দ্বারা প্রদত্ত । পরিবর্তে আমরা যদি লোভের সময়টিকে কাওয়্যারিয়েট হিসাবে ব্যবহার করি তবে আমরা ইভেন্টগুলির সময়ের ক্ষতিকারক প্রভাবটি অনুমান করি, যা ইতিবাচক হে নেতিবাচক । ( Y=টিআমিমি*মেপুঃ(Σ1পিβপিএক্সপি+ +এনগুলিটি)Y=টিআমিমিβটিআমিমি*মেপুঃ(Σ1পিβপিএক্সপি+ +এনগুলিটি)
চলমান

1
সুতরাং কেন একজনকে ধরে নেওয়া উচিত যে সময় এবং ইভেন্টের মধ্যে সম্পর্ক লিনিয়ার এবং ক্রমবর্ধমান? প্রতিটি ক্ষেত্রে এই ধরনের সম্পর্কের আকারটি অনুমান করা ভাল না? আমার আরও দুটি প্রশ্ন রয়েছে: ১. পরিবর্তিত সময়কে পরিবর্তে কোভারিয়েট হিসাবে ব্যবহার না করার অর্থ কী? ২. (সম্ভবত আমার প্রশ্নটি সম্পাদনা করা উচিত বা এর জন্য একটি নতুন জিজ্ঞাসা করা উচিত) আমি পড়েছি যে পোয়েসন মডেলগুলি আসলে পূর্ণসংখ্যা y এর সাথেও ব্যবহার করা যেতে পারে। সুতরাং আমি আর লিখতে পারি: গ্ল্যাম (আমি (y / সময়) ~ কোভ .1 + ... + কোভ.এন, পোইসন) এবং আমি একইরকম ফলাফল পেয়েছি যা আমি অফসেট (লগ (সময়)) ব্যবহার করছি। আমি এটি চেষ্টা করেছিলাম তবে আমি বিভিন্ন সহগ পাই।
বাকাবার্গ

পয়সন ডিস কেবল পূর্ণসংখ্যার জন্য; আপনার এলএইচএসে কোনও ভগ্নাংশ প্রবেশ করা উচিত নয়। লগ ট্রান্সফর্মটি ব্যবহার না করা মানে তাত্পর্যপূর্ণ ইউনিট সময় অনুসারে ইভেন্টগুলির মডেলিং হারগুলি, যা সম্ভবত আসল বিশ্বে কখনও বোধগম্য হয় না।
গুং - মনিকা পুনরায়

1
@ বাকাবার্গ, সময় সম্ভবত তাদের সাথে সম্পর্কযুক্ত। এটি অন্য কোনও রিগ্রেশন মডেলিং পরিস্থিতি থেকে আলাদা নয়। আমি এখানে সমস্যা দেখছি না। আপনি হয় গড় হারগুলি মডেলিংয়ে আগ্রহী বা আপনি নন।
গুং - মনিকা পুনরায়

1
@ তাতামি, আপনি যদি সময়টিকে কোনও সমাহার হিসাবে ব্যবহার করতে চান (অফসেটের চেয়ে), আপনাকে সময় লগ নিতে হবে না। তবে, আপনি যদি নিজের ফলাফলটিকে কোনও অফসেটের সাথে তুলনা করতে চান, তবে লগকে তাদের তুলনামূলক করতে আপনার প্রয়োজন।
গুং - মনিকা পুনরায়

7

টাইম অফসেটগুলি সাধারণত আপনার মডেল হিসাবে দেখা যায় যে ইউনিট সময় অনুসারে কোনও ইভেন্ট হয় তার হারের অনুমান করে অফসেটটি কতক্ষণ আপনি বিভিন্ন বিষয় পর্যবেক্ষণ করেছেন তা নিয়ন্ত্রণ করে।

পোয়েসন মডেলগুলিতে আপনি সর্বদা এমন হারের অনুমান করে যা কিছু ঘটে থাকে তবে আপনি কখনই এই হারটি সরাসরি দেখতে পাচ্ছেন না । আপনি কিছু সময় যে ইভেন্টে ঘটে তার সংখ্যা পর্যবেক্ষণ করতে পারেন। অফসেট দুটি ধারণার মধ্যে সংযোগ তৈরি করে।

উদাহরণস্বরূপ, আপনি বিভিন্ন সময়ের জন্য ঝুড়ির শুটিংয়ের বিষয়গুলি পর্যবেক্ষণ করেছেন এবং আপনি প্রতিটি বিষয়ের জন্য সফল ঝুড়ির সংখ্যা গণনা করেছেন। প্রতিটি বিষয় কত ঘন ঘন ঝুড়িতে ডুবে তার প্রতি আপনি কী আগ্রহী , অর্থাত প্রতিটি বিষয় প্রতি মিনিটে ডুবে যাওয়ার মতো সাফল্যের ঝুড়ির সংখ্যা, কারণ এটি তাদের দক্ষতার কিছুটা উদ্দেশ্যমূলক পরিমাপ measure আপনি যে পরিমাণ ঝুড়িকে বাস্তবে ডুবে দেখেছেন তা এই আনুমানিক হারের চেয়ে কত গুণ আপনি বিষয়টির চেষ্টাটি পর্যবেক্ষণ করেছেন। সুতরাং আপনি প্রতিক্রিয়া ইউনিট , প্রতি মিনিটে ঝুড়ি সংখ্যা বিবেচনা করতে পারেন ।

এমন পরিস্থিতিটি ভাবতে অসুবিধা হয় যেখানে আপনি পোয়েসন রিগ্রেশনকে কোভারিয়েট হিসাবে পর্যবেক্ষণ করা সময় ব্যবহার করবেন, যেহেতু খুব প্রকৃতির দ্বারা আপনি একটি হার নির্ধারণ করছেন।

উদাহরণস্বরূপ, আমি যদি আমেরিকান বনাম ইওরোপীয় হওয়ার প্রভাবের (খুব নিরীহ উদাহরণ) ঝুড়ির সংখ্যার উপর মূল্যায়ন করতে চাই, তবে কোভেরিয়েট হিসাবে সময় যুক্ত করার ফলে শ্যুটিংয়ের সময় পেরিয়ে যাওয়ার সময় থেকে "স্বাধীনভাবে" সেই প্রভাবটি মূল্যায়ন করতে পারব না এটা? তদ্ব্যতীত এটি আমাকে ফলাফলের সময়ের প্রভাব সম্পর্কে একটি অনুমানও দেবে।

আশা করি এটির বিপদটি হাইলাইট করে এমন একটি উদাহরণ এখানে দেওয়া হয়েছে। ধরে নিন যে আমেরিকান এবং ইউরোপীয়রা, সত্যই, প্রতি মিনিটে একই সংখ্যক ঝুড়ি ডুবে যায়। তবে বলুন যে আমরা প্রতিটি ইউরোপীয়কে প্রতিটি আমেরিকান হিসাবে দ্বিগুণ জন্য পর্যবেক্ষণ করেছি, সুতরাং, আমরা প্রতিটি ইউরোপীয়ের জন্য দ্বিগুণ ঘুড়ি দেখেছি observed

যদি আমরা উভয় সময় পর্যবেক্ষণের জন্য পরামিতিগুলি সহ একটি মডেল সেট আপ করি এবং "ইওরোপীয়" এর জন্য একটি সূচক থাকে, তবে এই দুটি মডেলই ডেটা ব্যাখ্যা করে:

(ঝুড়ি)=2টি+ +0এক্সEropean
(ঝুড়ি)=0টি+ +2এক্সEropean

একজন পরিসংখ্যানবিদ হিসাবে, আমরা সত্যই এই পরিস্থিতিতে আমাদের মডেলটি আমাদের জানাতে চাই যে ইউরোপীয়রা যে ঝুড়ি ঝুড়ি তৈরি করে এবং আমেরিকানরা ঝুড়ি তৈরি করে তার হারের মধ্যে কোনও পরিসংখ্যানগত পার্থক্য নেই। তবে আমাদের মডেল এটি করতে ব্যর্থ হয়েছে এবং আমরা বিভ্রান্ত হয়ে পড়েছি।

বিষয়টি হ'ল আমরা এমন কিছু জানি যা আমাদের মডেল জানে না । এটি, আমরা জানি যে আমরা যদি একই ব্যক্তিকে দ্বিগুণ সময়ের জন্য পর্যবেক্ষণ করি, প্রত্যাশায় তারা দ্বিগুণ ঝুড়ি তৈরি করবে। যেহেতু আমরা এটি জানি, আমাদের এটি সম্পর্কে আমাদের মডেলটি বলতে হবে। এটি অফসেটটি অর্জন করে।

সম্ভবত অফসেট পদ্ধতিটি ব্যবহার করা উপযুক্ত যখন আমরা জানি যে ঘটনাগুলি একই সাথে একই সাথে ঘটে থাকে!

হ্যাঁ, তবে এটি পিসন মডেল নিজেই অনুমান । পিসন বিতরণের উইকিপিডিয়া পৃষ্ঠা থেকে

ফরাসী গণিতবিদ সিমোন ডেনিস পোইসনের নামানুসারে পোয়েসন বিতরণটি একটি পৃথক সম্ভাবনা বিতরণ যা সময় এবং / অথবা স্থানের একটি নির্দিষ্ট ব্যবধানে ঘটে যাওয়া ঘটনাগুলির সংখ্যার সম্ভাবনা প্রকাশ করে যদি এই ঘটনাগুলি একটি পরিচিত গড় হারের সাথে স্বতন্ত্রভাবে ঘটে থাকে শেষ ঘটনা থেকে সময়


2
আপনার উত্তরের জন্য ধন্যবাদ. কিন্তু সময়কে সমবায় হিসাবে ব্যবহার করা কি আমাকে একই উত্তর দেবে না? উদাহরণস্বরূপ, আমি যদি আমেরিকান বনাম ইওরোপীয় হওয়ার প্রভাবের (খুব নিরীহ উদাহরণ) ঝুড়ির সংখ্যার উপর মূল্যায়ন করতে চাই, তবে কোভেরিয়েট হিসাবে সময় যুক্ত করার ফলে শ্যুটিংয়ের সময় পেরিয়ে যাওয়ার সময় থেকে "স্বাধীনভাবে" সেই প্রভাবটি মূল্যায়ন করতে পারব না এটা? তদ্ব্যতীত এটি আমাকে ফলাফলের সময়ের প্রভাব সম্পর্কে একটি অনুমানও দেবে। কখনও কখনও সময় গণনা পরিবর্তকের পক্ষে সর্বদা গুরুত্বপূর্ণ হয় না, উদাহরণস্বরূপ যখন পর্যবেক্ষণের শুরুতে ঘটনাগুলি ঘটে থাকে।
বাকাবার্গ

সম্ভবত অফসেট পদ্ধতিটি ব্যবহার করা উপযুক্ত যখন আমরা জানি যে ঘটনাগুলি একই সাথে একই সাথে ঘটে থাকে!
বাকাবার্গ

1
@ বাকবুর্গ আমি একটি চেষ্টা করা প্রতিক্রিয়া যুক্ত করেছি। আমি আসা করি এটা সাহায্য করবে!
ম্যাথু ড্রুরি 20
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.