কোনও রিগ্রেশনে তারিখের পরিবর্তনশীলটি ব্যবহার করা কি বোধগম্য?


17

আমি আর-তে তারিখের বিন্যাসে ভেরিয়েবলগুলি ব্যবহার করতে অভ্যস্ত নই I'm আমি কেবল ভাবছি যে কোনও লিনিয়ার রিগ্রেশন মডেলটিতে ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে কোনও তারিখের পরিবর্তনশীল যুক্ত করা সম্ভব কিনা আমি ভাবছি। যদি এটি সম্ভব হয় তবে আমরা সহগকে কীভাবে ব্যাখ্যা করতে পারি? ফলাফলের পরিবর্তনশীলটিতে এটি কি এক দিনের প্রভাব?

আমি যা করতে চাইছি তার উদাহরণ সহ আমার বক্তব্যটি দেখুন ।


3
A date can be converted to a number.

my impression is that R does it automatically
PAC

3
But the resulting numbers are often huge, which can lead to problems. Better to convert yourself, e.g. to time steps (hours or days or...) since beginning of measurements. That also makes it easier to interpret the intercept.
Roland

3
Convert to factor (to get day fixed effects) or convert to numeric and rescale so value of first day is 0 to get a linear effect of days since origin.
Thomas

1
এটি একটি বাস্তব ভাল প্রশ্ন। আমি মনে করি এটি উভয়ই, একটি পরিসংখ্যানগত প্রশ্ন এবং একটি প্রোগ্রামিং প্রশ্ন। প্রোগ্রামিংয়ের প্রশ্নটি হ'ল আমরা যখন কোনও রিগ্রেশন মডেলটিতে ব্যাখ্যামূলক পরিবর্তনশীল হিসাবে তারিখগুলি রাখি তখন কীভাবে তারিখগুলি নিয়ে কাজ করে আর পরিসংখ্যানগত প্রশ্নটি সহগের সঠিক ব্যাখ্যা সম্পর্কে।
পিএসি

উত্তর:


17

Building on earlier comments on Stack Overflow:

Yes, it makes sense. Here I address the general question and am happy to let R experts fill in the crucial details. In my view, as this is now on Cross-Validated, we should not focus too narrowly on the poster's favourite software, important though that is for like-minded people.

Dates in any software if not numeric can be converted to numeric variables, expressed in years, days, milliseconds or whatever since some time origin. The coefficient associated with each date has denominator units which are whatever the units of the date are. The numerator units depend on those of the response or dependent variable. (Non-identity link functions complicate this, naturally.)

যাইহোক, তারিখগুলি এমন কোনও উত্সে স্থানান্তরিত হয় যা অধ্যয়নের জন্য অর্থবোধ করে usually সাধারণত, তবে অগত্যা নয় যে, উত্সটি অধ্যয়নের সময়কালের মধ্যে বা তার খুব কাছাকাছি হওয়া উচিত।

সম্ভবত সবচেয়ে সহজ কেসটি বছরের পর বছরগুলিতে তারিখের ক্ষেত্রে লিনিয়ার রিগ্রেশন। এখানে কিছু একটা রিগ্রেশন responseউপর date2000 বা 2010 মত তারিখগুলি হিসাবে প্রকাশ একটি পথিমধ্যে যার মান বোঝা responseসরাইয়া calendrical বিস্তারিত সেট ধরনের কোনো বছর ছিল বছরের মধ্যে 0., যেমন একটি পথিমধ্যে প্রায়ই অদ্ভূত বৃহৎ ইতিবাচক বা নেতিবাচক, যা হয় যৌক্তিক তবে ব্যাখ্যা এবং উপস্থাপনে একটি ব্যাঘাত (এমনকি ভালভাবে জানানো শ্রোতাদের কাছেও)।

স্নাতকোত্তর শিক্ষার্থীদের সাথে কাজ করার একটি প্রকৃত উদাহরণে, নির্দিষ্ট অঞ্চলে প্রতিবছর ঘূর্ণিঝড়ের সংখ্যা তারিখের সাথে সামান্য বৃদ্ধি পাচ্ছিল এবং একটি লিনিয়ার প্রবণতা একটি যুক্তিসঙ্গত ছুরিকাঘাত দেখায়। রিগ্রেশন থেকে বিরতি একটি বৃহত্তর নেতিবাচক সংখ্যা ছিল, যা এটি যতক্ষণ না উপলব্ধি না হওয়া অবধি অনেকটা বিশৃঙ্খলা সৃষ্টি করেছিল তা ২০১০-এ উত্স স্থানান্তর ৪০-এ উত্স স্থানান্তর করার ফলে আরও ভাল ফলাফল পাওয়া গেছে। (আসলে, পয়সন রিগ্রেশন নিশ্চিত করে যে ইতিবাচক ভবিষ্যদ্বাণীগুলি আরও ভাল ছিল, তবে এটি আলাদা গল্প story

উপর regressing date - 2000বা যাই হোক না কেন এইভাবে একটি ভাল ধারণা। একটি অধ্যয়নের সংক্ষিপ্ত বিবরণগুলি প্রায়শই ভাল বেসের তারিখ, অর্থাৎ একটি নতুন উত্সকে নির্দেশ করে।

অন্যান্য মডেল এবং / অথবা অন্যান্য ভবিষ্যদ্বাণীকারীদের ব্যবহার এই নীতিটিকে দুর্বল করে না; এটি কেবল এটিকে অস্পষ্ট করে।

ভেবে দেখার পক্ষে সহজতম তারিখগুলি ব্যবহার করে ফলাফলগুলি গ্রাফ করা ভাল ধারণা। এগুলি আসল তারিখ হতে পারে; এটি কোনও বৈপরীত্য নয়, কারণ যেটি সম্পর্কে চিন্তা করা সবচেয়ে সহজ এটি ব্যবহারের ঠিক একই নীতি।

একটু চিন্তাভাবনা দেখায় যে নীতিটি আরও সাধারণ। 0 বছরের বয়সের জন্য যৌক্তিক তবে বিশ্রী ভবিষ্যদ্বাণী এড়াতে আমরা প্রায়শই (বয়স - 20) বা এরকম কিছু নিয়ে ভাল থাকি।

সম্পাদনা 21 মার্চ 2019 (মূল 29 জুলাই 2013): এই যুক্তিগুলি কক্স, এনজে 2015 এর স্টাটা প্রসঙ্গে আলোচিত হয়েছে origin স্টাটা জার্নাল 15: 574-587 এখানে দেখুন

সম্পাদনা 2 এছাড়াও 4 ডিসেম্বর 2015 @ মন্তব্যগুলিতে সংখ্যক নির্ভুলতার গুরুত্বপূর্ণ বিষয়টিকেও উত্থাপন করে। প্রায়শই সময় ইউনিটগুলি সূক্ষ্ম থাকে এবং ফলস্বরূপ তারিখগুলি বা তারিখের সময়গুলি খুব বড় হতে পারে, বর্গাকার পরিমাণগুলির জন্য গুরুত্বপূর্ণ সমস্যা উত্থাপন করে এবং আরও অনেক কিছু। তিনি আর। এর থেকে একটি উদাহরণ উত্থাপন করেছেন যে আমরা যোগ করতে পারি (উদাহরণস্বরূপ) যে স্টাটায় তারিখের সময়গুলি ১৯60০ সালের শুরু থেকেই মিলি সেকেন্ড। বা খুব ছোট, তবে এটি পতাকাঙ্কণের জন্যও মূল্যবান।


1
একনোমেট্রিকভাবে বলতে গেলে, তারিখটি প্রায়শই অপরিমেয় পরিবর্তনশীলের জন্য প্রক্সি হিসাবে ব্যবহৃত হয়, বা আপনি সহজেই যে ডেটা সহজেই অর্জন করতে পারবেন না। ব্র্যান্ডের স্বীকৃতি বাড়ার সাথে সাথে এটি একটি নতুন কোম্পানির কাছ থেকে একটি নির্দিষ্ট পণ্যের বর্ধিত বিক্রয় হারে দেখা যায়। যেহেতু আপনার কাছে সম্ভবত ব্র্যান্ড স্বীকৃতির জন্য কোনও মেট্রিক নেই, তাই তারিখটিকে প্রক্সি হিসাবে ব্যবহার করা যেতে পারে। এটি আপনার অন্যান্য রেজিস্ট্রারদের "আরও বাস্তববাদী" সহগগুলি দেবে * ** টিএল: ডিআর ** আপনার স্বাধীন পরিবর্তনশীলকে কী প্রভাব ফেলবে তার সাথে কি সম্পর্কহীন কারণগুলির তারিখের সাথে সম্পর্কযুক্ত হতে পারে তা ভেবে আপনার রেজিস্ট্রেশনে তারিখটি ব্যবহার করা সতর্ক হওয়া উচিত
স্কট

1
Good advice. I'd conjecture that (a function of) calendar date is typically a proxy for some process in time that is difficult to capture otherwise, so the point extends way beyond econometrics.
Nick Cox

1
I am as fond of sines and cosines as anyone, but what sampling of problems across disciplines leads to that judgement?
Nick Cox

1
If interested see stata-journal.com/sjsearch.html?choice=keyword&q=season for links to some of my work on seasonality.
Nick Cox

3
+1 The comments about shifting the origin are important. I recently rewrote part of a popular R regression package that failed badly with date regressors because it did not standardize them internally. Since the default date representation is in seconds since 1970, recent dates are in the billions and the squaring involved in the formulas obliterates most or all of the precision in the results when other regressors have values near 1 or smaller. Wiser choices of date origin (and units of measurement--decimal years almost always work well) tend to avoid such problems.
whuber

5

As been said above, with suitable scaling, dates are great regressors. Time effects are less likely to be linear than even the typical covariates, so I almost always use regression splines in time. Some complex time trends require many knots (e.g., 7 or more) to fit. Restricted cubic splines (natural splines) provide safer linear extrapolation beyond the end of the observed times, although extrapolation is seldom completely safe.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.