স্কিউড ডেটা সহ রিগ্রেশন


12

ডেমোগ্রাফিক এবং পরিষেবা থেকে ভিজিট গণনা গণনা করার চেষ্টা করা। তথ্য খুব skew হয়।

Histograms:

histograms

কিউকি প্লট (বাম লগ হয়):

কিউকিউ প্লট - ডান লগ হয়

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityএবং serviceফ্যাক্টর ভেরিয়েবল হয়।

আমি সমস্ত ভেরিয়েবলের জন্য একটি কম পি মান পাই *** তবে আমি .05 এর একটি কম আর-স্কোয়ারও পাই। আমার কি করা উচিৎ? ক্ষতিকারক বা অন্য কিছুর মতো অন্য কোনও মডেল কাজ করবে?


যেহেতু আমি প্রথমে শূন্যগুলির একটি উচ্চ ফ্রিকোয়েন্সি বলে মনে করি তা আসলে দ্বিগুণের উচ্চ ফ্রিকোয়েন্সি, তাই আপনি ডেটা উত্পন্নকরণ প্রক্রিয়া সম্পর্কে আমাদের আরও কিছু বলতে পারেন? লোকেরা কী ধরনের পরিষেবা নিয়েছিল এবং বিশ্লেষণের "চূড়ান্ত লক্ষ্য" কী? আপনি কি পরিদর্শনগুলির সংখ্যা (গণনা) পূর্বাভাস দেওয়ার চেষ্টা করছেন, বৈশিষ্ট্যের একটি সেট দেওয়া (অর্থাত্ পরিষেবার মানের মান হিসাবে)? আপনার গবেষণা প্রশ্নের উত্তর দেওয়ার উদ্দেশ্যে আপনার কি ফলাফলকে গণনা হিসাবে রাখা দরকার, বা আপনি ফলাফলের পরিবর্তনশীলটিকে আরও কম, তবে বৃহত্তর বিভাগে ভেঙে ফেলতে পারেন?
মারকুইস ডি কারাবাস

2
আপনার কাছে গণনা তথ্য রয়েছে। পোইসন রিগ্রেশন এর জন্য এই সাইটটি অনুসন্ধান করুন।
কেজেটিল বি হালওয়ারসেন 15

উত্তর:


11

লিনিয়ার রিগ্রেশন আপনার ফলাফলের জন্য সঠিক পছন্দ নয়, প্রদত্ত:

  1. ফলাফল পরিবর্তনশীল সাধারণত বিতরণ করা হয় না
  2. ফলাফল ভেরিয়েবলটি যে মানগুলি নিতে পারে তাতে সীমাবদ্ধ হচ্ছে (গণনার ডেটা মানে পূর্বাভাসিত মানগুলি নেতিবাচক হতে পারে না)
  3. 0 টি দর্শন সহ কেসের উচ্চ ফ্রিকোয়েন্সি হিসাবে উপস্থিত বলে মনে হয়

গণনা ডেটার জন্য সীমাবদ্ধ নির্ভরশীল পরিবর্তনশীল মডেল

আপনি যে অনুমান কৌশলটি চয়ন করতে পারেন তা আপনার ফলাফলের পরিবর্তনশীলের "কাঠামো" দ্বারা নির্ধারিত হয়। এটি হ'ল, যদি আপনার ফলাফল পরিবর্তনশীল এটি গ্রহণ করতে পারে এমন মানগুলিতে সীমাবদ্ধ থাকে (অর্থাত্ এটি যদি সীমাবদ্ধ নির্ভরশীল পরিবর্তনশীল হয় ) তবে আপনাকে এমন একটি মডেল বাছাই করতে হবে যেখানে পূর্বাভাসিত মানগুলি আপনার ফলাফলের সম্ভাব্য সীমার মধ্যে চলে আসবে। যদিও কখনও কখনও সীমিত নির্ভরশীল ভেরিয়েবলগুলির জন্য লিনিয়ার রিগ্রেশন একটি ভাল অনুমিতিকরণ হয় (উদাহরণস্বরূপ, বাইনারি লজিট / প্রবিটের ক্ষেত্রে), প্রায়শই এটি হয় না। সাধারণ রৈখিক মডেলগুলি প্রবেশ করান । আপনার ক্ষেত্রে, ফলাফলের পরিবর্তনশীলটি ডেটা গণনা করার কারণে আপনার বেশ কয়েকটি পছন্দ রয়েছে:

  1. পয়সন মডেল
  2. নেতিবাচক দ্বিপদী মডেল
  3. জিরো ইনফ্ল্যাটেড পোইসন (জিপ) মডেল
  4. জিরো ইনফ্ল্যাটেড নেগেটিভ দ্বিপদী (জেডআইএনবি) মডেল

পছন্দটি সাধারণত অভিজ্ঞতাগতভাবে নির্ধারিত হয়। আমি নীচে এই বিকল্পগুলির মধ্যে চয়ন করার জন্য সংক্ষেপে আলোচনা করব।


পায়সন বনাম নেতিবাচক দ্বিপদী

সাধারণভাবে, পোইসন আমি উপরে উল্লিখিত 4 গণনার ডেটা মডেলগুলির যেতে যাওয়া "সাধারণ ওয়ার্কহর্স" মডেল। মডেলের একটি সীমাবদ্ধতা হ'ল শর্তসাপেক্ষ বৈকল্পিক = শর্তাধীন মানে, যা সর্বদা সত্য হতে পারে না um যদি আপনার মডেলটি অতিরিক্ত মাত্রায় বিভক্ত হয় (শর্তসাপেক্ষ বৈকল্পিক> শর্তসাপেক্ষ মানে) তবে তার পরিবর্তে আপনার নেতিবাচক দ্বিপদী মডেলটি ব্যবহার করতে হবে। সৌভাগ্যক্রমে, যখন আপনি নেতিবাচক দ্বিপদী পরিচালনা করেন, আউটপুটে সাধারণত ছড়িয়ে পড়া প্যারামিটারের জন্য একটি পরিসংখ্যানগত পরীক্ষা অন্তর্ভুক্ত হয় (আর এই প্যাকেজটিকে "থেটা ( ) বলে, যা অন্যান্য প্যাকেজে" আলফা "বলা হয়)। বনাম নেতিবাচক নাল অনুমানটি হ'ল: , অন্যদিকে বিকল্প অনুমানটি ।θH0:θ=0H1:θ0θ গুরুত্বপূর্ণ, সেখানে মডেল overdispersion প্রমাণ, এবং আপনি পইসন উপর ঋণাত্মক বাইনমিয়াল চয়ন করবে। সহগ যদি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ না হয় তবে পয়েসনের ফলাফল উপস্থিত করুন।

জিপ বনাম জিআইএনবি

একটি সম্ভাব্য জটিলতা হ'ল শূন্য মূল্যস্ফীতি, যা এখানে সমস্যা হতে পারে। এখানেই শূন্য-স্ফীত মডেলগুলি জিপ এবং জেডআইএনবি আসে these এই মডেলগুলি ব্যবহার করে, আপনি ধরে নিতে পারেন যে শূন্য মানগুলি উত্পন্ন করার প্রক্রিয়াটি অন্যান্য, শূন্য-না মানগুলি উত্পন্ন করার প্রক্রিয়া থেকে পৃথক। আগের মতো, জিআইএনবি উপযুক্ত যখন ফলাফলের অত্যধিক শূন্য থাকে এবং অত্যধিক সংবেদনশীল হয়, যখন জিপ উপযুক্ত হয় যখন ফলাফলের অত্যধিক শূন্য থাকে তবে শর্তাধীন মানে = শর্তসাপেক্ষ বৈকল্পিক। শূন্য-স্ফীত মডেলগুলির জন্য, আপনি উপরে তালিকাভুক্ত মডেল covariates ছাড়াও, আপনাকে ভেরিয়েবলগুলি চিন্তা করতে হবে যা পরিণতিতে আপনি যে অতিরিক্ত শূন্যগুলি দেখেছিলেন তা তৈরি করতে পারে। আবার, এই মডেলগুলির আউটপুট নিয়ে আসে এমন পরিসংখ্যানগত পরীক্ষা রয়েছে (কখনও কখনও আপনি যখন কোনও আদেশ সরিয়ে নেবেন তখন আপনাকে সেগুলি নির্দিষ্ট করতে হতে পারে) যা আপনাকে দেয়আপনার ডেটার জন্য কোন মডেলটি সেরা তা অনুমিতভাবে সিদ্ধান্ত নিন। আগ্রহের দুটি পরীক্ষা রয়েছে: প্রথমটি হ'ল ছড়িয়ে পড়া প্যারামিটারের সহগের পরীক্ষা এবং দ্বিতীয়টি ভুং পরীক্ষা নামে পরিচিত, এটি আপনাকে বলে যে অতিরিক্ত শূন্যগুলি একটি পৃথক প্রক্রিয়া দ্বারা উত্পাদিত হয়েছে (অর্থাত্ সেখানে আছে কিনা) ফলস্বরূপ, শূন্য মূল্যস্ফীতি হ'ল)।θ

জিপ এবং ZINB মধ্যে পছন্দ তুলনা, আপনি আবার বিচ্ছুরণ প্যারামিটারের পরীক্ষা তাকান হবে । আবার, (জিপ আরও ভাল ফিট) এবং (ZINB একটি ভাল ফিট)। ভুং পরীক্ষা আপনাকে পোইসন বনাম জিপ বা এনবি বনাম জিনব এর মধ্যে সিদ্ধান্ত নিতে দেয় allows Vương পরীক্ষা স্বরূপ, (ক ভাল হইয়া পইসন / দ্রষ্টব্য হয়) এবং (পিন / ZINB একটি উন্নততর ফিট)।θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processz- র গুলি আমি গুলি একটি গুলি তোমার দর্শন লগ করা টি একটি গুলি পি একটি একটি টন পি গুলি গুলিH1:Excess zeroes is a result of a separate process


অন্যান্য ব্যবহারকারীরা "স্বাভাবিক" ওয়ার্কফ্লো সম্পর্কে মন্তব্য করতে পারেন, তবে আমার পদ্ধতির ডেটাটি ভিজ্যুয়ালাইজ করা এবং সেখান থেকে যাওয়া। আপনার ক্ষেত্রে, আমি সম্ভবত জেডআইএনবি দিয়ে শুরু করব এবং থিতা এবং ভুং টেস্টের সহগের উপর উভয় পরীক্ষা চালাব , যেহেতু এটি সহগের উপর পরীক্ষা ZIP আপনাকে জানায় যে জিপ এবং জেডআইএনবির মধ্যে কোনটি ভাল and ভুং পরীক্ষা আপনাকে বলবে যে আপনার শূন্য-স্ফীত মডেলগুলি ব্যবহার করা উচিত। θθθ

পরিশেষে, আমি আর ব্যবহার করি না, তবে ইউসিএলএ ডেটা বিশ্লেষণ উদাহরণ পৃষ্ঠায় আইডিআরই আপনাকে এই মডেলগুলি ফিট করার জন্য গাইড করতে পারে।

[মন্তব্য করার মতো যথেষ্ট খ্যাতি ছাড়াই অন্য কোনও ব্যবহারকারী দ্বারা সম্পাদনা করুন: এই কাগজটি আপনাকে শূন্য-মূল্যস্ফীতির মডেলের তুলনা করতে ভুং পরীক্ষাটি কেন ব্যবহার করবেন না এবং বিকল্পগুলি সরবরাহ করে তা ব্যাখ্যা করে।

পি। উইলসন, "জিরো-মুদ্রাস্ফীতি পরীক্ষা করার জন্য অ-নেস্টেড মডেলদের জন্য ভুং টেস্টের অপব্যবহার।" অর্থনীতি পত্র, 2015, খণ্ড। 127, সংখ্যা সি, 51-53 ]


সংখ্যাগরিষ্ঠতা 2 ~ দর্শন। সমস্ত রেকর্ড 1 টিরও বেশি ভিজিট
পিএক্সএক্সডি

আমি পিসন এবং গামার উভয় গ্ল্যামের জন্য একই রকম কিউকি প্লট পাচ্ছি, তা কি ঠিক আছে?
পিএক্সএক্সডি

3
1. ফলাফল পরিবর্তনশীল সাধারণত বিতরণ করা হয় না প্রতি লিনিয়ার রিগ্রেশন বিরুদ্ধে বৈধ যুক্তি। রিগ্রেশন অনুমানের একটি সেট যা প্রাক্কলনকারী (যেমন ধারাবাহিকতা এবং অ্যাসিপটোটিক স্বাভাবিকতা) এর দুর্দান্ত বৈশিষ্ট্যের গ্যারান্টি দেয় ফলাফল ফলাফলের পরিবর্তনশীল (এবং ত্রুটির স্বাভাবিকতাও নয়) এর স্বাভাবিকতা অন্তর্ভুক্ত করে না।
রিচার্ড হার্ডি

2

গামা বিতরণ সহ সাধারণীনের লিনিয়ার মডেলটি ব্যবহার করে দেখুন। এটি আপনার নির্ভরশীল পরিবর্তনশীল আনুমানিক হিসাবে এটি ইতিবাচক এবং x = 0 এ শূন্যের সমান হতে পারে। আমি অনুরূপ ক্ষেত্রে কিছু সাফল্যের সাথে আর এবং জিএলএম ব্যবহার করেছি।


আমি কি সেখানে ভিজিট লগ বা লগ লগ ব্যবহার করব? glm (d বয়স + ডি $ লিঙ্গ + শহর + এমডিসি, পরিবার = গামা (লিঙ্ক = লগ)) আমি একই জাতীয় Visits d
কিউকিউ

1
না, আমি বিশ্বাস করি আপনার লগ লিঙ্কটি নয় বরং পরিচয় লিঙ্কটি ব্যবহার করা উচিত। তবে প্রথমে পরীক্ষা করুন যে গামা ফাংশন আপনার বিতরণে কীভাবে উপযুক্ত।
দিয়েগো

0

সমস্ত পরিসংখ্যানগত অনুমান একটি মডেল থেকে ত্রুটি সম্পর্কে। আপনি যদি সপ্তাহের দিনকে প্রতিফলিত করে 6 সূচক সিরিজ ব্যবহার করে একটি সাধারণ মডেল তৈরি করেন ... তবে আপনি ত্রুটির একটি আরও সুন্দর বিতরণ দেখতে শুরু করবেন। মাসিক প্রভাব এবং ছুটির প্রভাবগুলি অন্তর্ভুক্ত করতে এগিয়ে যান (আগে ও তার আগে) এবং ত্রুটির বিতরণ আরও সুন্দর হয়ে উঠবে। মাসের দিন, সপ্তাহের মাসের দিন, দীর্ঘ উইকএন্ডের সূচক এবং জিনিসগুলি আরও সুন্দর হয়ে উঠবে।

আরও মজাদার পড়ার জন্য প্রদত্ত অতিথিদের বর্তমান এবং historicalতিহাসিক ডেটা এবং https://stats.stackexchange.com/search?q=user%3A3382+daily+data প্রদত্ত অতিথির সংখ্যা পূর্বাভাস দেওয়ার সহজ পদ্ধতিটি দেখুন।


1
এই উত্তরটি আসলে জিজ্ঞাসিত প্রশ্নের উদ্বেগ বলে মনে হচ্ছে না। আপনি সংযোগটি সুস্পষ্ট করতে পারবেন?
হোবল

আমি প্রতিদিনের ডেটা পরামর্শ দেওয়ার জন্য তার ডিভিসিআইটিএস নিয়েছিলাম ... যদি তা না হয় তবে আমি আমার উত্তরটি প্রত্যাহার করি। যদি এটি সত্যিকারের ক্রস-বিভাগীয় হয় .. তবে সম্ভবত তার উচিত প্রধান শ্রেণিবদ্ধকরণের দ্বারা ডেটা স্ট্র্যাটিফাইয়ের বিবেচনা করা উচিত।
আইরিশস্ট্যাট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.