গণনা ডেটা এবং ওভারডিস্পেরেশন সহ একটি রিগ্রেশনে পইসন বা কোসি পয়সন?


16

আমার কাছে ডেটা গণনা রয়েছে (গ্রাহকের সংখ্যা গণনা সহ চাহিদা / অফার বিশ্লেষণ, - সম্ভবত - বহু কারণের উপর নির্ভর করে) have আমি স্বাভাবিক ত্রুটিগুলি সহ একটি লিনিয়ার রিগ্রেশন চেষ্টা করেছি, তবে আমার কিউকিউ-প্লটটি আসলে ভাল নয়। আমি উত্তরের লগ রূপান্তরের চেষ্টা করেছি: আবারও খারাপ কিউকিউ-প্লট।

তাই এখন, আমি পইসন ত্রুটিগুলির সাথে একটি প্রতিরোধের চেষ্টা করছি। সমস্ত উল্লেখযোগ্য ভেরিয়েবল সহ একটি মডেল সহ, আমি পাই:

Null deviance: 12593.2  on 53  degrees of freedom
Residual deviance:  1161.3  on 37  degrees of freedom
AIC: 1573.7

Number of Fisher Scoring iterations: 5

বাকী বিচ্যুতিটি স্বাধীনতার অবশিষ্টাংশগুলির চেয়ে বড়।

আমার কীভাবে কাসিপোইসন ব্যবহার করা দরকার তা আমি কীভাবে জানতে পারি? এক্ষেত্রে কোসিপোইসনের লক্ষ্য কী? আমি ক্রোলির "দ্য আর বুক" এ পরামর্শটি পড়েছি, তবে আমার ক্ষেত্রে এটির বিন্দু বা বড় কোনও উন্নতি আমি দেখতে পাই না।

উত্তর:


18

আপনি কোন ধরণের গ্লোম সমীকরণটি নির্ধারণ করতে চান তা নির্ধারণের চেষ্টা করার সময়, আপনার টার্গেট ভেরিয়েবলের প্রত্যাশিত মান ডান হাতের দিক (আরএইচএস) ভেরিয়েবল এবং আরএইচএস ভেরিয়েবল প্রদত্ত টার্গেট ভেরিয়েবলের বৈকল্পিকের মধ্যে প্রশংসনীয় সম্পর্ক সম্পর্কে ভাবা উচিত। আপনার সাধারণ মডেল থেকে লাগানো মানগুলি বনাম অবশিষ্টাংশের প্লটগুলি এতে সহায়তা করতে পারে। পয়সন রিগ্রেশন সহ, অনুমান করা সম্পর্কটি হ'ল বৈচিত্রটি প্রত্যাশিত মানের সমান; বরং সীমাবদ্ধ, আমি মনে করি আপনি সম্মত হবেন। একটি "স্ট্যান্ডার্ড" লিনিয়ার রিগ্রেশন সহ, অনুমানটি হ'ল প্রত্যাশিত মান নির্বিশেষে ভিন্নতা স্থির থাকে। কোয়াডস-পোইসন রিগ্রেশনের জন্য, বৈকল্পিককে গড়ের লিনিয়ার ফাংশন হিসাবে ধরে নেওয়া হয়; নেতিবাচক দ্বিপদী রিগ্রেশন, একটি চতুর্ভুজ ফাংশন।

তবে আপনি এই সম্পর্কের মধ্যে সীমাবদ্ধ নন। একটি "পরিবারের" এর স্পেসিফিকেশন ("কোয়াশি" ব্যতীত) গড়-বৈকল্পিক সম্পর্ক নির্ধারণ করে। আমার কাছে আর বুক নেই, তবে আমি কল্পনা করেছি যে এটিতে একটি টেবিল রয়েছে যা পারিবারিক ক্রিয়াকলাপগুলি এবং একই সাথে গড়-বৈচিত্রের সম্পর্কগুলি দেখায়। "কোয়াসি" পরিবারের জন্য আপনি বেশ কয়েকটি মধ্য-বৈচিত্রের সম্পর্ক নির্দিষ্ট করতে পারেন এবং আপনি নিজের লেখাও লিখতে পারেন; দেখতে আর ডকুমেন্টেশন । এটি হতে পারে যে আপনি একটি "আধা" মডেলটিতে গড়-ভেরিয়েন্স ফাংশনের জন্য একটি অ-ডিফল্ট মান নির্দিষ্ট করে আরও ভাল ফিট খুঁজে পেতে পারেন।

লক্ষ্য পরিবর্তনশীলের পরিসীমাটির দিকেও আপনার মনোযোগ দেওয়া উচিত; আপনার ক্ষেত্রে এটি nonnegative গণনা তথ্য। আপনার যদি নিম্ন মানের - 0, 1, 2 এর যথেষ্ট পরিমাণে ভগ্নাংশ থাকে তবে অবিচ্ছিন্ন বিতরণগুলি সম্ভবত ভাল মানায় না, তবে আপনি যদি তা না করেন তবে আলাদা বিতরণ ব্যবহারের খুব বেশি মূল্য নেই। এটি বিরল যে আপনি পয়সন এবং সাধারণ বিতরণগুলি প্রতিযোগী হিসাবে বিবেচনা করবেন।


হ্যাঁ আপনি ঠিক. এখানে আমার কাছে গণনা তথ্য রয়েছে তবে বড় মান রয়েছে। আমার একটানা বিতরণ করা উচিত।
আন্তোনিন

8

আপনি ঠিক বলেছেন, এই ডেটাগুলি সম্ভবত অতিরিক্ত পরিমাণে নেওয়া হতে পারে। কোয়াশিপোইসন একটি প্রতিকার: এটি স্কেল প্যারামিটারের পাশাপাশি এটিও নির্ধারণ করে (যা পোয়েসন মডেলগুলির জন্য ঠিক করা হয়েছে কারণ বৈকল্পিকটিও গড়) এবং এটি আরও ভাল ফিট সরবরাহ করবে। তবে আপনি এখন যা করছেন তা সর্বাধিক সম্ভাবনা নয় এবং নির্দিষ্ট মডেল পরীক্ষা এবং সূচকগুলি ব্যবহার করা যাবে না। ভেনেবলস এবং রিপলে, এস সহ আধুনিক প্রয়োগিত পরিসংখ্যান (বিভাগ 7.5) এ একটি ভাল আলোচনা পাওয়া যাবে ।

একটি বিকল্প হল একটি নেতিবাচক দ্বিপদী মডেল ব্যবহার করা, যেমন glm.nb()প্যাকেজে ফাংশন MASS


1
তবে আমি কি এই ক্ষেত্রে ক্যাসিপোইসন ব্যবহার করতে "বাধ্য"? আমি জিজ্ঞাসা করছি যেহেতু আমার নন-কাসিপোইসন মডেল আরও ভাল (কেবলমাত্র বেসিক পোইসন) এই অর্থে যে আরও ভেরিয়েবলগুলি উল্লেখযোগ্য।
আন্তোনিন

2
যদিও তা বোঝা যায় না? যদি আমি কোনও রিগ্রেশন মডেল ব্যবহার করি যেখানে আমি ধরে নিয়েছি যে ডেটা থেকে অনুমানটি ব্যবহারের পরিবর্তে সিগমা .00001 (অনুমান করা যাক বলুন) তবে জিনিসগুলি আরও তাত্পর্যপূর্ণ হতে চলেছে।
Dason

1
অ্যান্টোনিন: আমি বললাম যে আরও ভেরিয়েবলগুলি উল্লেখযোগ্য তাই এটি জিনিসগুলিকে "আরও ভাল" করে না। এগুলি, ডেসন হিসাবে উল্লেখ করেছে, আপনি যদি ত্রুটির বৈকল্পিকাকে অবমূল্যায়ন করেন তবে সহজেই মিথ্যা ধনাত্মক হতে পারে। আমি অবশ্যই এক্ষেত্রে একটি আধেয় পদ্ধতি বা নেতিবাচক দ্বিপদী ব্যবহার করব, তবে আমি আপনার কাগজটি পর্যালোচনা না করলে আপনাকে কোনও কাজ করতে বাধ্য করা হবে না;)
মোমো

আপনার উত্তরের জন্য অনেক ধন্যবাদ! কোয়াশি-পোইসন এবং নেতিবাচক দ্বিপদী মডেলগুলির তুলনা করার কোনও উপায় কি আপনি জানেন? বেশিরভাগ বইয়ে তারা মডেলগুলি উপস্থাপন করে তবে তাদের মধ্যে কীভাবে চয়ন করা যায় তা ব্যাখ্যা করে না।
আন্তোনিন

1
আউটপুট থেকে, মনে হচ্ছে আপনি 53-17 = 16 পরামিতিগুলি 53 + 1 = 54 ডেটা পয়েন্টে ফিট করছেন; এটা কী ঠিক? যদি তাই হয় এমন কোনও পদ্ধতি যা অ্যাসিম্পোটিক অনুমানের উপর নির্ভর করে যার ব্যবহার সহ glm()এবং glm.nb()খারাপভাবে ক্যালিব্রেটেড অনুমান দিতে দায়বদ্ধ; যথার্থতা বাড়তি হওয়া আশা করা যুক্তিসঙ্গত হবে। আপনি কেন এই রিগ্রেশন করতে চান সে সম্পর্কে আরও জানার জন্য সহায়ক হবে; এটি সম্ভব পদ্ধতিগুলি যা ছোট নমুনা পরিস্থিতিতে আরও ভাল পারফর্ম করে তার পরিবর্তে ব্যবহার করা যেতে পারে।
অতিথি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.