কীভাবে পয়সন রিগ্রেশনে অতিমাত্রায় মোকাবেলা করতে হবে: অর্ধ-সম্ভাবনা, নেতিবাচক দ্বিপদী জিএলএম, বা বিষয়-স্তরের এলোমেলো প্রভাব?


12

আমি পইসন রেসপন্স ভেরিয়েবলের ওভারডিস্পেরেশন এবং সমস্ত স্থির-প্রতিক্রিয়া শুরুর মডেলটি মোকাবেলায় তিনটি প্রস্তাব পেয়েছি:

  1. একটি কোয়া মডেল ব্যবহার করুন;
  2. নেতিবাচক দ্বিপদী জিএলএম ব্যবহার করুন;
  3. বিষয়-স্তরের এলোমেলো প্রভাব সহ একটি মিশ্র মডেল ব্যবহার করুন।

তবে আসলে কোনটি বেছে নেবে এবং কেন? এগুলির মধ্যে কি প্রকৃত মানদণ্ড রয়েছে?


কোয়াডস মডেল স্কেল / ছড়িয়ে পড়া প্যারামিটারকে উপদ্রব প্যারামিটার হিসাবে বিবেচনা করে এবং আইআরআরগুলির জন্য এসই সরবরাহ করে যা সেই ভিন্নতা দ্বারা প্রসারিত হয় যেখানে নেতিবাচক দ্বিপদী আইআরআরগুলি স্কেল প্যারামিটারের উপর নির্ভর করে। একটি মিশ্র মডেল মডেলগুলি একটি পৃথক প্রভাব: স্বতন্ত্র স্তর বা শর্তসাপেক্ষ প্রভাব (গুলি) যেখানে নেতিবাচক দ্বিপদী এবং কাসিপোইসন মডেলগুলি প্রান্তিক মডেল। সুতরাং তারা একই জিনিস অনুমান করা হয় না।
অ্যাডামো

ঠিক আছে, তাই আসলে কোনটি বেছে নেবে এবং সেই সিদ্ধান্ত নেওয়ার মানদণ্ড কী?
ব্রায়ান

আমি মনে করি আপনি কুইসিপোইসনকে বেছে নেবেন যদি (ডেটা থেকে পৃথক) আপনি জানেন পোয়েসন মডেল আপনার আগ্রহী প্রবণতার অনুমান করে তবে নকশা বা ডেটা বিশ্লেষণ বৈকল্পিক অনুমানের সাথে সঠিকভাবে মেলে না। সম্ভাব্যতা মডেলটি আসলে নেতিবাচক দ্বিপদী হিসাবে বিশ্বাস করার যদি আপনার কাছে উপযুক্ত কারণ থাকে তবে আপনি একটি নেতিবাচক দ্বিপদী মডেল ব্যবহার করবেন এবং প্রবণতার উপর অনুমানের পরিবর্তে আপনাকে আসলে হেটেরোসিসটাস্টিকটির পূর্বাভাস দিতে হবে। শেষ অবধি, আপনি যদি জনসংখ্যার তুলনায় কোনও ব্যক্তির উপর এক্সপোজারের প্রভাব জানতে চান (তবে টক্সিকোলজি দিয়ে কখনই ব্যবহার করবেন না) আপনি একটি মিশ্র মডেল ব্যবহার করেন।
অ্যাডমো

আমি @ অ্যাডামো আর্টের সাথে "মিশ্র মডেল ... জনসংখ্যার চেয়ে ব্যক্তির চেয়ে পৃথক ব্যক্তির উপর একটি এক্সপোজারের প্রভাব" এর সাথে একমত নই । আমার উপলব্ধি হ'ল মিশ্র মডেলগুলি বিষয়-স্তরের প্রভাবগুলিকে মাপ দেয় এবং তারপরে সেগুলি সংহত করে। মূলত, আপনার প্যারামিটার অনুমান থেকে সিউডোরপ্লিকেশন (একই বিষয়ে একাধিক পদক্ষেপ) এর জন্য অ্যাকাউন্টগুলি, জনসংখ্যার (স্বতন্ত্র নয়) পক্ষপাতহীন প্যারামিটার অনুমানগুলিতে পুনরায় ব্যবহার করে। আমি এই কারণে সব সময় মিশ্র মডেল ব্যবহার করি ... তাই আমি আশা করি আমি এই সম্পর্কে ভুল নই!
আরটিবিকার্ড

উত্তর:


12

পইসন রিগ্রেশন কেবল একটি জিএলএম:

লোকেরা প্রায়শই পইসন রিগ্রেশন প্রয়োগের জন্য প্যারাম্যাট্রিক যুক্তির কথা বলে । আসলে, পোইসন রিগ্রেশন কেবল একটি জিএলএম। তার মানে পইসন রিগ্রেশন জন্য সমর্থনযোগ্য হয় কোনো তথ্য (গন্য, রেটিং, পরীক্ষা স্কোর, বাইনারি ঘটনা, ইত্যাদি) ধরণ দুটি অনুমানের পূরণ করা: 1) লগ গড়-ফলাফল ভবিষ্যতবক্তা এবং 2) একটি রৈখিক সমন্বয় ভ্যারিয়েন্স ফলাফল সমান গড় । এই দুটি শর্ত যথাক্রমে গড়-মডেল এবং গড়-বৈকল্পিক সম্পর্ক হিসাবে উল্লেখ করা হয়।

ভবিষ্যদ্বাণীকারীদের জন্য সমন্বয়গুলির একটি জটিল সেট ব্যবহার করে গড়-মডেল অনুমানটি কিছুটা শিথিল করা যায়। এটি দুর্দান্ত কারণ লিঙ্ক ফাংশনটি পরামিতিগুলির ব্যাখ্যাকে প্রভাবিত করে; ব্যাখ্যার সূক্ষ্মতা বৈজ্ঞানিক প্রশ্নের উত্তর দেওয়ার এবং আপনার পরিসংখ্যানগত বিশ্লেষণের গ্রাহকদের সম্পূর্ণভাবে বাদ দেওয়ার মধ্যে পার্থক্য তৈরি করে। অন্য এসই পোস্টে আমি ব্যাখ্যার জন্য লগ-ট্রান্সফর্মগুলির কার্যকারিতা নিয়ে আলোচনা করি।

এটি দেখা যাচ্ছে যে দ্বিতীয় অনুমানের (গড়-বিবর্তন সম্পর্ক) অনুমানের উপর দৃ strong়ভাবে প্রভাব ফেলে। যখন গড়-বৈকল্পিক সম্পর্কটি সত্য হয় না, তখন প্যারামিটারের অনুমানগুলি পক্ষপাতদুষ্ট নয় । যাইহোক, স্ট্যান্ডার্ড ত্রুটিগুলি, আত্মবিশ্বাসের ব্যবধানগুলি, পি-মানগুলি এবং ভবিষ্যদ্বাণীগুলি সমস্তই ভুলভ্রষ্ট। এর অর্থ আপনি টাইপ আই ত্রুটির জন্য নিয়ন্ত্রণ করতে পারবেন না এবং আপনার সাবওটিমাল শক্তি থাকতে পারে।

যদি তারতম্যটি কেবলমাত্র গড়ের সাথে সমানুপাতিক হয় তবে কী তারতম্যটি শিথিল করা যায় ? নেতিবাচক দ্বিপদী রিগ্রেশন এবং কাসিপোইসন রিগ্রেশন এটি করে।

Quasipoisson মডেল

Quasipoisson মডেলগুলি সম্ভাবনা ভিত্তিক নয়। তারা একটি "তত্পরতা" সর্বাধিক করে তোলে যা একটি আনুপাতিক ধ্রুবক পর্যন্ত পইসন সম্ভাবনা। সেই আনুপাতিক ধ্রুবকটি বিচ্ছুরণ ঘটে। ছড়িয়ে পড়া একটি উপদ্রব হিসাবে বিবেচিত হয়প্যারামিটার। সর্বাধিককরণের রুটিনটি উপদ্রব প্যারামিটারের অনুমানের সাথে উঠে আসে, সেই অনুমানটি জনসংখ্যাকে সাধারণীকরণকারী কোনও মানের চেয়ে ডেটাগুলির একটি নিদর্শন মাত্র। বিবর্তনটি কেবল সংকোচনের "এসইএস" বা সংস্থাগুলির পরামিতিগুলিকে "প্রশস্ত" করতে পরিবেশন করে যে বৈকল্পিক গড়ের চেয়ে আনুপাতিকভাবে ছোট বা বড় whether যেহেতু বিচ্ছিন্নতাটিকে উপদ্রব পরামিতি হিসাবে বিবেচনা করা হয়, তাই কোয়াশিপোইসন মডেলগুলি বেশ কয়েকটি শক্তিশালী বৈশিষ্ট্য উপভোগ করতে পারে: তথ্যটি আসলে হেটেরোসেসটাস্টিক হতে পারে (আনুপাতিক গড়-বৈচিত্র্য অনুমানের সাথে মিলিত হয় না) এবং এমনকি নির্ভরতার ছোট উত্সগুলিও প্রদর্শন করে না, এবং গড় মডেলটির প্রয়োজন হয় না need হুবহু সঠিক হতে পারে তবে রিগ্রেশন প্যারামিটারগুলির জন্য 95% সিআই হ'ল অ্যাসেম্পোটোটিক্যালি সঠিক।যদি ডেটা বিশ্লেষণের আপনার লক্ষ্যটি হ'ল রিগ্রেশন প্যারামিটারগুলির একটি সেট এবং ফলাফলের মধ্যে সংযোগ পরিমাপ করা হয় তবে কোয়াশিপাইসন মডেলগুলি সাধারণত যাওয়ার উপায়। এই মডেলগুলির একটি সীমাবদ্ধতা হ'ল তারা ভবিষ্যদ্বাণী অন্তরগুলি উত্পাদন করতে পারে না, পিয়ারসনের অবশিষ্টাংশগুলি গড় মডেলটি কতটা সঠিক তা সম্পর্কে আপনাকে বেশি কিছু বলতে পারে না এবং এআইসি বা বিআইসির মতো তথ্যের মানদণ্ডগুলি এই মডেলগুলিকে অন্য ধরনের মডেলের সাথে কার্যকরভাবে তুলনা করতে পারে না।

নেতিবাচক দ্বিপদী মডেল

নেতিবাচক দ্বিপদী রিগ্রেশনটিকে 2-প্যারামিটার পোইসন রিগ্রেশন হিসাবে বোঝার জন্য এটি সবচেয়ে দরকারী। গড় মডেল পয়সন এবং কাসিপোইসন মডেলগুলির মতো একই যেখানে ফলাফলের লগটি ভবিষ্যদ্বাণীকের একটি রৈখিক সংমিশ্রণ। তদ্ব্যতীত, "স্কেল" পরামিতি একটি গড়-বৈচিত্রের সম্পর্ককে মডেল করে যেখানে ভেরিয়েন্সটি পূর্বের মতো গড়ের সাথে সমানুপাতিক। তবে, কাসিপোইসন মডেলগুলির বিপরীতে, এই ধরণের মডেল হুবহু সম্ভাবনা ভিত্তিক পদ্ধতি। এই ক্ষেত্রে বিচ্ছুরণ একটি প্রকৃত পরামিতি যা জনসংখ্যার সাধারণীকরণের কিছুটা পরিমাণ রয়েছে। এটি কাসিপোইসনের তুলনায় কয়েকটি সুবিধা উপস্থাপন করেছে তবে আমার মতে আরও বেশি (অকেটেবল) অনুমান আরোপ করা হয়েছে। কোয়াশিপাইসন মডেলগুলির বিপরীতে: ডেটা অবশ্যই স্বতন্ত্র হতে হবে, গড় মডেলটি অবশ্যই সঠিক হতে হবে এবং সঠিক অনুমানের জন্য স্কেল প্যারামিটারটি লাগানো মানগুলির পরিসীমা জুড়ে হোমোসেসডাস্টিক হতে হবে। যাইহোক, পিয়ারসনের অবশিষ্টাংশগুলি পর্যবেক্ষণ করে এগুলি কিছুটা মূল্যায়ন করা যেতে পারে, এবং মডেলটি ইতিবাচক ভবিষ্যদ্বাণী এবং ভবিষ্যদ্বাণী ব্যবস্থার জন্ম দেয় এবং তথ্যের মানদণ্ডের সাথে তুলনা করার জন্য এটি উপযুক্ত।

নেতিবাচক দ্বিপদী সম্ভাব্যতা মডেলগুলি পইসন-গামা মিশ্রণ থেকে উত্থিত হয়। এটি হ'ল, অজানা ওঠানামা করা গামা র্যান্ডম ভেরিয়েবলটি পয়েসন রেট প্যারামিটারকে "খাওয়ানো" আছে। যেহেতু এনবি জিএলএম ফিটিং সম্ভাবনা ভিত্তিক, তাই সাধারণত ডেটা উত্পন্ন করার পদ্ধতি সম্পর্কে পূর্বের বিশ্বাসগুলি জানাতে এবং হাতের মডেলের সম্ভাব্য যুক্তির সাথে তাদের সংযুক্ত করতে সাধারণত সহায়ক হয়। উদাহরণস্বরূপ, আমি যদি ২৪ ঘন্টা সহনশীলতা রেসিংয়ের মধ্য দিয়ে অবসর গ্রহণকারী রেসারের সংখ্যা পরীক্ষা করছি তবে আমি বিবেচনা করতে পারি যে পরিবেশের পরিস্থিতিগুলি এমন সমস্ত স্ট্রেসার যা আমি পরিমাপ করি নি এবং এভাবে ডিএনএফ-এর ঝুঁকিতে অবদান রাখছি যেমন আর্দ্রতা বা ঠান্ডা তাপমাত্রা টায়ারে প্রভাবিত করে সারণি এবং এইভাবে একটি স্পিন আউট এবং ধ্বংসের ঝুঁকি।

নির্ভরশীল ডেটার জন্য মডেল: জিএলএমএস বনাম জিইই

পোইসন ডেটার জন্য সাধারণ রৈখিক মিশ্র মডেলগুলি (জিএলএমএম) উপরের পদ্ধতির সাথে তুলনা করে না। জিএলএমএমস একটি পৃথক প্রশ্নের উত্তর দেয় এবং বিভিন্ন ডেটা স্ট্রাকচারে ব্যবহৃত হয়। এখানে ডেটাগুলির মধ্যে নির্ভরতার উত্সগুলি স্পষ্টভাবে মাপা হয়। জিএলএমএমগুলি স্বতন্ত্র স্তরের বৈচিত্র্যের জন্য অ্যাকাউন্টে র্যান্ডম ইন্টারসেপ্ট এবং এলোমেলো slালু ব্যবহার করে। এটি আমাদের অনুমান অনুসারে পরিবর্তন করে। এলোমেলো প্রভাবগুলি ওপরের আলোচিত পরিবর্তনের চেয়ে পরিবর্তে গড় এবং বৈকল্পিক পরিবর্তন করে that

সংস্থার দুটি সম্ভাব্য স্তর রয়েছে যা নির্ভরশীল ডেটাতে পরিমাপ করা যায়: জনসংখ্যা স্তর (প্রান্তিক) এবং স্বতন্ত্র স্তর (শর্তসাপেক্ষ)। জিএলএমএমগুলি স্বতন্ত্র স্তর (শর্তসাপেক্ষ) সমিতিগুলি পরিমাপের দাবি করে: এটি হ'ল পৃথক স্তরের অবদানকারীদের পুরো হোস্টকে দেওয়া পরিণতিতে, ভবিষ্যদ্বাণীকারীদের সংমিশ্রণের তুলনামূলক প্রভাব কী। উদাহরণস্বরূপ, উদাহরণস্বরূপ স্কুলে পড়া বাচ্চাদের ক্ষেত্রে পরীক্ষার প্রস্তুতির পাঠ্যক্রমগুলি খুব কম প্রভাব ফেলতে পারে, তবে অভ্যন্তরীণ শহরের শিশুরা প্রচুর উপকার পেতে পারে। স্বতন্ত্র স্তরের প্রভাবটি এই পরিস্থিতিতে যথেষ্ট পরিমাণে বেশি কারণ সুবিধাভোগী শিশুরা ইতিবাচক এক্সপোজারের ক্ষেত্রে বক্ররেখার চেয়ে অনেক বেশি।

যদি আমরা নির্লিপ্তভাবে নির্ভরযোগ্য ডেটাতে কোসিপোইসন বা নেতিবাচক দ্বিপদী মডেলগুলি প্রয়োগ করি, তবে এনবি মডেলগুলি ভুল হবে এবং কোসিপোইসন মডেলগুলি অক্ষম হবে। জিআইই অবশ্য কোএসিপোইসন মডেলকে GLMM এর মতো স্পষ্টভাবে নির্ভরশীলতা কাঠামোকে মডেল করার জন্য প্রসারিত করে, তবে জিইই একটি প্রান্তিক (জনসংখ্যা স্তর) প্রবণতা পরিমাপ করে এবং সঠিক ওজন, মান ত্রুটি এবং অনুমিতি অর্জন করে।

ডেটা বিশ্লেষণ উদাহরণ:

এই পোস্টটি ইতিমধ্যে অনেক দীর্ঘ :) আপনি আগ্রহী হলে আরও পড়ার রেফারেন্স সহ এই টিউটোরিয়ালে প্রথম দুটি মডেলের একটি চমৎকার চিত্রণ রয়েছে । প্রশ্নে থাকা ডেটাগুলি হর্সশো কাঁকড়ার বাসা বাঁধার অভ্যাসকে জড়িত: স্ত্রীলোকরা তার সাথে জড়িত বাসা এবং পুরুষদের (উপগ্রহ) বসে। তদন্তকারীরা নারীর বৈশিষ্ট্যগুলির একটি ফাংশন হিসাবে একটি মহিলার সাথে সংযুক্ত পুরুষের সংখ্যার পরিমাপ করতে চেয়েছিলেন। আমি আশা করি আমি মিশ্রিত মডেলগুলি কেন আপোনাযোগ্য তা আন্ডারকর্ড করেছি: আপনার যদি নির্ভরশীল ডেটা থাকে তবে নির্ভরশীল ডেটা উত্তর দেওয়ার চেষ্টা করছেন এমন প্রশ্নের জন্য আপনাকে অবশ্যই সঠিক মডেলটি ব্যবহার করতে হবে, কোনও জিএলএম বা জিইই হবে।

তথ্যসূত্র:

[1] আগ্রেস্তি, শ্রেণিবদ্ধ ডেটা বিশ্লেষণ 2 য় সংস্করণ

[২] ডিগল, হেগার্টি, লিয়াং, জেগার, ল্যানজিটুডিনাল ডেটার 2 য় সংস্করণের বিশ্লেষণ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.