জিরো ফুলেছে বিতরণ, তারা আসলে কী?


15

আমি শূন্য বর্ধিত বিতরণগুলি বুঝতে সংগ্রাম করছি am তারা কি? আলোচ্য বিষয়টি কি?

যদি আমার কাছে অনেক শূন্যের সাথে ডেটা থাকে তবে আমি প্রথমে একটি লজিস্টিক রিগ্রেশন ফিট করতে পারতাম শূন্যের সম্ভাব্যতা গণনা করতে, এবং তারপরে আমি সমস্ত শূন্যগুলি মুছে ফেলতে পারি এবং তারপরে আমার পছন্দসই বিতরণ (পোয়েসন উদ্বোধন) ব্যবহার করে নিয়মিত রিগ্রেশন ফিট করতে পারি।

তারপরে কেউ আমাকে বলেছিলেন "আরে, শূন্যের স্ফীত বিতরণটি ব্যবহার করুন", কিন্তু এটি অনুসন্ধান করে দেখে মনে হচ্ছে যে আমি উপরে প্রস্তাবিতের চেয়ে আলাদা কিছু করব না? নিয়মিত প্যারামিটার এবং তারপরে শূন্যতার সম্ভাব্যতা মডেল করার জন্য আরও একটি প্যারামিটার ? এটা ঠিক একই সময়ে উভয় জিনিস না?পিμp


3
আপনি সমস্ত শূন্যগুলি সরিয়ে ফেলছেন কেন? আপনি এটি একসাথে করতে পারেন, আপনি প্রথমে 0 এবং 1 এর সম্ভাব্যতা গণনা করুন এবং এটি আপনার পোয়েসন বিতরণকে ওজন হিসাবে ব্যবহার করুন যা জিরো স্ফীত মডেল (বিতরণ)। এটি পড়ুন, এটি বেশ স্পষ্ট en.wikedia.org/wiki/Zero-inflated_model
গভীর উত্তর

উত্তর:


13

একটি লজিস্টিক রিগ্রেশন ফিট করুন প্রথমে শূন্যগুলির সম্ভাব্যতা গণনা করুন, এবং তারপরে আমি সমস্ত শূন্যগুলি সরিয়ে ফেলতে পারি এবং তারপরে আমার পছন্দসই বিতরণ পছন্দ ব্যবহার করে নিয়মিত রিগ্রেশন ফিট করতে পারি (যেমন পোয়েসন)

তুমি একেবারেই সঠিক. এটি শূন্য-স্ফীত মডেলের ফিট করার এক উপায় (বা আছিম জেলিস মন্তব্যগুলিতে উল্লেখ করেছেন, এটি কঠোরভাবে "বাধা মডেল", যাকে শূন্য-স্ফীত মডেলের একটি বিশেষ ক্ষেত্রে হিসাবে দেখা যেতে পারে)।

আপনার বর্ণিত পদ্ধতি এবং একটি "অল-ইন-ওয়ান" শূন্য-স্ফীত মডেলের মধ্যে পার্থক্য হ'ল ত্রুটি প্রচার। পরিসংখ্যানগুলিতে অন্যান্য সমস্ত দ্বি-পদক্ষেপের পদ্ধতির মতো, পদক্ষেপ 2 এ আপনার পূর্বাভাসের সামগ্রিক অনিশ্চয়তা ভবিষ্যদ্বাণীটি 0 হওয়া উচিত কিনা তা অনিশ্চয়তা বিবেচনায় নেবে না।

কখনও কখনও এটি একটি প্রয়োজনীয় মন্দ হয়। ভাগ্যক্রমে, এই ক্ষেত্রে এটি প্রয়োজন হয় না। আর এ, আপনি ব্যবহার করতে পারেন pscl::hurdle()বা fitdistrplus::fitdist()


আপনি কী এই ব্যাখ্যা করতে পারেন "দ্বিতীয় ধাপে আপনার পূর্বাভাসের সামগ্রিক অনিশ্চয়তা ভবিষ্যদ্বাণীটি 0 হওয়া উচিত কিনা তা অনিশ্চয়তা বিবেচনায় নেবে না"? আপনি যখন জিপ পোইসন করেন আপনি প্রথম অংশের সম্ভাবনাটিকে পয়েসন মডেলের সম্ভাবনা ফাংশনটির সাথে একাধিক করে দেবেন, অতএব পদক্ষেপ 2 0 বা 1 এর অনিশ্চয়তা বিবেচনায় নেবে
ডিপ নর্থ

1
@ প্রদীপ নর্থ যদি "0 বা 1 এর অনিশ্চয়তা" দ্বারা আপনি মতো কিছু বোঝায় তবে সেই বিবৃতিটি নিজেই একটি অনুমান। অনুমান হওয়ার কারণে এটির চারপাশে কিছুটা অনিশ্চয়তা রয়েছে। কলুষিত মানগুলির পরিসীমা কত? আমরা কতটা আত্মবিশ্বাসী যে সঠিক? এটি অনিশ্চয়তা যা সাধারণ দ্বি-পদক্ষেপ পদ্ধতিতে প্রচার করে না। 0.51P(Y=1|X=x)=0.510.51
ছায়াছবির

3
@ এসএসডেকট্রোল সাধারণত এটিকে শূন্য-স্ফীত মডেল বলা হয় না তবে বাধা মডেল (যেমন, pscl::hurdle()) বলা হয়। এবং উপযুক্ত ফিট অর্জনের জন্য শূন্য ছাড়াই ডেটার জন্য নিযুক্ত বিতরণটি শূন্য-কাটা উচিত (বা কোনও স্থানে কোনও শূন্যের দিকে না যাওয়া)। আরও তথ্যের জন্য আমার উত্তর দেখুন।
আছিম জেলিলেস

9

আপনার বর্ণিত মূল ধারণাটি একটি বৈধ পন্থা এবং এটিকে প্রায়শই শূন্য-স্ফীত মডেলের পরিবর্তে বাধা মডেল (বা দুই অংশের মডেল) বলা হয় ।

তবে, জিরো অপসারণের জন্য অ-শূন্য-ডেটা অ্যাকাউন্টগুলির মডেলটি গুরুত্বপূর্ণ। আপনি যদি জিরোস ছাড়াই ডেটাতে পোইসন মডেলটি ফিট করেন তবে এটি অবশ্যই একটি দুর্বল ফিট তৈরি করবে কারণ পয়েসন বিতরণ সর্বদা শূন্যের জন্য ইতিবাচক সম্ভাবনা থাকে। প্রাকৃতিক বিকল্পটি হ'ল একটি শূন্য-কাটা পোয়েসন বিতরণ ব্যবহার করা যা গণনা সম্পর্কিত ডেটাগুলির জন্য বাধা বিপত্তির ক্লাসিক পদ্ধতি।

শূন্য-স্ফীত মডেল এবং বাধা মডেলগুলির মধ্যে প্রধান পার্থক্যটি হ'ল যা সম্ভাবনার প্রতিরোধের বাইনারি অংশে মডেল করা হয়। বাধা মডেলের ক্ষেত্রে এটি শূন্য বনাম শূন্যের সম্ভাব্যতা। শূন্য-স্ফীত মডেলগুলিতে এটি অতিরিক্ত শূন্য হওয়ার সম্ভাবনা, অর্থাত্ শূন্যের সম্ভাবনা যা আন-স্ফীত বিস্তারের কারণে হয় না (যেমন, পোইসন)।

আর-এ গণনা সম্পর্কিত তথ্যের জন্য বাধা এবং শূন্য-মুদ্রাস্ফীতি উভয়ই মডেলের আলোচনার জন্য, জেএসএসে প্রকাশিত আমাদের পাণ্ডুলিপিটি দেখুন এবং psclপ্যাকেজের একটি ভিনগেট হিসাবে প্রেরণ করুন : http://dx.doi.org/10.18637/jss.v027.i08


7

Ssdecontrol যা বলেছে তা খুব সঠিক। তবে আমি আলোচনায় কয়েক সেন্ট যুক্ত করতে চাই।

আমি কেবল ইউটিউবে রিচার্ড ম্যাকএলারিথের গণনা ডেটার জন্য জিরো ইনফ্ল্যাটেড মডেলের বক্তৃতাটি দেখেছি ।

খাঁটি পোইসন মডেলটির হার ব্যাখ্যা করছে এমন ভেরিয়েবলগুলির জন্য নিয়ন্ত্রণ করার সময় পি অনুমান করা অর্থপূর্ণ হয়, বিশেষ করে যদি আপনি বিবেচনা করেন যে পোয়েসন বিতরণ থেকে কোনও পর্যবেক্ষণ শূন্যের সুযোগ 100% নয়।

একটি বহুতল মডেল হিসাবে জিরো স্ফীত বিতরণ

মডেলের প্যারামিটারগুলি বিবেচনা করার সময় এটিও অর্থবহ হয়, যেহেতু আপনি অনুমানের জন্য দুটি ভেরিয়েবল, পি এবং পোইসন মডেলের হার এবং দুটি সমীকরণ নিয়ে শেষ করেন, যখন গণনাটি শূন্য হয় এবং কেস যখন গণনা থেকে পৃথক হয় শূন্য।

চিত্র উত্স: স্ট্যাটিস্টিকাল রিথিংকিং - রি এবং রিচার্ড ম্যাকএলারিথের স্ট্যান ইন উদাহরণ সহ একটি বয়েসিয়ান কোর্স

সম্পাদনা : টাইপো


শেখার উপকরণগুলির উল্লেখগুলি প্রশংসা করা হয় ... তবে এটি কীভাবে প্রশ্নের উত্তর দেয়? এটিকে উত্তর হিসাবে পোস্ট করা মন্তব্যের মতো মনে হচ্ছে ...
আরটিবিকার্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.