বড় ডেটা সহ পয়সন রিগ্রেশন: পরিমাপের এককটি পরিবর্তন করা কি ভুল?


17

পোয়েসন বিতরণে ফ্যাক্টরিয়াল হওয়ার কারণে, পর্যবেক্ষণগুলি বড় হলে পোইসন মডেলগুলি (উদাহরণস্বরূপ, সর্বাধিক সম্ভাবনা ব্যবহার করে) অনুমান করা অযৌক্তিক হয়ে ওঠে। সুতরাং, উদাহরণস্বরূপ, যদি আমি একটি নির্দিষ্ট বছরে আত্মহত্যার সংখ্যা ব্যাখ্যা করার জন্য কোনও মডেলটি অনুমান করার চেষ্টা করছি (কেবলমাত্র বার্ষিক তথ্য পাওয়া যায়), এবং বলি, প্রতি বছর হাজার হাজার আত্মহত্যা হয়, তবে শত শত লোকের মধ্যে আত্মহত্যা প্রকাশ করা কি ভুল? , যাতে 2998 হবে 29.98 30 = 30? অন্য কথায়, ডেটা পরিচালনাযোগ্য করে তোলার জন্য পরিমাপের একক পরিবর্তন করা কি ভুল?

উত্তর:


15

আপনি যখন ল্যাম্বদা (এর পরামিতি) এর বড় মানগুলির সাথে একটি পাইসন বিতরণ নিয়ে কাজ করছেন, তখন পইসন বিতরণের জন্য একটি সাধারণ অনুমান ব্যবহার করা সাধারণ।

যেহেতু এই সাইটের উল্লেখ, এটা যখন \ ল্যামডা 20 পায় স্বাভাবিক পড়তা ব্যবহার করতে ঠিক আছে, এবং \ ল্যামডা এমনকি উচ্চ পায় পড়তা উন্নত।

পোইসন বিতরণটি কেবলমাত্র নেতিবাচক-ই-সংখ্যার সমন্বিত রাজ্য স্পেসের উপরে সংজ্ঞায়িত করা হয়েছে, সুতরাং উদ্ধার করা এবং গোল করা আপনার ডেটাতে বিজোড় জিনিসগুলি প্রবর্তন করতে চলেছে।

সাধারণ প্রায় ব্যবহার। বড় পোয়েসনের পরিসংখ্যান খুব সাধারণ।


6

পাইসনের ক্ষেত্রে এটি খারাপ, যেহেতু গণনাগুলি গণনা করা হয় - তাদের ইউনিটটি unityক্য। অন্যদিকে, আপনি যদি আর এর মতো কিছু উন্নত সফ্টওয়্যার ব্যবহার করেন তবে এর পয়েসন হ্যান্ডলিংয়ের ক্রিয়াকলাপগুলি এত বড় সংখ্যক সম্পর্কে সচেতন হবে এবং সেগুলি পরিচালনা করার জন্য কয়েকটি সংখ্যক কৌশল ব্যবহার করবে।

স্পষ্টতই আমি সম্মত হই যে স্বাভাবিক আনুমানিকতা হ'ল আরেকটি ভাল পদ্ধতি।


3

বেশিরভাগ পরিসংখ্যান প্যাকেজগুলিতে সরাসরি ফ্যাক্টরিয়ালটির প্রাকৃতিক লোগারিদম গণনা করার জন্য একটি ফাংশন থাকে (উদাহরণস্বরূপ l এর মধ্যে lfactorial () ফাংশন, স্টাটারে lnfactorial () ফাংশন)। এটি আপনাকে চাইলে লগ-সম্ভাবনার মধ্যে ধ্রুবক শব্দটি অন্তর্ভুক্ত করতে দেয়।


উপরন্তু, n!= Gamma(n+1)জন্য এন> = 0. সুতরাং একটি ফাংশন বলা জন্য চেহারা চেষ্টা Gammaযদি আপনি (যদি আপনি লগ সম্ভাবনা গণক থাকেন অথবা লগ ইন করুন গামা) গৌণিক নিরূপণ করা প্রয়োজন
আন্দ্রে Holzner

3

আমি ভীত যে আপনি এটি করতে পারবেন না। যেমনটি বাল্টিমার্ক বলেছে, বড় ল্যাম্বদার সাথে বিতরণটি আরও স্বাভাবিক আকারের (প্রতিসামগ্রী) হবে এবং এটি স্কেলিংয়ের সাথে এটি আর পোয়েসন বিভ্রান্তি হবে না। আর-তে নিম্নলিখিত কোডটি ব্যবহার করে দেখুন:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

ফলাফল নীচে:

এখানে চিত্র বর্ণনা লিখুন

আপনি দেখতে পারেন যে ডাউনস্ল্যাড পোয়েসন (লাল রেখা) পোষন বিতরণ থেকে সম্পূর্ণ আলাদা different


1

সর্বাধিক সম্ভাবনা ব্যবহার করার সময় আপনি কেবল 'ফ্যাক্টরিয়াল' উপেক্ষা করতে পারেন। এখানে আপনার আত্মহত্যার উদাহরণের যুক্তি দেওয়া হল। দিন:

।: প্রতি বছর আত্মহত্যার প্রত্যাশিত সংখ্যা হোন

k i : বছরে আত্মহত্যার সংখ্যা হোন i।

তারপরে আপনি লগ-সম্ভাবনাটিকে সর্বাধিক করে তুলবেন:

এলএল = ∑ (কে আই লগ (λ) - λ - কে আই !)

উপরের সর্বাধিকীকরণ নিম্নলিখিত i কে হিসাবে সর্বাধিকতর সমান ! একটি ধ্রুবক:

এলএল ' = ∑ (কে আই লগ (λ) - λ)

বিবরণী কেন একটি ইস্যু ব্যাখ্যা করতে পারে? আমি কিছু অনুপস্থিত করছি?


আপনি যা করতে চেষ্টা করছেন সব পর্যবেক্ষণের সেট থেকে প্যারামিটারটি অনুমান করা হলে আপনি কিছু মিস করছেন না। ওপি'র প্রশ্নের মূল ধারণাটিই এটি ছিল অবশ্যই। তবে, তিনি সাধারণত জিজ্ঞাসা করছিলেন (কঠোরভাবে না হলে) "কীভাবে পোয়েসন মডেলগুলি অনুমান করা যায়"। সম্ভবত তিনি একটি নির্দিষ্ট সময়ে পিডিএফের মান জানতে চান wants সেক্ষেত্রে স্বাভাবিক প্রায়। প্যারামিটারটি স্কেলিংয়ের চেয়ে সম্ভবত আরও ভাল হতে চলেছে, এবং পর্যবেক্ষণগুলি 100 দ্বারা বা যা কিছু হোক না কেন, যদি পর্যবেক্ষণগুলি অবাস্তব বিষয়টিকে গণনা করতে যথেষ্ট বড় হয়।
বাল্টিমার্ক

1
@ শ্রীকান্ত, আপনি ঠিক বলেছেন, প্যারামিটারগুলি অনুমান করার জন্য ফ্যাক্টরিয়ালটি কোনও সমস্যা নয়, তবে সাধারণভাবে আপনি কোনও নির্দিষ্ট মডেলের সম্ভাবনার মান চাইবেন এবং এজন্য আপনাকে ফ্যাকটোরিয়ালটি ব্যবহার করতে হবে। এছাড়াও, হাইপোথিসিস পরীক্ষার জন্য (যেমন সম্ভাবনা অনুপাতের পরীক্ষা) আপনার সম্ভাবনার মান প্রয়োজন।
ভিভি

@ বাল্টিমার্ক: হ্যাঁ, আমি সাধারণভাবে জানতে চাই, পোইসন পরিমাপের একক পরিবর্তন করা বৈধ কিনা। আমাকে এই প্রশ্ন জিজ্ঞাসা করা হয়েছিল এবং আমি কী বলতে হবে তা জানতাম না।
ভিভি

@ ভিভি: আপনি কেন_আর সাথে সম্ভাবনা গণনা করতে চান তা আমি নিশ্চিত নই! বেশিরভাগ অ্যাপ্লিকেশনগুলির মধ্যে অন্তর্ভুক্ত (যেমন, সম্ভাবনা অনুপাত পরীক্ষা, বায়সিয়ান অনুমান) ধ্রুবকটি কোনও বিষয় নয়। যাই হোক না কেন, আপনার পরামর্শ অনুসারে আপনি পুনরায় স্কেল করতে পারবেন বলে আমি মনে করি না। যদি আমার অন্যথায় মনে হয় তবে আমি আমার উত্তর আপডেট করব।

@ শ্রীকান্ত, আমি আপনার বক্তব্যটি দেখতে পাচ্ছি, তবে কিছু সফ্টওয়্যার (উদাহরণ হিসাবে উদাহরণস্বরূপ) এটি ডিফল্টরূপে অন্তর্ভুক্ত করে, এবং প্রচুর সংখ্যা এটি পছন্দ করে বা না পছন্দ করে তোলে issue আমি অনুমান করি যে কেন আপনি এটির চারপাশের উপায়ের পরিবর্তে এটি করতে পারেন বা করতে পারবেন না তার ব্যাখ্যা করার পরে আমি আসলেই ছিলাম, তবে আলোচনাটি আকর্ষণীয় এবং শিক্ষণীয় হয়ে উঠেছে :)
ভিভি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.