কেন পয়সন রিগ্রেশন গণনা ডেটা জন্য ব্যবহার করা হয়?

33

আমি বুঝতে পারি যে ভোটদানের মতো নির্দিষ্ট ডেটাসেটের জন্য এটি আরও ভাল সম্পাদন করে। পোইসন রিগ্রেশন সাধারণ লিনিয়ার রিগ্রেশন বা লজিস্টিক রিগ্রেশন কেন ব্যবহার করা হয়? এর গাণিতিক প্রেরণা কী?

count-data poisson-regression

— zaxtax
সূত্র

এই পোস্টে আমার উত্তরটি অন্য দৃষ্টিকোণের জন্য দেখুন: stats.stackexchange.com/questions/142338/…

— kjetil b halvorsen

51

পয়সন বিতরণ করা ডেটা আন্তঃসংখ্যক মানযুক্ত , যা গণনা ডেটার জন্য অর্থ দেয়। সাধারণ ন্যূনতম স্কোয়্যারস (ওএলএস, যাকে আপনি "লিনিয়ার রিগ্রেশন" বলছেন) ধরে নেওয়া হয় যে সত্যিকারের মানগুলি সাধারণত প্রত্যাশিত মানের চারপাশে বিতরণ করা হয় এবং যেকোন আসল মান, ধনাত্মক বা নেতিবাচক, পূর্ণসংখ্যা বা ভগ্নাংশ গ্রহণ করতে পারে। পরিশেষে, লজিস্টিক রিগ্রেশন কেবলমাত্র সেই ডেটার জন্য কাজ করে যা 0-1-এর মূল্যবান (সত্য-মিথ্যা-মূল্যবান), যেমন "একটি রোগ আছে" বনাম "রোগ নেই"। সুতরাং, পোইসন বিতরণ গণনা ডেটার জন্য সর্বাধিক জ্ঞান করে।

এটি বলেছিল যে প্রায় 30 বা ততোধিক গড়ের ডেটা যুক্ত করার জন্য একটি সাধারণ বিতরণ একটি পয়সন একের কাছে প্রায়শই বরং খুব ভাল অনুমান হয়। এবং একটি রিগ্রেশন ফ্রেমওয়ার্কে, যেখানে আপনার পূর্বাভাসকারীগণ গণনাটিকে প্রভাবিত করছে, একটি ওএলএস এর সাধারণ বিতরণ সহকারে ফিট করা সহজতর হতে পারে এবং আসলে আরও সাধারণ হতে পারে, যেহেতু পোইসন বিতরণ এবং রিগ্রেশন ধরে নিচ্ছে যে গড় এবং ভিন্নতা সমান, তবে ওএলএস অসম উপায় এবং বৈকল্পিকতাগুলি মোকাবেলা করতে পারে - বিভিন্ন মাধ্যম এবং বৈকল্পিক সহ একটি গণনা ডেটা মডেলের জন্য, উদাহরণস্বরূপ , কেউ একটি নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করতে পারে ।

— এস। কোলাসা - মনিকা পুনরায় স্থাপন করুন
সূত্র

17

নোট যে শুধু OLS ব্যবহার ঝুলানো স্বাভাবিক প্রয়োজন হয় না - এটা যখন আপনি প্যারামিটার আপনি স্বাভাবিক বন্টন asssumption প্রয়োজন অনুমান না

— Dason

1

@ ডেসন: আমি সংশোধন করেছি।

— এস। কোলাসা - মনিকা

3

আপনি যদি হুবার / হোয়াইট / স্যান্ডউইচ ভেরিয়েন্সের অনুমানকারী ব্যবহার করেন তবে আপনি গড়-বৈকল্পিক অনুমানটি শিথিল করতে পারেন

— দিমিত্রি ভি মাস্টারভ

@ ডেসন যদিও এটি কঠোরভাবে প্রয়োজন হয় না, আপনি প্রায় সবসময় কী ফিট করছেন তার জন্য মডেলটির সঠিক ফর্ম ব্যবহার করা আরও ভাল অনুমান দেয় এবং আপনি এটিকে অবশিষ্টাংশের প্লটে দেখতে পারেন।

— জো

24

মূলত, কারণ লিনিয়ার এবং লজিস্টিক রিগ্রেশন গণনা ফলাফলগুলি দেখতে কেমন তা সম্পর্কে ভুল ধরণের অনুমান তৈরি করে। আপনার মডেলটিকে খুব বোকা রোবট হিসাবে কল্পনা করুন যা আপনার আদেশগুলি নিরলসভাবে অনুসরণ করবে, এই আদেশগুলি যতই সংবেদনশীল না কেন; এটিতে আপনি যা বলছেন তা মূল্যায়নের দক্ষতার পুরোপুরি অভাব রয়েছে। যদি আপনি আপনার রোবটকে বলেন যে ভোটের মতো কিছু নেতিবাচক অনন্ত থেকে অনন্তে অব্যাহতভাবে বিতরণ করা হয়, তবে এটি বিশ্বাস করেন যে ভোটগুলি কেমন and

বিপরীতে, পোইসন বিতরণটি পৃথক এবং ধনাত্মক (বা শূন্য ... শূন্য হিসাবে গণনা করা হয়, হ্যাঁ?)। খুব কমপক্ষে, এটি আপনার রোবটকে এমন উত্তর দিতে বাধ্য করবে যা বাস্তবে বাস্তব জীবনে ঘটতে পারে। এগুলি ভাল উত্তর হতে পারে বা নাও হতে পারে তবে কমপক্ষে "নির্বাচিত ভোটের সংখ্যার" সম্ভাব্য সেট থেকে তাদের আঁকানো হবে।

অবশ্যই, পোইসনের নিজস্ব সমস্যা রয়েছে: এটি ধরে নিয়েছে যে ভোট গণনা পরিবর্তনের মাধ্যমটিও তার প্রকরণের মতই হবে। আমি জানি না যে আমি কখনই অসমর্থিত উদাহরণটি দেখেছি যেখানে এটি সত্য ছিল। ভাগ্যক্রমে, উজ্জ্বল ব্যক্তিরা অন্যান্য বিতরণগুলি নিয়ে এসেছেন যা ইতিবাচক এবং বিযুক্ত, তবে পরামিতিগুলি যুক্ত করে, এরর পরিবর্তিত হতে পারে (যেমন, নেতিবাচক দ্বিপদী রিগ্রেশন)।

— ম্যাট পার্কার
সূত্র

5

$T = 1$ $\lambda$ $T = t$ $\lambda.t$ $\lambda.t$

পি (এন = এন) = \frac{(λ । টি)^{এন} ই^{- λ । টি}}{এন!}

$p(N=n) = \frac{(\lambda.t)^{n}e^{-\lambda.t}}{n!}$

এটি এবং সর্বাধিক সম্ভাবনার পদ্ধতি এবং সাধারণীকরণিত লিনিয়ার মডেলগুলি (বা অন্য কোনও পদ্ধতি) এর মাধ্যমে আপনি পোয়েসন রিগ্রেশন এ পৌঁছান ।

সহজ কথায় পোইসন রিগ্রেশন এমন মডেল যা অন্তর্নিহিত এলোমেলো প্রক্রিয়াটির অনুমানগুলিকে ফিট করে যে মডেলটির অন্যান্য ভেরিয়েবলগুলি দ্বারা নির্ধারিত হারে (অর্থাত্ ইউনিট প্রতি সময় সংখ্যা) সংখ্যক ইভেন্ট তৈরি করে।

— Thylacoleo
সূত্র

3

অন্যরা মূলত আমি যাচ্ছি একই জিনিসটি বলেছে তবে আমি ভেবেছিলাম যে আমি এটিতে আমার যোগ করব। এটি আপনি ঠিক কী করছেন তার উপর নির্ভর করে তবে আমরা অনেক সময় সমস্যা / ডেটা হাতে নিয়ে ভাবতে চাই। এটি কেবলমাত্র একটি মডেল তৈরির তুলনায় কিছুটা ভিন্ন পদ্ধতির যা বেশ ভালভাবে পূর্বাভাস দেয়। আমরা যদি এটি যা চলছে তা ধারণার চেষ্টা করতে চাইলে একটি অ-নেতিবাচক বিতরণ ব্যবহার করে মডেল গণনা ডেটা বুদ্ধিমান হয়ে যায় যা কেবলমাত্র পূর্ণসংখ্যার মানগুলিকে ভর করে। আমাদের অনেকগুলি ফলাফল রয়েছে যা নির্দিষ্টভাবে শর্ত অনুসারে ডেটা আসলেই থাকে তা বলে ফোটেএকটি poisson হিসাবে বিতরণ। সুতরাং যদি আমাদের লক্ষ্য সমস্যাটি ধারণা করা হয় তবে প্রতিক্রিয়াশীল ভেরিয়েবল হিসাবে একটি পোয়েসন ব্যবহার করা সত্যই বোধগম্য। অন্যরা এটির একটি ভাল ধারণা হওয়ার অন্যান্য কারণগুলি উল্লেখ করেছেন তবে আপনি যদি সত্যিই সমস্যাটি ধারণার চেষ্টা করছেন এবং সত্যিই বুঝতে পারেন যে আপনি যে ডেটা দেখেন সেটি কীভাবে তৈরি করা যায় তবে পোয়েসন রিগ্রেশন ব্যবহার করে কিছু পরিস্থিতিতে প্রচুর পরিমাণে জ্ঞান পাওয়া যায়।

— Dason
সূত্র

2

আমার বোঝাপড়াটি মূলত কারণ গণনাগুলি সর্বদা ইতিবাচক এবং বিযুক্ত থাকে, পয়সন একটি প্যারামিটার দিয়ে এই জাতীয় ডেটা সংক্ষিপ্ত করতে পারে। মূল ধরাটি হ'ল বৈকল্পিক গড়ের সমান।