গণনার ডেটা সহ কোন রিগ্রেশন মডেলটি ব্যবহার করা সবচেয়ে উপযুক্ত?


10

আমি পরিসংখ্যানের মধ্যে কিছুটা নেওয়ার চেষ্টা করছি তবে আমি কিছুতেই আটকে আছি। আমার তথ্য নিম্নরূপ:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

তথ্যের উপর ভিত্তি করে যে কোনও বছরের জন্য জিনের সংখ্যার পূর্বাভাস দিতে সক্ষম হয়ে আমি এখন একটি রিগ্রেশন মডেল তৈরি করতে চাই। আমি এখন অবধি লিনিয়ার রিগ্রেশন দিয়ে এটি করেছি, তবে আমি কিছু রিডিং করেছি এবং এ জাতীয় ডেটার জন্য এটি সেরা পছন্দ বলে মনে হয় না। আমি পড়েছি যে পায়সন রিগ্রেশন কার্যকর হতে পারে তবে আমি কী ব্যবহার করব তা সম্পর্কে নিশ্চিত নই। সুতরাং আমার প্রশ্নটি হ'ল:

এই জাতীয় ডেটাগুলির জন্য কি কোনও সাধারণ রিগ্রেশন মডেল রয়েছে? যদি না হয় তবে কোন পদ্ধতিটি সবচেয়ে উপযুক্ত (আমি ডেটা সম্পর্কে সন্ধান করতে হবে তার পরিপ্রেক্ষিতে) কী পদ্ধতি ব্যবহার করা উচিত তা জানতে আমার কী করতে হবে?


আমার উত্তর এখানে: stats.stackexchange.com/questions/142338/… খুব প্রাসঙ্গিক।
কেজেটিল বি হলওয়ার্সন

2
এটি কি টাইম সিরিজের ডেটা সম্পর্কে?
মাইকেল এম

উত্তর:


22

না, কোনও সাধারণ গণনা ডেটা রিগ্রেশন মডেল নেই।

(ঠিক যেমন অবিচ্ছিন্ন তথ্যের জন্য কোনও সাধারণ রিগ্রেশন মডেল নেই normal সাধারণত বিতরণ করা হোমোসেকডেস্টিক শব্দের সাথে একটি লিনিয়ার মডেল সর্বাধিক সাধারণভাবে ধরে নেওয়া হয় এবং সাধারণ ন্যূনতম স্কোয়ারগুলি ব্যবহার করে লাগানো হয় However তবে, গামা রিগ্রেশন বা এক্সফোনেনশিয়াল রিগ্রেশন প্রায়শই বিভিন্ন ত্রুটি বিতরণ অনুমানের সাথে মোকাবিলা করতে ব্যবহৃত হয়) , বা শর্তসাপেক্ষ হেটেরোস্কেস্টাস্টিটি মডেলগুলি যেমন টাইম সিরিজের প্রসঙ্গে আরআরচ বা জিআরচির মতো, হেটেরোস্কেস্টেস্টিক গোলমাল মোকাবেলা করার জন্য))

সাধারণ মডেলগুলির মধ্যে যেমন আপনি লেখেন বা নেতিবাচক বাইনোমিয়াল রিগ্রেশন অন্তর্ভুক্ত। এই মডেলগুলি সমস্ত ধরণের সফ্টওয়্যার, টিউটোরিয়াল বা পাঠ্যপুস্তক সন্ধানের জন্য যথেষ্ট বিস্তৃত। আমি বিশেষত হিল্বের নেতিবাচক দ্বিপদী রিগ্রেশন পছন্দ করিএই আগের প্রশ্নটি বিভিন্ন গণনা ডেটা মডেলগুলির মধ্যে কীভাবে চয়ন করবেন তা আলোচনা করে।

আপনার ডেটাতে যদি "অনেকগুলি" জিরো থাকে এবং বিশেষত যদি আপনি সন্দেহ করেন যে জিরোগুলি নন-জিরো (বা কিছু জিরো এক ডিজিপি থেকে এসেছে এবং অন্যান্য জিরো এবং নন-জিরো) আসে তার চেয়ে আলাদা ডেটা উত্পন্ন প্রক্রিয়া দ্বারা চালিত হতে পারে suspect ভিন্ন ডিজিপি থেকে), মডেলগুলি কার্যকর হতে পারে। সর্বাধিক সাধারণ হ'ল শূন্য-স্ফীত পোইসন (জিপ) রিগ্রেশন।

আপনি "রিগ্রেশন" এবং "কাউন্ট-ডেটা" উভয় ট্যাগ করে আমাদের আগের প্রশ্নগুলির মধ্য দিয়েও স্কিম করতে পারেন ।


সম্পাদনা: @ মিশেলএম একটি ভাল পয়েন্ট উত্থাপন করেছে। এই করে গণনা ডাটার সময় সিরিজ মত চেহারা। (এবং 1992 এবং 1994 এর অনুপস্থিত তথ্যগুলি আমাকে পরামর্শ দেয় যে এই বছরগুলিতে প্রত্যেকের মধ্যে একটি শূন্য হওয়া উচিত। যদি তা হয় তবে এটি অন্তর্ভুক্ত করুন Z শূন্য একটি বৈধ সংখ্যা, এবং এটি তথ্য বহন করে)) এর আলোকে, আমি "সময়-সিরিজ" এবং "গণনা-ডেটা" উভয়ই আমাদের পূর্ববর্তী প্রশ্নগুলি অনুসন্ধান করার পরামর্শ দেয় ।


4
ভাল, তবে সাধারণ স্বল্প স্কোয়ারগুলি একটি অনুমানের পদ্ধতি, কোনও মডেল নয়। আপনি এটি জানেন, তবে এটি একটি সাধারণ বিভ্রান্তি, সুতরাং আমাদের এটিকে প্ররোচিত করার মতো লেখা উচিত নয়।
নিক কক্স

@ নিককক্স: ভালো কথা আমি আমার পোস্ট সম্পাদনা করেছি।
স্টিফান কোলাসা

11

"ডিফল্ট", সর্বাধিক ব্যবহৃত এবং বর্ণিত, গণনা তথ্যগুলির জন্য পছন্দগুলির বিতরণ হ'ল পোইসন বিতরণ । প্রায়শই এটির প্রথম ব্যবহারিক ব্যবহারের উদাহরণ ব্যবহার করে চিত্রিত করা হয়:

১৮ distribution৮ সালে লাডিসিয়াস বোর্টকিউইজ এই বিতরণের একটি ব্যবহারিক প্রয়োগ করেছিলেন, যখন ঘোড়ায় কিক দ্বারা দুর্ঘটনাক্রমে নিহত প্রুশিয়ার সেনাবাহিনীর সংখ্যা তদন্ত করার দায়িত্ব তাকে দেওয়া হয়েছিল; এই পরীক্ষাটি নির্ভরযোগ্যতা প্রকৌশল ক্ষেত্রে পয়সন বিতরণ প্রবর্তন করেছিল।

λλ

(ওয়াই|এক্স,β)=λ=মেপুঃ(β0+ +β1এক্স1+ ++ +βএক্স)

λ

রিয়েল-লাইফ ডেটার জন্য পোইসন বিতরণ ব্যবহার করার ক্ষেত্রে সমস্যাটি হ'ল এটি ভেরিয়েন্সের সমান বলে ধরে নিচ্ছে। এই অনুমানের লঙ্ঘনকে ওভারডিস্পেরেশন বলা হয় । এই জাতীয় ক্ষেত্রে আপনি সর্বদা অর্ধ-পোইসন মডেল, পয়েসনবিহীন লগ-লিনিয়ার মডেল (বড় অঙ্কের জন্য পোইসনকে সাধারণ বন্টন দ্বারা সন্নিকট করা যেতে পারে), নেতিবাচক দ্বিপদী রিগ্রেশন (পোইসনের সাথে ঘনিষ্ঠভাবে সম্পর্কিত; বার্ক এবং ম্যাকডোনাল্ড, ২০০৮ দেখুন), বা ব্যবহার করতে পারেন অন্যান্য মডেল, যেমন স্টিফান কোলাসা বর্ণনা করেছেন ।

পোইসন রিগ্রেশন সম্পর্কে কিছু বন্ধুত্বপূর্ণ প্রবর্তনের জন্য আপনি লাভারি (২০১০), বা কক্স, ওয়েস্ট এবং আইকেন (২০০৯) দ্বারা কাগজপত্রও পরীক্ষা করতে পারেন।


লাভেরি, আর। (2010) একটি অ্যানিমেটেড গাইড: পয়সন রিগ্রেশনটির একটি ভূমিকা। NESUG কাগজ, sa04।

কক্স, এস, ওয়েস্ট, এসজি, এবং আইকেন, এলএস (২০০৯)। গণনা সম্পর্কিত ডেটা বিশ্লেষণ: পইসন রিগ্রেশন এবং এর বিকল্পগুলির একটি নম্র ভূমিকা। ব্যক্তিত্ব মূল্যায়ন জার্নাল, 91 (2), 121-136।

বার্ক, আর।, এবং ম্যাকডোনাল্ড, জেএম (২০০৮)। অত্যধিক বিভাজন এবং পোইসন রিগ্রেশন। কোয়ান্টেটিভ ক্রিমিনোলজির জার্নাল, 24 (3), 269-284।


2
আপনি পোইসন রিগ্রেশন ব্যবহার করে কোনও পইসন বিতরণ ফিটিংয়ের সাথে জড়িত। পোইসন রিগ্রেশনের এটির জন্য নিখুঁত প্রয়োজন নয় যে প্রতিক্রিয়াটির একটি পোইসন বিতরণ রয়েছে। পয়সন রিগ্রেশন পরিমাপযোগ্য ভেরিয়েবলগুলি সহ বিভিন্ন ধরণের ইতিবাচক প্রতিক্রিয়াগুলির জন্য ভাল কাজ করে। অনুমানের জন্য স্ট্যান্ডার্ড ত্রুটিগুলি সম্পর্কে সতর্ক হওয়া ভাল ধারণা তবে এটি ট্র্যাকটেবল। উদাহরণস্বরূপ দেখুন blog.stata.com/2011/08/22/…
নিক কক্স

@ নিককক্স ঠিক আছে, তবে প্রশ্নটি গণনা সম্পর্কিত ডেটা সম্পর্কে কঠোরভাবে ছিল, সুতরাং পয়সন রিগ্রেশন সম্পর্কিত অন্যান্য ব্যবহার সম্পর্কে বিশদে যাওয়ার প্রয়োজন সম্ভবত নেই।
টিম

3
বিশদে যাওয়ার দরকার নেই, সম্মত; তবে পয়েসন রিগ্রেশনকে সামান্য চাপ দেওয়ার প্রতিটি কারণ। এর ইউটিলিটি আশ্চর্যজনকভাবে খুব কম পরিচিত; এটি অন্ততপক্ষে আরও অনেক মধ্যবর্তী পাঠ্যে থাকা প্রাপ্য। এছাড়াও, এবং আরও গুরুত্বপূর্ণ, আমি একবারেও একমত হই না যে একবারে ভেরিয়েন্সটি অন্য মডেলগুলি ব্যবহার করা উচিত তার অর্থের সমান নয়; এটি দুটি সম্পূর্ণ ভিন্ন সমস্যা গুলিয়ে দেয়।
নিক কক্স

তদুপরি, পোয়েসন রিগ্রেশন পরিমাপযোগ্য ভেরিয়েবলগুলির সাথে ব্যবহার করা যেতে পারে তা প্রাসঙ্গিক, যেমন ক্ষেত্রে যেমন গড়ের সমতা হয় তা এমনকি অর্থবোধক নয় কারণ তাদের বিভিন্ন মাত্রা রয়েছে। এই জাতীয় কেসগুলি এইভাবেই আন্ডারলাইন করে যে প্রয়োজনীয়তা কোনও জিনিস নয়।
নিক কক্স

3
মেপুঃ(এক্স)

0

পাইসন বা নেতিবাচক দ্বিপদী হ'ল গণনা ডেটার জন্য দুটি বহুল ব্যবহৃত মডেল। আমি নেতিবাচক দ্বিপদী বেছে নেব কারণ এটির বৈকল্পিকতার জন্য আরও ভাল ধারনা রয়েছে।


3
"ভাল" বলতে কী বোঝ?
টিম

2
যেহেতু এটি দাঁড়িয়েছে এটি উত্তরের চেয়ে কমেন্টের চেয়ে বেশি। আপনি কি মনে করেন যে আপনি এটিতে প্রসারিত করতে পারেন? টিমের মন্তব্য সম্পর্কে আপনার অবশ্যই চিন্তা করা উচিত - "ভাল" শব্দটি খুব অস্পষ্ট
সিলভারফিশ

নেতিবাচক দ্বিপদী (এনবি) মডেলগুলি ক্লাস্টারিংয়ের কারণে এটি ধরে নিয়ে ওভারডিস্প্রেসড (ওডি) গণনার ডেটা নিয়ে কাজ করে। এরপরে এটি একটি পয়েসন বিতরণ করে 'এর মধ্যে' এবং গামা বিতরিত 'কাঠামোর মধ্যে' বিতরণ করে একটি এলোমেলো ইন্টারসেপ্ট মডেল ব্যবহার করে। কোনটি ভাল এটি আপনার ওডির জন্য অনুমানের উপর নির্ভর করে। যদি আপনি ধরে নেন ওডি ডিগ্রি ক্লাস্টারের আকারের সাথে পরিবর্তিত হয়, এনবি সাহায্য করতে পারে। যদি আপনি ধরে নেন যে ওডি ক্লাস্টারের আকারের সাথে সমানুপাতিক, তবে অর্ধ-পোয়েসনের এই ধারণা রয়েছে। ওডি কেবল গাউসিয়ান শব্দ হলে এনবি অনুমান পক্ষপাতমূলক হবে will পইসন কম পক্ষপাতমূলক হবে, তবে ওডি সহ স্ট্যান্ডার্ড ত্রুটিগুলি খুব ছোট হতে পারে।
ময়নার্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.