কোন glm পরিবার ব্যবহার করবেন তা কীভাবে সিদ্ধান্ত নেবেন?


17

আমার কাছে মাছের ঘনত্বের ডেটা রয়েছে যা আমি বিভিন্ন সংগ্রহের কৌশলগুলির মধ্যে তুলনা করার চেষ্টা করছি, তথ্যটিতে প্রচুর শূন্য রয়েছে এবং হিস্টোগ্রামটি ঘনত্ব হিসাবে, একটি পোষন বিতরণের জন্য উপযুক্ত মনে হয়, এটি পূর্ণসংখ্যার ডেটা নয়। আমি জিএলএমগুলিতে তুলনামূলকভাবে নতুন এবং কোন বিতরণটি কীভাবে ব্যবহার করতে হবে তা কীভাবে বলতে হবে তবে এই সিদ্ধান্ত নিতে সহায়তা করার মতো কোনও সংস্থান খুঁজে পেতে সম্পূর্ণ ব্যর্থ হয়েছি বলে অনলাইনে বেশ কয়েকদিন ব্যয় করেছি। ডেটার একটি নমুনা হিস্টোগ্রাম নিম্নলিখিতগুলির মতো দেখায়:নমুনা হিস্টোগ্রাম

জিএলএমের জন্য উপযুক্ত পরিবারটি কীভাবে ব্যবহার করবেন সে সম্পর্কে সিদ্ধান্ত নেওয়ার বিষয়ে আমার কোনও ধারণা নেই। কারও কাছে যদি কোনও পরামর্শ থাকে বা আমাকে কোনও সংস্থান দিতে পারে তবে আমার চেক আউট করা উচিত, এটি দুর্দান্ত।


1
"ফিশ ডেনসিটি" আসলে কী? এটি হ্রদের ইউনিট আয়তনের পরিমাণে অনেকগুলি মাছ, উদাহরণস্বরূপ?
গুং - মনিকা পুনরায়

এটি প্রতি ইউনিট অঞ্চলে মাছের সংখ্যা (এই ক্ষেত্রে বর্গ মিটার)। আমরা ভিজ্যুয়াল জরিপ সরঞ্জামগুলি ব্যবহার করেছি, সুতরাং এটি সরঞ্জাম দ্বারা জরিপ করা অঞ্চল দ্বারা বিভক্ত মাছের সংখ্যা দ্বারা গণনা করা হয়। সরঞ্জামগুলির মধ্যে প্রমিতকরণের জন্য আমাদের ঘনত্বটি ব্যবহার করতে হয়েছিল কারণ তারা ক্ষেত্রের খুব ভিন্ন পরিমাণে জরিপ করে, অন্যথায় আমি কেবল গণনা ডেটা ব্যবহার করতে পারি এবং একটি বিষ বিতরণে আটকে থাকতে পারি।
সি ডেনি

7
আমার পরামর্শ - গণনার ডেটাতে ফিরে যান এবং লগ লিঙ্ক সহ একটি মডেলটিতে অফসেট হিসাবে "অঞ্চল" ব্যবহার করুন --- তবে আমি জানি না যে পোইসন খুব ভাল ফিট করবে (যেহেতু এটি অনুমান করা কিছুটা কঠিন) আপনার হিস্টগ্রাম শর্তাধীন বিতরণগুলির চেয়ে কেবল প্রান্তিক বিতরণ দেখিয়েছে যে জিএলএম মডেলিং করবে ... এবং যে কোনও ক্ষেত্রে বেশি ব্যবহারের মতো খুব কম সংখ্যক বিন্দু রয়েছে)। পোইসন যদি ভারী-লেজযুক্ত / স্পাইক-এ-0-ইশ পর্যাপ্ত না হয় তবে একটি নেতিবাচক দ্বিপদী কাজ করতে পারে বা আপনার শূন্য-স্ফীত বা বাধা মডেলগুলির প্রয়োজন হতে পারে
Glen_b -Rininstate Monica

আমি পয়সনকে প্রতিদিন সারাদিন-প্রতিদিন মডেলিং করি এবং গ্লেন_ বি এর মন্তব্যটি মূল উত্তর।
পল

2
একটি সংযোজন - পোয়েসন মডেলিং তাত্ত্বিকভাবে যথাযথভাবে ন্যায়সঙ্গত হয় যখন পর্যবেক্ষণের ইউনিটগুলি (এই ক্ষেত্রে, আমি মনে করি আপনি পৃথক মাছ গণনা করছেন?) পর্যবেক্ষণের ক্ষেত্র জুড়ে স্বাধীনভাবে বালি জাতীয় শস্যের মতো বিতরণ করা হয়। এই অনুমানের অধীনে ঘনত্বের কিছুটা ভিন্নতা থাকতে পারে, তবে একটি মাছের অবস্থান অন্যান্য মাছের অবস্থান সম্পর্কে কিছু বোঝায় না। তবে সতর্কতা অবলম্বন করুন এই অনুমানটি বাস্তবে লঙ্ঘিত হতে পারে কারণ মাছগুলি ক্লাস্টার করে, উদাহরণস্বরূপ স্কুলগুলিতে এবং পরে তাদের অবস্থানগুলি আর স্বাধীন হয় না।
পল

উত্তর:


8

জিএলএম পরিবারগুলিতে একটি লিঙ্ক ফাংশন পাশাপাশি একটি গড়-বৈচিত্র্যের সম্পর্ক রয়েছে। পোইসন জিএলএমগুলির জন্য, লিঙ্ক ফাংশনটি একটি লগ এবং গড়-বৈচিত্রের সম্পর্কটি পরিচয়। বেশিরভাগ পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার আপনাকে প্রদত্ত সতর্কতা সত্ত্বেও, লগ স্কেলে দুটি ভেরিয়েবলের মধ্যে সম্পর্ক লিনিয়ার, এবং গড় অনুসারে বৈচিত্র্য বাড়তে থাকে এমন ধারাবাহিক তথ্যতে এমন একটি সম্পর্কের মডেল করা সম্পূর্ণ যুক্তিসঙ্গত।

এটি, মূলত, কোনও জিএলএম -তে লিঙ্ক এবং বৈকল্পিক ফাংশনটি বেছে নেওয়ার পক্ষে যুক্তি। অবশ্যই, এই প্রক্রিয়াটির পিছনে বেশ কয়েকটি অনুমান রয়েছে। আপনি কোয়াসিলিকিউনিটি (দেখুন ?quasipoisson) বা শক্ত স্ট্যান্ডার্ড ত্রুটিগুলি (প্যাকেজ দেখুন sandwichবা gee) ব্যবহার করে আরও শক্তিশালী মডেল তৈরি করতে পারেন ।

আপনি সঠিকভাবে উল্লেখ করেছেন যে আপনার ডেটাতে অনেকগুলি ঘনত্ব 0 রয়েছে। পয়সন সম্ভাব্যতা মডেলগুলির অধীনে, মাঝে মধ্যে ডেটাতে 0 সেকেন্ড নমুনা দেওয়া উপযুক্ত, সুতরাং অগত্যা যে এই পর্যবেক্ষণগুলি আপনার হারের অনুমানের ক্ষেত্রে পক্ষপাতিত্ব করে।

জিএলএমগুলির পিছনে অনুমানগুলি পরিদর্শন করতে, পিয়ারসনের অবশিষ্টাংশগুলি দেখার জন্য এটি সাধারণত সহায়ক। এগুলি গড় বৈকল্পিক সম্পর্কের জন্য অ্যাকাউন্ট এবং পরিসংখ্যানবিদকে দেখায় যে নির্দিষ্ট পর্যবেক্ষণগুলি, যেমন এই 0 এর দশকগুলি গুরুতরভাবে অনুমান এবং ফলাফলগুলিকে প্রভাবিত করছে।


22

সাধারণীকরণীয় রৈখিক মডেল লিনিয়ার পূর্বাভাসকারী হিসাবে বিবেচনা করা হয়

η=Xβ

যে মাধ্যমে প্রেরণ করা হয় লিংক ফাংশন :g

g(E(Y|X))=η

এটি নির্ভরশীল পরিবর্তনশীল এবং স্বতন্ত্র ভেরিয়েবল এক্স = এক্স 1 , এক্স 2 , , এক্স কে এর মধ্যে সম্পর্কের মডেল করে । আরও স্পষ্টভাবে, এটি ওয়াই প্রদত্ত এক্স এর শর্তসাপেক্ষ প্রত্যাশা মডেল করে ,YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

সুতরাং মডেল হিসাবে সম্ভাব্য শর্তাবলী সংজ্ঞায়িত করা যেতে পারে

Y|Xf(μ,σ2)

কোথায় হ'লঘাতক পরিবারেরসম্ভাব্যতা বন্টন। নোটিশ তাই প্রথম জিনিস যে হয়নাবিতরণের ওয়াই কিন্তু ওয়াই এটা অনুসরণ করেশর্তসাপেক্ষেউপর এক্স । এই বিতরণের পছন্দটি ওয়াই এবং এক্স এর মধ্যকার সম্পর্ক সম্পর্কে আপনার জ্ঞানের (আপনি কী ধরে নিতে পারেন) উপর নির্ভর করে। সুতরাং আপনি যে কোনও জায়গায় বিতরণ সম্পর্কে পড়েন, এর অর্থ শর্তযুক্ত বিতরণ।ffYYXYX

অন্যদিকে, বাস্তবে, আপনি যদি ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করতে আগ্রহী হন তবে আপনি কয়েকটি আলাদা বিতরণ পরীক্ষা করতে আগ্রহী হতে পারেন এবং শেষ পর্যন্ত শিখবেন যে তাদের মধ্যে একটি আপনাকে আরও সঠিক ফলাফল দেয় তবে অন্যরা তা না হলেও তাত্ত্বিক বিবেচনার ক্ষেত্রে সর্বাধিক "উপযুক্ত" (যেমন তাত্ত্বিকভাবে আপনার পোইসন ব্যবহার করা উচিত, তবে অনুশীলনে স্ট্যান্ডার্ড লিনিয়ার রিগ্রেশন আপনার ডেটার জন্য সবচেয়ে ভাল কাজ করে)।


2

এটি কিছুটা বিস্তৃত প্রশ্ন, আপনি কীভাবে মডেলিং করবেন তা জিজ্ঞাসা করছেন, এবং এতে নিবেদিত পুরো বই রয়েছে। উদাহরণস্বরূপ, গণনা ডেটা নিয়ে কাজ করার সময়, নিম্নলিখিতটি বিবেচনা করুন:

কোনও বিতরণ চয়ন করার পাশাপাশি, আপনাকে একটি লিঙ্ক ফাংশন চয়ন করতে হবে। গণনা ডেটা দিয়ে আপনি পোয়েসন বা নেতিবাচক দ্বিপদী বিতরণ এবং লগ লিঙ্ক ফাংশন চেষ্টা করতে পারেন। লগ লিঙ্কটির একটি কারণ এখানে দেওয়া হল: ফিটের সদ্ব্যবহার এবং কোন মডেলটি লিনিয়ার রিগ্রেশন বা পোইসন বেছে নেবেন যদি আপনার প্যাচগুলির খুব আলাদা অঞ্চল থাকে, তবে আপনার অফসেট হিসাবে অঞ্চলটির লগারিদম অন্তর্ভুক্ত করা উচিত, ইউনিট ক্ষেত্রের জন্য প্রতি ইউনিট মডেল গণনা করতে হবে এবং পরম নয় গন্য। গণনা ডেটা রিগ্রেশনটিতে অফসেটের ব্যাখ্যার জন্য, কখন পায়সন রিগ্রেশনটিতে অফসেট ব্যবহার করবেন তা দেখুন ?

EDIT 

এই উত্তরটি মূলত অন্য একটি প্রশ্নে পোস্ট করা হয়েছিল, যা এই প্রশ্নের সাথে একীভূত হয়েছিল। উত্তরটি সাধারণ হওয়ার সময়, এটি কোনও ডেটা সেট এবং সমস্যার সুনির্দিষ্ট মন্তব্য করেছে যা এখন আর প্রশ্নে নেই। মূল প্রশ্নটি নীচের লিঙ্কটিতে পাওয়া যাবে: জিএলএম-এ পরিবার - সঠিকটি কীভাবে চয়ন করবেন?


@ কেজেটিল, আমরা প্রশ্নগুলি নিমজ্জিত করতে পারি না, কেবল ডেভসরা তা করতে পারে (এবং তারা সত্যিই পছন্দ করে না)। যদিও আমি এখনও মূল কিউ অ্যাক্সেস করতে পারি। 1 সম্ভাবনাটি হ'ল আমি লিখিত সামগ্রীটি একটি নতুন প্রশ্নে অনুলিপি করতে পারি (যা আমার দ্বারা রচিত হবে), আপনি এই এটিকে নতুন থ্রেডে অনুলিপি করতে পারেন, এবং তারপরে আমি এই থ্রেডটিকে এর সদৃশ হিসাবে বন্ধ করতে পারি। এটি যদি ক্রেজি ধারণা হয় তবে এটির পক্ষে যদি সমস্যা হয় তবে এটি বলা শক্ত but তবে আমি এটিই করতে পারি। আপনার পছন্দ আছে?
গুং - মনিকা পুনরায়

@ গুং: আপনি এটি করতে পারেন, বা আমি উত্তরটি এখানে এই প্রশ্ন থেকে তথ্য অনুলিপি করতে পারেন। সম্ভবত যে সেরা? (আমি সম্পাদনা করতে পারি যে এটি সম্পাদনা ইতিহাস থেকে মনে হয়)
কেজিল বি হালওয়ারসেন

1
@ কেজেটিলভালভর্সেন সবার আগে, গণ্ডগোলের জন্য দুঃখিত, যেহেতু থ্রেডগুলি প্রায় একই রকম বলে মনে হচ্ছে এটি একত্রিত করার আমার ধারণা ছিল এবং উভয়েরই ভাল উত্তর রয়েছে। আমার প্রাথমিক ধারণাটি ছিল যে থ্রেডগুলি মার্জ করা কোনও ক্ষতি করবে না। হতে পারে আপনি কেবল আপনার দ্বিতীয় অনুচ্ছেদে "উদাহরণস্বরূপ, গণনা সম্পর্কিত ডেটা ..." যুক্ত করার সাথে যুক্ত করতে পারেন? আপনার উত্তরটি সাধারণভাবে উত্তর দেয় "পরিবার কীভাবে চয়ন করবেন?" প্রশ্ন, তাই সম্ভবত এটি সাধারণ থ্রেড এ রাখা মূল্য?
টিম

1
@ টিম আপনি যা বলবেন তেমন আমি সম্পাদনা করব!
কেজেটিল বি হালওয়ারসেন

আসুন চেষ্টা করুন। আপনি যদি আমাকে প্রশ্নটি পুনরায় পোস্ট করতে চান তবে আমাকে আবার পিং করুন। আমি এখন পতাকা বরখাস্ত করতে যাচ্ছি।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.