পইসন রিগ্রেশন কেবল একটি জিএলএম:
লোকেরা প্রায়শই পইসন রিগ্রেশন প্রয়োগের জন্য প্যারাম্যাট্রিক যুক্তির কথা বলে । আসলে, পোইসন রিগ্রেশন কেবল একটি জিএলএম। তার মানে পইসন রিগ্রেশন জন্য সমর্থনযোগ্য হয় কোনো তথ্য (গন্য, রেটিং, পরীক্ষা স্কোর, বাইনারি ঘটনা, ইত্যাদি) ধরণ দুটি অনুমানের পূরণ করা: 1) লগ গড়-ফলাফল ভবিষ্যতবক্তা এবং 2) একটি রৈখিক সমন্বয় ভ্যারিয়েন্স ফলাফল সমান গড় । এই দুটি শর্ত যথাক্রমে গড়-মডেল এবং গড়-বৈকল্পিক সম্পর্ক হিসাবে উল্লেখ করা হয়।
ভবিষ্যদ্বাণীকারীদের জন্য সমন্বয়গুলির একটি জটিল সেট ব্যবহার করে গড়-মডেল অনুমানটি কিছুটা শিথিল করা যায়। এটি দুর্দান্ত কারণ লিঙ্ক ফাংশনটি পরামিতিগুলির ব্যাখ্যাকে প্রভাবিত করে; ব্যাখ্যার সূক্ষ্মতা বৈজ্ঞানিক প্রশ্নের উত্তর দেওয়ার এবং আপনার পরিসংখ্যানগত বিশ্লেষণের গ্রাহকদের সম্পূর্ণভাবে বাদ দেওয়ার মধ্যে পার্থক্য তৈরি করে। অন্য এসই পোস্টে আমি ব্যাখ্যার জন্য লগ-ট্রান্সফর্মগুলির কার্যকারিতা নিয়ে আলোচনা করি।
এটি দেখা যাচ্ছে যে দ্বিতীয় অনুমানের (গড়-বিবর্তন সম্পর্ক) অনুমানের উপর দৃ strong়ভাবে প্রভাব ফেলে। যখন গড়-বৈকল্পিক সম্পর্কটি সত্য হয় না, তখন প্যারামিটারের অনুমানগুলি পক্ষপাতদুষ্ট নয় । যাইহোক, স্ট্যান্ডার্ড ত্রুটিগুলি, আত্মবিশ্বাসের ব্যবধানগুলি, পি-মানগুলি এবং ভবিষ্যদ্বাণীগুলি সমস্তই ভুলভ্রষ্ট। এর অর্থ আপনি টাইপ আই ত্রুটির জন্য নিয়ন্ত্রণ করতে পারবেন না এবং আপনার সাবওটিমাল শক্তি থাকতে পারে।
যদি তারতম্যটি কেবলমাত্র গড়ের সাথে সমানুপাতিক হয় তবে কী তারতম্যটি শিথিল করা যায় ? নেতিবাচক দ্বিপদী রিগ্রেশন এবং কাসিপোইসন রিগ্রেশন এটি করে।
Quasipoisson মডেল
Quasipoisson মডেলগুলি সম্ভাবনা ভিত্তিক নয়। তারা একটি "তত্পরতা" সর্বাধিক করে তোলে যা একটি আনুপাতিক ধ্রুবক পর্যন্ত পইসন সম্ভাবনা। সেই আনুপাতিক ধ্রুবকটি বিচ্ছুরণ ঘটে। ছড়িয়ে পড়া একটি উপদ্রব হিসাবে বিবেচিত হয়প্যারামিটার। সর্বাধিককরণের রুটিনটি উপদ্রব প্যারামিটারের অনুমানের সাথে উঠে আসে, সেই অনুমানটি জনসংখ্যাকে সাধারণীকরণকারী কোনও মানের চেয়ে ডেটাগুলির একটি নিদর্শন মাত্র। বিবর্তনটি কেবল সংকোচনের "এসইএস" বা সংস্থাগুলির পরামিতিগুলিকে "প্রশস্ত" করতে পরিবেশন করে যে বৈকল্পিক গড়ের চেয়ে আনুপাতিকভাবে ছোট বা বড় whether যেহেতু বিচ্ছিন্নতাটিকে উপদ্রব পরামিতি হিসাবে বিবেচনা করা হয়, তাই কোয়াশিপোইসন মডেলগুলি বেশ কয়েকটি শক্তিশালী বৈশিষ্ট্য উপভোগ করতে পারে: তথ্যটি আসলে হেটেরোসেসটাস্টিক হতে পারে (আনুপাতিক গড়-বৈচিত্র্য অনুমানের সাথে মিলিত হয় না) এবং এমনকি নির্ভরতার ছোট উত্সগুলিও প্রদর্শন করে না, এবং গড় মডেলটির প্রয়োজন হয় না need হুবহু সঠিক হতে পারে তবে রিগ্রেশন প্যারামিটারগুলির জন্য 95% সিআই হ'ল অ্যাসেম্পোটোটিক্যালি সঠিক।যদি ডেটা বিশ্লেষণের আপনার লক্ষ্যটি হ'ল রিগ্রেশন প্যারামিটারগুলির একটি সেট এবং ফলাফলের মধ্যে সংযোগ পরিমাপ করা হয় তবে কোয়াশিপাইসন মডেলগুলি সাধারণত যাওয়ার উপায়। এই মডেলগুলির একটি সীমাবদ্ধতা হ'ল তারা ভবিষ্যদ্বাণী অন্তরগুলি উত্পাদন করতে পারে না, পিয়ারসনের অবশিষ্টাংশগুলি গড় মডেলটি কতটা সঠিক তা সম্পর্কে আপনাকে বেশি কিছু বলতে পারে না এবং এআইসি বা বিআইসির মতো তথ্যের মানদণ্ডগুলি এই মডেলগুলিকে অন্য ধরনের মডেলের সাথে কার্যকরভাবে তুলনা করতে পারে না।
নেতিবাচক দ্বিপদী মডেল
নেতিবাচক দ্বিপদী রিগ্রেশনটিকে 2-প্যারামিটার পোইসন রিগ্রেশন হিসাবে বোঝার জন্য এটি সবচেয়ে দরকারী। গড় মডেল পয়সন এবং কাসিপোইসন মডেলগুলির মতো একই যেখানে ফলাফলের লগটি ভবিষ্যদ্বাণীকের একটি রৈখিক সংমিশ্রণ। তদ্ব্যতীত, "স্কেল" পরামিতি একটি গড়-বৈচিত্রের সম্পর্ককে মডেল করে যেখানে ভেরিয়েন্সটি পূর্বের মতো গড়ের সাথে সমানুপাতিক। তবে, কাসিপোইসন মডেলগুলির বিপরীতে, এই ধরণের মডেল হুবহু সম্ভাবনা ভিত্তিক পদ্ধতি। এই ক্ষেত্রে বিচ্ছুরণ একটি প্রকৃত পরামিতি যা জনসংখ্যার সাধারণীকরণের কিছুটা পরিমাণ রয়েছে। এটি কাসিপোইসনের তুলনায় কয়েকটি সুবিধা উপস্থাপন করেছে তবে আমার মতে আরও বেশি (অকেটেবল) অনুমান আরোপ করা হয়েছে। কোয়াশিপাইসন মডেলগুলির বিপরীতে: ডেটা অবশ্যই স্বতন্ত্র হতে হবে, গড় মডেলটি অবশ্যই সঠিক হতে হবে এবং সঠিক অনুমানের জন্য স্কেল প্যারামিটারটি লাগানো মানগুলির পরিসীমা জুড়ে হোমোসেসডাস্টিক হতে হবে। যাইহোক, পিয়ারসনের অবশিষ্টাংশগুলি পর্যবেক্ষণ করে এগুলি কিছুটা মূল্যায়ন করা যেতে পারে, এবং মডেলটি ইতিবাচক ভবিষ্যদ্বাণী এবং ভবিষ্যদ্বাণী ব্যবস্থার জন্ম দেয় এবং তথ্যের মানদণ্ডের সাথে তুলনা করার জন্য এটি উপযুক্ত।
নেতিবাচক দ্বিপদী সম্ভাব্যতা মডেলগুলি পইসন-গামা মিশ্রণ থেকে উত্থিত হয়। এটি হ'ল, অজানা ওঠানামা করা গামা র্যান্ডম ভেরিয়েবলটি পয়েসন রেট প্যারামিটারকে "খাওয়ানো" আছে। যেহেতু এনবি জিএলএম ফিটিং সম্ভাবনা ভিত্তিক, তাই সাধারণত ডেটা উত্পন্ন করার পদ্ধতি সম্পর্কে পূর্বের বিশ্বাসগুলি জানাতে এবং হাতের মডেলের সম্ভাব্য যুক্তির সাথে তাদের সংযুক্ত করতে সাধারণত সহায়ক হয়। উদাহরণস্বরূপ, আমি যদি ২৪ ঘন্টা সহনশীলতা রেসিংয়ের মধ্য দিয়ে অবসর গ্রহণকারী রেসারের সংখ্যা পরীক্ষা করছি তবে আমি বিবেচনা করতে পারি যে পরিবেশের পরিস্থিতিগুলি এমন সমস্ত স্ট্রেসার যা আমি পরিমাপ করি নি এবং এভাবে ডিএনএফ-এর ঝুঁকিতে অবদান রাখছি যেমন আর্দ্রতা বা ঠান্ডা তাপমাত্রা টায়ারে প্রভাবিত করে সারণি এবং এইভাবে একটি স্পিন আউট এবং ধ্বংসের ঝুঁকি।
নির্ভরশীল ডেটার জন্য মডেল: জিএলএমএস বনাম জিইই
পোইসন ডেটার জন্য সাধারণ রৈখিক মিশ্র মডেলগুলি (জিএলএমএম) উপরের পদ্ধতির সাথে তুলনা করে না। জিএলএমএমস একটি পৃথক প্রশ্নের উত্তর দেয় এবং বিভিন্ন ডেটা স্ট্রাকচারে ব্যবহৃত হয়। এখানে ডেটাগুলির মধ্যে নির্ভরতার উত্সগুলি স্পষ্টভাবে মাপা হয়। জিএলএমএমগুলি স্বতন্ত্র স্তরের বৈচিত্র্যের জন্য অ্যাকাউন্টে র্যান্ডম ইন্টারসেপ্ট এবং এলোমেলো slালু ব্যবহার করে। এটি আমাদের অনুমান অনুসারে পরিবর্তন করে। এলোমেলো প্রভাবগুলি ওপরের আলোচিত পরিবর্তনের চেয়ে পরিবর্তে গড় এবং বৈকল্পিক পরিবর্তন করে that
সংস্থার দুটি সম্ভাব্য স্তর রয়েছে যা নির্ভরশীল ডেটাতে পরিমাপ করা যায়: জনসংখ্যা স্তর (প্রান্তিক) এবং স্বতন্ত্র স্তর (শর্তসাপেক্ষ)। জিএলএমএমগুলি স্বতন্ত্র স্তর (শর্তসাপেক্ষ) সমিতিগুলি পরিমাপের দাবি করে: এটি হ'ল পৃথক স্তরের অবদানকারীদের পুরো হোস্টকে দেওয়া পরিণতিতে, ভবিষ্যদ্বাণীকারীদের সংমিশ্রণের তুলনামূলক প্রভাব কী। উদাহরণস্বরূপ, উদাহরণস্বরূপ স্কুলে পড়া বাচ্চাদের ক্ষেত্রে পরীক্ষার প্রস্তুতির পাঠ্যক্রমগুলি খুব কম প্রভাব ফেলতে পারে, তবে অভ্যন্তরীণ শহরের শিশুরা প্রচুর উপকার পেতে পারে। স্বতন্ত্র স্তরের প্রভাবটি এই পরিস্থিতিতে যথেষ্ট পরিমাণে বেশি কারণ সুবিধাভোগী শিশুরা ইতিবাচক এক্সপোজারের ক্ষেত্রে বক্ররেখার চেয়ে অনেক বেশি।
যদি আমরা নির্লিপ্তভাবে নির্ভরযোগ্য ডেটাতে কোসিপোইসন বা নেতিবাচক দ্বিপদী মডেলগুলি প্রয়োগ করি, তবে এনবি মডেলগুলি ভুল হবে এবং কোসিপোইসন মডেলগুলি অক্ষম হবে। জিআইই অবশ্য কোএসিপোইসন মডেলকে GLMM এর মতো স্পষ্টভাবে নির্ভরশীলতা কাঠামোকে মডেল করার জন্য প্রসারিত করে, তবে জিইই একটি প্রান্তিক (জনসংখ্যা স্তর) প্রবণতা পরিমাপ করে এবং সঠিক ওজন, মান ত্রুটি এবং অনুমিতি অর্জন করে।
ডেটা বিশ্লেষণ উদাহরণ:
এই পোস্টটি ইতিমধ্যে অনেক দীর্ঘ :) আপনি আগ্রহী হলে আরও পড়ার রেফারেন্স সহ এই টিউটোরিয়ালে প্রথম দুটি মডেলের একটি চমৎকার চিত্রণ রয়েছে । প্রশ্নে থাকা ডেটাগুলি হর্সশো কাঁকড়ার বাসা বাঁধার অভ্যাসকে জড়িত: স্ত্রীলোকরা তার সাথে জড়িত বাসা এবং পুরুষদের (উপগ্রহ) বসে। তদন্তকারীরা নারীর বৈশিষ্ট্যগুলির একটি ফাংশন হিসাবে একটি মহিলার সাথে সংযুক্ত পুরুষের সংখ্যার পরিমাপ করতে চেয়েছিলেন। আমি আশা করি আমি মিশ্রিত মডেলগুলি কেন আপোনাযোগ্য তা আন্ডারকর্ড করেছি: আপনার যদি নির্ভরশীল ডেটা থাকে তবে নির্ভরশীল ডেটা উত্তর দেওয়ার চেষ্টা করছেন এমন প্রশ্নের জন্য আপনাকে অবশ্যই সঠিক মডেলটি ব্যবহার করতে হবে, কোনও জিএলএম বা জিইই হবে।
তথ্যসূত্র:
[1] আগ্রেস্তি, শ্রেণিবদ্ধ ডেটা বিশ্লেষণ 2 য় সংস্করণ
[২] ডিগল, হেগার্টি, লিয়াং, জেগার, ল্যানজিটুডিনাল ডেটার 2 য় সংস্করণের বিশ্লেষণ।