অবিচ্ছিন্ন ডেটা মডেলিং করার সময় পইসন বিতরণ কীভাবে কাজ করে এবং এর ফলে কী তথ্য ক্ষতির সৃষ্টি হয়?


20

একজন সহকর্মী তার গবেষণার জন্য কিছু জৈবিক ডেটা কিছু কদর্য হেটেরোসেসডাস্টিটি (নীচের চিত্র) দিয়ে বিশ্লেষণ করছেন। তিনি এটি একটি মিশ্র মডেল নিয়ে বিশ্লেষণ করছেন তবে অবশিষ্টাংশগুলিতে এখনও সমস্যা হচ্ছে।

প্রতিক্রিয়া ভেরিয়েবলগুলি লগ-রূপান্তরকরণ বিষয়গুলি পরিষ্কার করে এবং এই প্রশ্নের প্রতিক্রিয়ার ভিত্তিতে এটি একটি উপযুক্ত পদ্ধতির বলে মনে হয়। মূলত, তবে আমরা ভেবেছিলাম মিশ্র মডেলগুলির সাথে রুপান্তরিত ভেরিয়েবলগুলি ব্যবহার করার ক্ষেত্রে সমস্যা রয়েছে। দেখা যাচ্ছে যে মিশ্র মডেলগুলির জন্য লিটেল অ্যান্ড মিলিকেনের (২০০)) এসএএস-তে আমরা একটি বিবৃতিটির ভুল ব্যাখ্যা দিয়ে চলেছি যা গণনা ডেটা রুপান্তর করা কেন অনুপযুক্ত এবং তারপরে এটি একটি সাধারণ রৈখিক মিশ্র মডেল দিয়ে বিশ্লেষণ করা কেন (সম্পূর্ণ উদ্ধৃতি নীচে) ।

এমন একটি পন্থা যা অবশিষ্টাংশগুলিকে আরও উন্নত করেছিল তা ছিল পয়সন বিতরণ সহ একটি সাধারণীকরণীয় রৈখিক মডেল ব্যবহার করা। আমি পড়েছি যে পয়সন বিতরণটি ধারাবাহিক ডেটা মডেলিংয়ের জন্য ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ, এই পোস্টে আলোচনা করা হয়েছে ), এবং পরিসংখ্যান প্যাকেজগুলি এটির অনুমতি দেয় তবে মডেলটি ফিট হয়ে গেলে কী চলছে তা আমি বুঝতে পারি না।

অন্তর্নিহিত গণনাগুলি কীভাবে করা হচ্ছে তা বোঝার উদ্দেশ্যে, আমার প্রশ্নগুলি হ'ল: আপনি যখন অবিচ্ছিন্ন ডেটাতে পোইসন বিতরণ মাপসই করেন, 1) তথ্যটি কী নিকটতম পূর্ণসংখ্যার সাথে বৃত্তাকার হয় 2) এই তথ্যটি ক্ষতির ফলে এবং 3) কখন, যদি একটানা তথ্যের জন্য কোনও পইসন মডেল ব্যবহার করা উপযুক্ত?

লিটেল অ্যান্ড মিলিকেন 2006, পৃষ্ঠা 529 "[গণনা] ডেটা রুপান্তর করা বিপরীতমুখী হতে পারে For উদাহরণস্বরূপ, একটি রূপান্তর এলোমেলো মডেল প্রভাব বা মডেলের লিনিয়ারিটি বিকৃত করতে পারে ly আরও গুরুত্বপূর্ণভাবে, তথ্যের রূপান্তরটি এখনও সম্ভাবনাটি খুলে দেয় নেতিবাচক পূর্বাভাস গণনাগুলির ফলস্বরূপ, রুপান্তরিত ডেটা ব্যবহার করে একটি মিশ্র মডেল থেকে অনুমান করা অত্যন্ত সন্দেহজনক। "

এখানে চিত্র বর্ণনা লিখুন


1
@ টমাসের মতো আমি জানি কোনও কারণ নেই যে আপনি কোনও মিশ্র মডেলের আগে ভেরিয়েবলগুলি রূপান্তর করবেন না এবং আমি এই বিষয়ে বেশ কিছুটা পড়েছি। আমি রামন এবং লিটেল বইটি পেয়েছি .... আপনি কোন পৃষ্ঠাটি উল্লেখ করছেন?
পিটার ফ্লুম - মনিকা পুনরায়

এটি সক্রিয় আমরা PG 529. এক বিবৃতিতে ভুল ব্যাখ্যা করা হয়েছে আউট
এন Brouwer

উত্তর:


22

আমি হুবার / হোয়াইট / স্যান্ডউইচ লিনিয়ারাইজড অনুমানের প্রায়শই ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘুরিয়ে ফেলা হয় এমন হতে পারে এমন অবস্থা থেকে হুবার / হোয়াইট / স্যান্ডউইচ লিনিয়ারাইজড ভেরিয়েশনের সাথে প্রায়শই ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন যাইহোক, এটি কিছু করার জন্য বিশেষত ভাল কারণ নয়, তাই এখানে কিছু প্রকৃত উল্লেখ রয়েছে।

Y

সান্টোস সিলভা এবং টেনেরেরো (2006) থেকে কিছু উত্সাহজনক সিমুলেশন প্রমাণ রয়েছে , যেখানে পইসন সেরা-শোতে আসে। ফলাফলটিতে প্রচুর শূন্যের সাথে এটি একটি সিমুলেশনেও ভাল করে । আপনার স্নোফ্লেকের ক্ষেত্রে এটি কাজ করে তা বোঝাতে আপনি সহজেই নিজের সিমুলেশনটি করতে পারেন।

শেষ অবধি, আপনি লগ লিঙ্ক ফাংশন এবং পোইসন পরিবার সহ একটি জিএলএম ব্যবহার করতে পারেন। এটি অভিন্ন ফলাফল দেয় এবং গণনা-ডেটা-কেবল হাঁটুর জড় প্রতিক্রিয়াগুলি প্ল্যাক করে।

অরক্ষিত লিঙ্ক ব্যতীত তথ্যসূত্র:

গৌরিউকস, সি। এ। মনফোর্ট এবং এ ট্রোগন (1984)। "ছদ্ম সর্বাধিক সম্ভাবনা পদ্ধতি: পইসন মডেলের অ্যাপ্লিকেশন," Econometrica , 52, 701-720।


2
বিল গোল্ড দ্বারা লেখা স্টাটা ব্লগে এই দুর্দান্ত ব্লগ এন্ট্রিটিও দেখুন - blog.stata.com/2011/08/22/…
বোস্কোভিচ

1
Y

স্টাটা ব্লগে একটি সম্পর্কিত পোস্ট রয়েছে যা অতিরিক্ত সিমুলেশন প্রমাণ দেয়
দিমিত্রি ভি। মাস্টারভ

6

পয়সন বিতরণ কেবল গণনা সম্পর্কিত ডেটার জন্য, অবিচ্ছিন্ন ডেটা দিয়ে এটিকে খাওয়ানোর চেষ্টা করা খারাপ এবং আমি বিশ্বাস করি যে এটি করা উচিত নয়। এর অন্যতম কারণ হ'ল আপনি কীভাবে আপনার অবিচ্ছিন্ন পরিবর্তনশীলকে স্কেল করবেন তা জানেন না। এবং পোইসন স্কেলের উপর খুব নির্ভর করে! আমি এখানে একটি সাধারণ উদাহরণ দিয়ে এটি ব্যাখ্যা করার চেষ্টা করেছি । সুতরাং একা এই কারণেই আমি গণনা তথ্য ব্যতীত অন্য কোনও কিছুর জন্য পইসন ব্যবহার করব না।

এছাড়াও মনে রাখবেন যে জিএলএম 2 টি কাজ করে - লিঙ্ক ফাংশন (প্রতিক্রিয়ার রূপান্তরিত করে, পোয়েসনের ক্ষেত্রে লগ ইন করুন), এবং অবশিষ্টাংশগুলি (এই ক্ষেত্রে পোয়েসন বিভ্রান্তি)। জৈবিক কাজ সম্পর্কে, অবশিষ্টাংশগুলি সম্পর্কে চিন্তা করুন এবং তারপরে যথাযথ পদ্ধতি নির্বাচন করুন। কখনও কখনও লগ ট্রান্সফর্ম ব্যবহার করা বোধগম্য হয় তবে সাধারণত বিতরণকৃত অবশিষ্টাংশের সাথেই থাকে।

"তবে এটি প্রচলিত জ্ঞানের মতো বলে মনে হচ্ছে এটি হ'ল আপনার কোনও মিশ্র মডেল হিসাবে প্রবেশের তথ্য পরিবর্তন করা উচিত নয়"

আমি এই প্রথম শুনি! আমার কাছে মোটেই কোনও অর্থবোধ করে না। মিশ্র মডেল কেবলমাত্র সাধারণ রৈখিক মডেলের মতো হতে পারে, কেবল যুক্ত এলোমেলো প্রভাবের সাথে। আপনি এখানে একটি যথাযথ উদ্ধৃতি দিতে পারেন? আমার মতে, যদি লগ রূপান্তর জিনিস পরিষ্কার করে, কেবল এটি ব্যবহার করুন!


সাহায্যের জন্য ধন্যবাদ; যা আমি "প্রচলিত জ্ঞান" বলে মনে করি তা লিটেল এবং মিলিকেনের ভুল পড়া mis আমি আমার প্রশ্নটি সম্পাদনা করেছি এবং এল অ্যান্ড এম 2006 এর উদ্ধৃতিটি যুক্ত করেছি
এন ব্রাউয়ার

@ ব্রাউজার: হ্যাঁ, মনে হচ্ছে আপনি এটির ভুল ব্যাখ্যা করেছেন pret গণনা ডেটা রুপান্তর করা এটি বাজে এবং এটি ডেটা গণনা করার জন্য অবিচ্ছিন্ন উপাত্তকে রূপান্তর করা এবং এটিতে পইসনকে ফিট করার চেষ্টা করা আরও বাজে! এটাই আমি আপনাকে বোঝানোর চেষ্টা করেছি। এটা করবেন না। আপনার প্রয়োজন হিসাবে কেবল অবিরত ডেটা লগ-রূপান্তর করুন form এটি পরিসংখ্যানগুলিতে খুব সাধারণ, এটি নিয়ে চিন্তা করার দরকার নেই।
কৌতুহল

5

এখানে কিভাবে পইসন মডেল ব্যবহার করতে লগ-রিগ্রেশন মাপসই আরেকটি মহান আলোচনা আছে: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (আমি একজন বন্ধুকে বলছি, যেমন ব্লগের প্রবেশের পরামর্শ দেয়)। প্রাথমিক থ্রাস্টটি হ'ল আমরা কেবল পোইসন মডেলের অংশটি ব্যবহার করি যা লগ লিঙ্ক। যে অংশটির বৈকল্পিক গড়ের সমান হতে হবে তার বৈকল্পিকতার একটি স্যান্ডউইচ অনুমানের সাথে ওভাররাইড করা যেতে পারে। আইডির জন্য এটি সবই; ক্লাস্টার / মিশ্র মডেল এক্সটেনশন সঠিকভাবে রেফারেন্সড হয়েছে Dimitriy Masterov দ্বারা


1

যদি সমস্যাটি যদি গড়ের সাথে বৈকল্পিক স্কেলিং হয় তবে আপনার অবিচ্ছিন্ন ডেটা থাকে, আপনি কি অবিচ্ছিন্ন বিতরণগুলি ব্যবহার করার বিষয়ে চিন্তাভাবনা করেছেন যা আপনার সমস্যার সমাধান করতে পারে? সম্ভবত কোন গামা? বৈকল্পিকের গড়ের সাথে চতুর্ভুজীয় সম্পর্ক থাকবে - অনেকটা aণাত্মক দ্বিপদী মত, আসলে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.