গণনা ডেটার জন্য উপযুক্ত মডেল সিদ্ধান্ত নেওয়ার কৌশল


16

গণনার ডেটা সহ কোন মডেলটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার জন্য উপযুক্ত কৌশল কী? আমার কাছে মাল্টিলেভেল মডেল হিসাবে মডেল করার প্রয়োজনীয় ডেটা রয়েছে এবং এটি আমার কাছে (এই সাইটে) সুপারিশ করা হয়েছিল যে এটি করার সর্বোত্তম উপায়টি বাগ বা এমসিএমসিজিএমএমএমের মাধ্যমে। তবে আমি এখনও বেইসিয়ান পরিসংখ্যান সম্পর্কে জানার চেষ্টা করছি এবং আমি ভেবেছিলাম আমার প্রথমে আমার তথ্যটি সাধারণীকরণীয় রৈখিক মডেল হিসাবে ফিট করার চেষ্টা করা উচিত এবং উপাত্তের নেস্টেড কাঠামোটি উপেক্ষা করা উচিত (ঠিক কীভাবে আমি কী আশা করব তা সম্পর্কে একটি অস্পষ্ট ধারণা পেতে পারি)।

ডেটাগুলির প্রায় 70% 0 হয় এবং গড়ের পরিবর্তনের অনুপাত 33 হয় So সুতরাং ডেটাটি বেশ বেশি ছড়িয়ে পড়ে।

বিভিন্ন ধরণের বিকল্পের চেষ্টা করার পরে (পিসন, নেতিবাচক দ্বিপদী, আধা এবং শূন্য স্ফীত মডেল সহ) আমি ফলাফলগুলিতে খুব সামান্য ধারাবাহিকতা দেখি (সমস্ত কিছুর চেয়ে আলাদা হওয়া কোনও কিছুর পক্ষে তাৎপর্যপূর্ণ নয়)।

0 মুদ্রাস্ফীতি এবং অতিরিক্ত-ছড়িয়ে পড়ার ভিত্তিতে কোন ধরণের মডেল নির্বাচন করবেন সে সম্পর্কে আমি একটি অবগত সিদ্ধান্ত নেওয়ার বিষয়ে কীভাবে যেতে পারি? উদাহরণস্বরূপ, আমি কীভাবে অনুমান করতে পারি যে কোয়াডস-পোইসনটি নেতিবাচক দ্বিপদী (বা ভাইস বিপরীতে) এর চেয়ে বেশি উপযুক্ত এবং আমি কীভাবে জানতে পারি যে অতিরিক্ত জিরোগুলির সাথে ব্যবহার করে পর্যাপ্ত পরিমাণে (বা নাও) সমস্যা হয়েছে? একইভাবে, আমি কীভাবে মূল্যায়ন করব যে শূন্য-স্ফীত মডেল ব্যবহার করা হলে সেখানে আরও বেশি ছড়িয়ে পড়া নেই? বা আমি কীভাবে একটি শূন্য স্ফীত পোষক এবং একটি শূন্য স্ফীত নেতিবাচক দ্বিপদী মধ্যে সিদ্ধান্ত নিতে হবে?

উত্তর:


9

আপনি সর্বদা গণনা মডেলগুলির পূর্বাভাসগুলি দেখে পছন্দ করতে পারেন (পছন্দমত হোল্ড আউট সেটটিতে)। জে স্কট লং গ্রাফিকভাবে এটি (সত্যবাদীদের বিরুদ্ধে পূর্বাভাসিত মানগুলি ষড়যন্ত্র করে) আলোচনা করে। এখানে তার পাঠ্যপুস্তকে বিশদে বর্ণিত হয়েছে তবে আপনি এই নথিতে 6.4 এও দেখতে পারেন ।

আপনি এআইসি বা বিআইসি ব্যবহার করে মডেলগুলি তুলনা করতে পারেন এবং ভং টেস্ট নামে একটি পরীক্ষা রয়েছে যা আমি খুব পরিচিত নই তবে নাস্তিত মডেলের সাথে শূন্যের তুলনায় তুলনা করতে পারি। আপনাকে শুরু করার জন্য এখানে একটি সাস পেপার 10 পৃষ্ঠায় সংক্ষেপে বর্ণনা করছে । এছাড়া দ implmented হয় পোস্টিং


পরামর্শের জন্য ধন্যবাদ. মডেলটি সিদ্ধান্ত নেওয়ার আগে আমি অবশ্যই ভবিষ্যদ্বাণীগুলি পরীক্ষা করার চেষ্টা করব
জর্জ মাইকেলাইডস

5

বি_মিনিয়ার যা বলেছেন তাতে যুক্ত করার জন্য কয়েকটি জিনিস:

1) আপনি লিখেছেন যে মডেলগুলি "তাত্পর্যপূর্ণ" থেকে "তাত্পর্যপূর্ণ কিছুই নয়" থেকে পরিবর্তিত হয় তবে মডেলগুলির তুলনা করার পক্ষে এটি ভাল উপায় নয়। পরিবর্তে, পূর্বাভাসিত মানগুলিতে (বি_মিনিয়ার প্রস্তাবিত) এবং প্রভাব আকারগুলিতে দেখুন।

2) যদি 70% ডেটা 0 হয় তবে আমি কল্পনাও করতে পারি না যে 0 মুদ্রাস্ফীতি ছাড়াই একটি মডেল উপযুক্ত।

3) আপনি বায়েশিয়ান যেতে না চাইলেও, আপনি এসএএস (প্রোসি গ্লিমিমিক্স বা এনএলএমআইএসইডি) এবং আর (বিভিন্ন প্যাকেজ) এ জিএলএমএম ব্যবহার করতে পারেন। নেস্টেড প্রকৃতি উপেক্ষা করা সবকিছু গোলমাল করতে পারে।

৪) সাধারণভাবে, কোন মডেলটি সবচেয়ে ভাল তা সিদ্ধান্ত নেওয়া কোনও শিল্প নয়, বিজ্ঞান নয়। ব্যবহারের জন্য পরিসংখ্যান রয়েছে তবে সেগুলি বিচারের দিকনির্দেশক। আপনি যা লিখেছেন কেবল তা দেখে, আমি বলব একটি জেডআইএনবি মডেল সঠিক দেখাচ্ছে


উদ্দেশ্যটি হ'ল আমি শেষ পর্যন্ত বায়েশিয়ান ব্যবহার করে এটির মডেল করার চেষ্টা করব, তবে আমি কীভাবে মডেলগুলি ফিট করার আগে সিদ্ধান্ত নিতে পারি তা বোঝার চেষ্টা করছিলাম। যদি এমন কোনও সম্ভাবনা থাকে যে উপাত্তের নেস্টেড প্রকৃতি উপেক্ষা করে জিনিসগুলি গণ্ডগোল করে, তবে আমি তাদের প্রথমে জিএলএমএম চেষ্টা করব। আর আমি যে বিষয়ে সচেতন সেগুলির একমাত্র প্যাকেজটি হ'ল মাল্টিলেভেল জিনআইএনবি করতে পারে হ'ল গ্ল্যামড এমএডিএমবি। আপনি কি অন্য কোন প্যাকেজ সুপারিশ করবেন?
জর্জ মাইকেলাইডস

4

আমার বোধগম্যতা হল যে শূন্য-স্ফীত ডিস্ট্রিবিউশনগুলি ব্যবহার করা উচিত যখন নির্দিষ্ট আইটেমগুলির পক্ষে অন্য কোনও গণনার বিপরীতে শূন্যের সংখ্যা তৈরি করার যুক্তি উপস্থিত থাকে। অন্য কথায়, শূন্যগুলি অন্য গণনাগুলির তুলনায় পৃথক প্রক্রিয়া দ্বারা উত্পাদিত হলে শূন্য-স্ফীত বিতরণ ব্যবহার করা উচিত। আপনার নমুনায় অত্যধিক ছদ্মবেশে যদি এর জন্য আপনার কোনও যুক্তি না থাকে তবে আমি একটি নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করার পরামর্শ দিচ্ছি কারণ এটি নির্ভুলভাবে শূন্যের প্রাচুর্যকে উপস্থাপন করে এবং এই প্যারামিটারটি নির্দ্বিধায় নির্ণয় করে এটি অরক্ষিত বৈজাতীয়তার প্রতিনিধিত্ব করে। উপরে উল্লিখিত হিসাবে, স্কট লং এর বইটি একটি দুর্দান্ত রেফারেন্স।


আপনার উত্তরের জন্য ধন্যবাদ. প্রকৃতপক্ষে, আমি বিভিন্ন আইটেমগুলি অন্য কোনও গণনার বিপরীতে 0 গুলি উত্পাদন করতে পারে কিনা তা নিয়ে চিন্তাভাবনা শুরু করেছি এবং আমি আসলেই মনে করি যে আমার বেশ কয়েকটি ভেরিয়েবল রয়েছে যা কেবলমাত্র 0 এর বনাম অন্য কোনও গণনার ব্যাখ্যা করবে। সুতরাং সম্ভবত আমার এই ভেরিয়েবলগুলি যেভাবে তাদের কাজ করার প্রত্যাশা করবে সেভাবে কাজ করে কিনা তা দেখার জন্য আমার প্রথমে জিনব চেষ্টা করা উচিত।
জর্জ মাইকেলাইডস

3

ম্যাট যা বলেছিলেন তাতে একেবারেই একমত হয়েছিলেন, প্রথমে আপনাকে তথ্যের পটভূমি সম্পর্কে ভাবতে হবে ... জেডআই মডেলগুলির সাথে ফিট করার কোনও অর্থ হয় না, যখন জনসংখ্যায় জিরো উত্পন্নকারী ট্রিগার নেই! এনবি মডেলগুলির সুবিধা হ'ল তারা গামা বিতরিত এলোমেলো পরিবর্তনশীলগুলিতে অনাবদ্ধ হিটেরোগেন্সিটি প্রদর্শন করতে পারে। প্রযুক্তিগতভাবে: অত্যধিক সংক্রমণের প্রধান কারণগুলি হ'ল হেটেরোজেনটি এবং জিরো মুদ্রাস্ফীতি। আমি বিশ্বাস করি না যে আপনার ফিটটি খারাপ। বিটিডব্লু ফিটের সদ্ব্যবহার পেতে আপনার সর্বদা আপনার মডেলের স্বাধীনতার ডিগ্রিগুলির সাথে ডিভ্যান্সের তুলনা করা উচিত। ডিভায়েন্স ডি যদি n- (p + 1) এর চেয়ে বেশি হয় (এটি ডিএফ) আপনার আরও ভাল মডেলটি অনুসন্ধান করা উচিত। যদিও ওভারডিস্পেরেশন থেকে মুক্তি পেতে জিনব থেকে বেশি ভাল কোনও মডেল নেই।

আপনি যদি আর এর সাথে জিআইএনবি ফিট করতে চান তবে প্যাকেজটি পান psclএবং কমান্ডটি ব্যবহার করার চেষ্টা করুন zeroinfl(<model>, dist=negative)। আরও তথ্যের ?zeroinflজন্য প্রয়োজনীয় প্যাকেজ লোড করার পরে দেখুন !

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.