নিম্নলিখিত সমস্যার বিষয়ে আমি আপনার পরামর্শের প্রশংসা করব:
আমি প্রচুর জিরো (~ 95%) সহ একটি বিশাল ধারাবাহিক ডেটাসেট পেয়েছি এবং এর নির্দিষ্ট কিছু উপগ্রহগুলি "আকর্ষণীয়" কিনা তা পরীক্ষা করার জন্য আমার সর্বোত্তম উপায় খুঁজে বের করা উচিত, যেমন একই বন্টন থেকে আঁকা বলে মনে হয় না অবশিষ্ট. জিরো মুদ্রাস্ফীতিটি এই সত্য থেকে আসে যে প্রতিটি ডেটা পয়েন্ট সত্য এবং নমুনা জিরো উভয়ের সাথে একটি গণনা পরিমাপের উপর ভিত্তি করে তৈরি হয়, তবে ফলাফলটি ধারাবাহিক থাকে কারণ এটি গণনা দ্বারা ওজনিত কিছু অন্যান্য পরামিতিগুলিকে বিবেচনা করে (এবং যদি গণনাটি শূন্য হয়, ফলাফল এছাড়াও শূন্য)।
এই কাজ করতে সবচেয়ে ভালো উপায় কি হতে পারে? আমার একটা অনুভূতি আছে যে উইলকক্সন এবং এমনকি ব্রুট-ফোর্স ক্রমুয়েশন পরীক্ষাগুলি অপ্রতুল যেহেতু তারা এই জিরোগুলি দ্বারা স্কিউড হয়। নন-শূন্য পরিমাপগুলিতে ফোকাস করা সত্যিকারের শূন্যগুলিও সরিয়ে দেয় যা অত্যন্ত গুরুত্বপূর্ণ। গণনা ডেটার জন্য শূন্য-স্ফীত মডেলগুলি উন্নত, তবে আমার ক্ষেত্রে অনুপযুক্ত।
আমি ডেটাতে একটি টুইডির বিতরণ ফিট করা এবং তারপরে প্রতিক্রিয়া = চ (সাবসেট_এলবেল) এর উপর একটি গিটার ফিট করার বিষয়টি বিবেচনা করেছি। তাত্ত্বিকভাবে, এটি व्यवहार्य বলে মনে হচ্ছে, তবে আমি ভাবছি যে (ক) এটি অত্যধিক কিল এবং (খ) এখনও স্পষ্টতই ধরে নেবে যে সমস্ত শূন্যগুলি নমুনা শূণ্য, অর্থ হ'ল অনুমতি হিসাবে একইভাবে (সর্বোত্তমভাবে) পক্ষপাতিত্ব করা হবে?
স্বজ্ঞাতভাবে, এটির মতো শোনা যাচ্ছে যে এক ধরণের শ্রেণিবদ্ধ নকশা রয়েছে যা শূন্যের অনুপাতের ভিত্তিতে দ্বিপদী পরিসংখ্যানের সংমিশ্রণ করে এবং বলে, একটি উইলকক্সন পরিসংখ্যানকে অ-শূন্য মানের (বা আরও ভাল এখনও শূন্য-না-মানের পরিধির সাথে পরিমিত) কিছু পূর্বের উপর ভিত্তি করে শূন্য)। বায়সিয়ান নেটওয়ার্কের মতো মনে হচ্ছে ...
আশা করি আমি এই সমস্যাটির মধ্যে প্রথম কেউ নই, আপনি যদি আমাকে বিদ্যমান বিদ্যমান কৌশলগুলির দিকে নির্দেশ করতে পারেন তবে খুব কৃতজ্ঞ হবেন ...
অনেক ধন্যবাদ!