শূন্য-স্ফীত ক্রমাগত ডেটাতে হাইপোথিসিস পরীক্ষা করা


10

নিম্নলিখিত সমস্যার বিষয়ে আমি আপনার পরামর্শের প্রশংসা করব:

আমি প্রচুর জিরো (~ 95%) সহ একটি বিশাল ধারাবাহিক ডেটাসেট পেয়েছি এবং এর নির্দিষ্ট কিছু উপগ্রহগুলি "আকর্ষণীয়" কিনা তা পরীক্ষা করার জন্য আমার সর্বোত্তম উপায় খুঁজে বের করা উচিত, যেমন একই বন্টন থেকে আঁকা বলে মনে হয় না অবশিষ্ট. জিরো মুদ্রাস্ফীতিটি এই সত্য থেকে আসে যে প্রতিটি ডেটা পয়েন্ট সত্য এবং নমুনা জিরো উভয়ের সাথে একটি গণনা পরিমাপের উপর ভিত্তি করে তৈরি হয়, তবে ফলাফলটি ধারাবাহিক থাকে কারণ এটি গণনা দ্বারা ওজনিত কিছু অন্যান্য পরামিতিগুলিকে বিবেচনা করে (এবং যদি গণনাটি শূন্য হয়, ফলাফল এছাড়াও শূন্য)।

এই কাজ করতে সবচেয়ে ভালো উপায় কি হতে পারে? আমার একটা অনুভূতি আছে যে উইলকক্সন এবং এমনকি ব্রুট-ফোর্স ক্রমুয়েশন পরীক্ষাগুলি অপ্রতুল যেহেতু তারা এই জিরোগুলি দ্বারা স্কিউড হয়। নন-শূন্য পরিমাপগুলিতে ফোকাস করা সত্যিকারের শূন্যগুলিও সরিয়ে দেয় যা অত্যন্ত গুরুত্বপূর্ণ। গণনা ডেটার জন্য শূন্য-স্ফীত মডেলগুলি উন্নত, তবে আমার ক্ষেত্রে অনুপযুক্ত।

আমি ডেটাতে একটি টুইডির বিতরণ ফিট করা এবং তারপরে প্রতিক্রিয়া = চ (সাবসেট_এলবেল) এর উপর একটি গিটার ফিট করার বিষয়টি বিবেচনা করেছি। তাত্ত্বিকভাবে, এটি व्यवहार्य বলে মনে হচ্ছে, তবে আমি ভাবছি যে (ক) এটি অত্যধিক কিল এবং (খ) এখনও স্পষ্টতই ধরে নেবে যে সমস্ত শূন্যগুলি নমুনা শূণ্য, অর্থ হ'ল অনুমতি হিসাবে একইভাবে (সর্বোত্তমভাবে) পক্ষপাতিত্ব করা হবে?

স্বজ্ঞাতভাবে, এটির মতো শোনা যাচ্ছে যে এক ধরণের শ্রেণিবদ্ধ নকশা রয়েছে যা শূন্যের অনুপাতের ভিত্তিতে দ্বিপদী পরিসংখ্যানের সংমিশ্রণ করে এবং বলে, একটি উইলকক্সন পরিসংখ্যানকে অ-শূন্য মানের (বা আরও ভাল এখনও শূন্য-না-মানের পরিধির সাথে পরিমিত) কিছু পূর্বের উপর ভিত্তি করে শূন্য)। বায়সিয়ান নেটওয়ার্কের মতো মনে হচ্ছে ...

আশা করি আমি এই সমস্যাটির মধ্যে প্রথম কেউ নই, আপনি যদি আমাকে বিদ্যমান বিদ্যমান কৌশলগুলির দিকে নির্দেশ করতে পারেন তবে খুব কৃতজ্ঞ হবেন ...

অনেক ধন্যবাদ!


হালনাগাদ. এখনও অবধি, আমি এই কাগজটি আমার মত একই সমস্যার সমাধান করতে পেরেছি
a11msp

আমি ভাবছি যে এই চূড়ান্ত সরলীকৃত আনুমানিকতাটি অর্থবহ হবে কিনা তা প্রদত্ত যে জিরোগুলি পরম সংখ্যাগরিষ্ঠতা তৈরি করে: 1) প্রতিটি উপসেটে শূন্যের অনুপাতটি আবিষ্কার করুন। 2) ধরে নিন যে সবচেয়ে কম সংখ্যক জিরো সহ সাবসেটে সমস্ত জিরো সত্য। 3) প্রতিটি উপসেট থেকে, সর্বাধিক "শূন্য সমৃদ্ধ" ডেটাসেটের শূন্যের অনুপাতের সমান শূন্যের অনুপাতটি সরান। 4) এই পরিবর্তিত ডেটাসেটে স্ট্যান্ডার্ড নন-প্যারাম্যাট্রিক পরিসংখ্যান চালান।
a11msp

আপনার প্রথম মন্তব্যে কাগজের হাইপারলিংকটি মারা গেছে বলে মনে হচ্ছে। পরিবর্তে একটি প্রশংসা প্রদান করতে পারেন?
ক্যাপ করুন

1
এটি নির্দেশ করার জন্য ধন্যবাদ: doi.org/10.1007/s10651-005-6817-1
a11msp

উত্তর:


9

@ এমএসপি, আমার মনে হয় আপনি সেই সংযুক্তিতে দুটি ধাপের মডেলটি দেখছেন (এটি পড়ার আমার কাছে সময় ছিল না), তবে শূন্যের স্ফীতিযুক্ত অবিচ্ছিন্ন ডেটা হ'ল আমি প্রচুর কাজ করি। এই ডেটাতে একটি প্যারাম্যাট্রিক মডেল ফিট করার জন্য (হাইপোথিসিস পরীক্ষার অনুমতি দেওয়ার জন্য) আপনি দুটি পর্যায়ে ফিট করতে পারেন তবে তারপরে আপনার দুটি মডেল থাকে (ওয়াই টার্গেট এবং এক্স সহকারী): পি (ওয়াই = 0 | এক্স) এবং পি (ওয়াই) | এক্স; ওয়াই> 0)। এগুলি একসাথে "আনতে" আপনাকে সিমুলেশন ব্যবহার করতে হবে। গেলম্যানস বই (এবং আর আর্ম প্যাকেজটি) এই সঠিক মডেলের জন্য (লজিস্টিক রিগ্রেশন এবং লগ লিঙ্কের সাথে সাধারণ লিনিয়ার রিগ্রেশন ব্যবহার করে) এই প্রক্রিয়াটি দেখায়।

আমি যে অপশনটি দেখেছি এবং এর চেয়ে ভাল দেখতে পেয়েছি তা হ'ল একটি শূন্য স্ফীত গামা রিগ্রেশন ফিট করা, যা উপরের সমান (তবে গ্যামাসিয়ার পরিবর্তে গামা) এবং আপনি পি (ওয়াই। এক্স) এর উপর অনুমানের পরীক্ষার জন্য তাদের একসাথে আনতে পারেন । আর এ কীভাবে করবেন তা আমি জানি না, তবে আপনি এসএএস এনএলএমআইএসএডে করতে পারেন। এই পোস্টটি দেখুন , এটি ভাল কাজ করে।


@ বি_মিনার, আপনার উত্তরের জন্য অনেক ধন্যবাদ, দুঃখিত আপনাকে ভোট দেওয়ার মতো পর্যাপ্ত রেটিং নেই ... আমার লিঙ্কগুলি একবার দেখুন! শর্তাধীন মডেলগুলির সম্পর্কে আমার কেবল উদ্বেগ হ'ল তারা পোস্ট করে যে শূন্যগুলি দ্বিতীয় (ধারাবাহিক) উপাদানটির সাথে থাকতে পারে না, আমি ঠিক আছি? আমার সেটিংটি কিছুটা মিশ্রণ মডেলের মতো অনুভব করে না? আপনি কি মনে করেন?
a11msp

আমি এখন গেলম্যান বইয়ের প্রস্তাবিত দ্বি-পর্যায়ের পদ্ধতির প্রতিরূপ তৈরি করেছি। যদি সাবসেট_ফ্যাক্টর (25 টি স্তর সহ) সাবসেট লেবেল হিসাবে পরিবেশন করে তবে প্রথম পদক্ষেপটি ফিট 1 = গ্ল্যাম (প্রতিক্রিয়া ~ সাবসেট_ফ্যাক্টর, পরিবার = দ্বিপদী) হয়; এবং দ্বিতীয় ধাপটি ফিট 2 = এলএম (প্রতিক্রিয়া ~ সাবসেট_ফ্যাক্টর, সাবসেট = প্রতিক্রিয়া> 0)। আমি তখন সিমুলেশনগুলি চালাতে পারি কারণ তারা প্রতিটি ফ্যাক্টর স্তরের জন্য উপযুক্ত প্রতিক্রিয়া মানগুলির বিতরণ পেতে বর্ণনা করে। যাইহোক, আমি এখনও আমার কী প্রয়োজন এটির সাথে এটি কীভাবে অনুবাদ করব তা এখনও নিশ্চিত নই, যা হ'ল (ক) বিভিন্ন গুণক স্তরের সহগের মধ্যে পার্থক্যের গুণফলগুলি শূন্য নয় এবং (খ) সম্ভাবনা।
a11msp

দুটি স্তরের পদ্ধতির (দুটি পৃথক মডেলের জেলম্যান পদ্ধতি) দুটি জনসংখ্যা ধরে নিয়েছে, এটি শূন্যের এবং তার উপরের।
বি_মিনার

... সুতরাং কেবল এটুকু বলা কি উপযুক্ত হবে যে জেলম্যানের পদ্ধতিতে দুটি মডেলের যে কোনও একটিতে যদি কিছু ফ্যাক্টর স্তরের প্রভাব তাৎপর্যপূর্ণ (এবং কিছু অন্যান্য ফ্যাক্টর স্তরের চেয়ে উল্লেখযোগ্যভাবে পৃথক) হয় তবে তা সামগ্রিকভাবে তাৎপর্যপূর্ণ?
a11msp

1
হ্যাঁ, দুটি স্তরের পদ্ধতির (দুটি পৃথক মডেলের জেলম্যান পদ্ধতি) দুটি জনসংখ্যা ধরেছে, যা শূন্য এবং সেগুলি> ০. হাইপোথিসিস পরীক্ষাগুলি সম্পর্কে, আপনি কি ইনপুটগুলির বিভিন্ন স্তরের জন্য পূর্বাভাসিত মানগুলির শর্তে ফ্রেম তৈরি করতে পারেন এবং অনুশীলনমূলক নির্মাণ করতে পারেন? প্রত্যেকের জন্য অনুকরণের সাথে সম্পর্কিত আস্থা অন্তর? গুণফলের জন্য অনুমানের পরীক্ষার জন্য!
বি_মিনার

2

ফ্লেচার পেপারের অনুরূপ দৃষ্টিভঙ্গি বিপণন পরীক্ষায় ব্যবহৃত হয়, যেখানে হস্তক্ষেপের প্রভাবগুলি (যেমন বিজ্ঞাপন হিসাবে) আমরা নির্বিচারে আলাদা করতে পারি (ক) ব্র্যান্ড কেনার সংখ্যার পরিবর্তন (অর্থাত্ শূন্যের অনুপাত) এবং (খ) a ব্যান্ড কেনার ফ্রিকোয়েন্সি পরিবর্তন (বিক্রয় প্রদত্ত বিক্রয় আদৌ ঘটে)। এটি একটি দৃ approach় পদ্ধতির এবং বিপণন প্রসঙ্গে এবং বাস্তুতান্ত্রিক প্রসঙ্গে ফ্ল্যাচার আলোচনা করার জন্য ধারণাগতভাবে অর্থবহ। আসলে, এটি প্রতিটি ক্রয়ের আকারের পরিবর্তিত (গ) পর্যন্ত বাড়ানো যেতে পারে।


ধন্যবাদ! আমি ভাবছি আপনি যদি এটির কোনও বিদ্যমান r বাস্তবায়ন সম্পর্কে অবগত হন?
a11msp

1

আপনি শূন্যের সঠিক সংখ্যাটি অজানাতে চিকিত্সা করতে পারেন, তবে 0 এবং পর্যবেক্ষণ শূন্যের মধ্যে সীমাবদ্ধ। এটি অবশ্যই মডেলটির একটি বায়েশিয়ান সূত্র ব্যবহার করে পরিচালনা করা যেতে পারে। শূন্য পর্যবেক্ষণের ওজন (0 এবং 1 এর মধ্যে) যথাযথভাবে পরিবর্তনের জন্য একাধিক অভিব্যক্তির পদ্ধতিতেও টুইট করা যেতে পারে…

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.