যদি পইসন না হয় তবে এটি কী বিতরণ?


11

আমার কাছে একটি ডেটা সেট রয়েছে যা 7 দিনের মধ্যে ব্যক্তিদের দ্বারা সম্পাদিত ক্রিয়াকলাপগুলির সংখ্যার সমন্বয় করে। নির্দিষ্ট ক্রিয়াটি এই প্রশ্নের জন্য প্রাসঙ্গিক হওয়া উচিত নয়। ডেটা সেট করার জন্য এখানে কিছু বর্ণনামূলক পরিসংখ্যান রয়েছে:

পরিসর0-772মিন18.2অনৈক্য2791পর্যবেক্ষণ সংখ্যা696

এখানে ডেটাগুলির একটি হিস্টগ্রাম রয়েছে: ক্রিয়া হিস্টগ্রাম

তথ্যের উত্স থেকে বিচার করে, আমি অনুভব করেছি যে এটি কোনও পয়েসন বিতরণের উপযুক্ত। যাইহোক, গড় ≠ বৈকল্পিক এবং হিস্টোগ্রামটি ভারীভাবে বামদিকে ওজনযুক্ত। অতিরিক্তভাবে, আমি goodfitআর তে পরীক্ষা চালিয়েছি এবং পেয়েছি:

> gf <- goodfit(actions,type="poisson", method = "MinChisq") <br>
> summary(gf) <br>
Goodness-of-fit test for poisson distribution <br>
X^2                   df         P(> X^2) <br>
Pearson 2.937599e+248 771        0  

সর্বাধিক সম্ভাবনা পদ্ধতিতে পি-মান = 0ও পাওয়া যায় নাল অনুমানটি ধরে নেওয়া: ডেটা একটি পয়েসন বিতরণের সাথে মিলে যায় (ডকুমেন্টেশন এটি সুনির্দিষ্ট করে না), তারপরে goodfitপরীক্ষাটি বলে যে আমাদের নাল অনুমানটি বাতিল করা উচিত, অতএব তথ্যটি দেয় না একটি পয়সন বিতরণ মেলে।

এটা কি বিশ্লেষণ সঠিক? যদি তা হয় তবে আপনার কাছে কি বিতরণ এই ডেটা মাপসই করবে বলে মনে করেন?

আমার চূড়ান্ত লক্ষ্যটি হল 2 টি নমুনার মধ্যে ক্রিয়াকলাপের গড় সংখ্যার সাথে তুলনা করা এটি দেখার জন্য যে উপায়গুলি আলাদা কিনা; বিতরণ এমনকি চেক করা প্রয়োজন? আমার বোঝার সাধারণ পরীক্ষাগুলি (জেড-, টি-, পরীক্ষা) পোইসন বিতরণের জন্য কাজ করে না। ডেটা সত্যই যদি পয়সন-বিতরণ করা হয় তবে আমার কোন পরীক্ষা করা উচিত?χ2


আপনি ইতিমধ্যে নেতিবাচক দ্বিপদী চেষ্টা করেছেন? এই সাহায্য করেছে?
রিক

@ রিচার্ড, আমি নেতিবাচক দ্বিপদী চেষ্টা করেছি, এবং এটি খাপ খায়নি। পরামর্শের জন্য ধন্যবাদ যদিও। এটি কী ধরণের বিতরণ ছিল তা আমি বুঝতে পারি না, তাই আমি বিতরণটিকে উপেক্ষা করে একটি মান-হুইটনি ইউ পরীক্ষা না করেই প্যারামিমেট্রিক পরীক্ষা দিয়ে যাওয়ার সিদ্ধান্ত নিয়েছি।
ডকুক

নেগ বিন সম্পর্কে আরও একটি মন্তব্য ইন en.wikipedia.org/wiki/Negative_binomial_distribution আপনি কি বোঝাতে চেয়েছেন জন্য সূত্র এবং ভ্যারিয়েন্স এবং দেখতে । এরকম কি কোনও বোঝায়? যদি তা না হয় তবে আরও আরও প্রমাণ রয়েছে যে নেগ বিন এখানে একটি ভাল মডেল নয় (যদি আমরা এই মুহুর্তের অনুমানগুলিতে বিশ্বাস করি)। পিমিএকটিএন/বনামএকটিRআমিএকটিএন=1-পিপি
রিক

আমি মনে করি না যে আমার ক্ষেত্রে বার্নোল্লি বিচারের ধারণাটি প্রযোজ্য। সাফল্য বা ব্যর্থতার কোনও ধারণা নেই; বিষয়গুলি হয় আগ্রহের ক্রিয়াটি কার্যকর করে অথবা তারা তা করে না। তারা চেষ্টা করে না এবং ব্যর্থ হয় না। সুতরাং, সাফল্যের সম্ভাবনার ধারণাটি বোধগম্য নয়। যদি না বিচার সময়ের একক হয়। তবে তারপরে সময়টিকে একাধিক ক্রিয়াকলাপ সম্পাদন থেকে বিষয়টিকে আটকাতে কিছুই নেই।
c

আপনার ডেটা কীভাবে ব্যাখ্যা করা যায় তা আপনি ভাল জানেন। আমি আপনাকে কেবল নেগ.বিন মনে করিয়ে দিতে চাইছিলাম। পয়সন মিশ্রণ হিসাবে উত্থাপিত হয়েছে (যদি গামা-বিতরণ অনুসরণ করে সুতরাং কেউ ক্ষেত্রে যেমন একইভাবে ব্যাখ্যা করতে পারে But তবে আমি আপনাকে জোর করতে চাই না :)। আরও একটি মন্তব্য: বিষয়টি যদি এক সময়ের পয়েন্টে একাধিক ক্রিয়া সম্পাদন করতে পারে: তবে তা কি যৌগিক পোইসন / নেগবিন হতে পারে না? আপনি যদি এই বিষয়ে আরও মন্তব্য চান তবে আমাকে বলুন। মিএকটিএকটি
রিক

উত্তর:


8

যদি তারতম্যের গড়ের চেয়ে বেশি হয় তবে এটিকে ওভার-ডিসপ্রেসন বলা হয়। এটির জন্য একটি প্রাকৃতিক মডেল হ'ল negativeণাত্মক দ্বিপদী বিতরণ। এটি পইসন বিতরণ হিসাবেও দেখা যায় যেখানে প্যারামিটার ল্যাম্বদা গামা বিতরণ অনুসরণ করে। একটি প্রথম এবং সহজ পদক্ষেপ নেতিবাচক দ্বিপদী বিতরণ মাপসই হতে পারে।


5

যদি আপনার কাঁচা গণনার ডেটা পোইসন বিতরণের মতো না দেখায় তবে আপনি কিছু অনুপস্থিত। সম্ভবত ক্রিয়া সংখ্যা তাপমাত্রার উপর নির্ভরশীল, তাই গরমের দিনে মানুষ কম কাজ করে। তারপরে আপনার অধ্যয়নের সময়কালে তাপমাত্রার বৈচিত্র্য বিতরণকে প্রভাবিত করবে এবং এটিকে পোইসনহীন করবে।

যাইহোক, প্রতিটি ক্রিয়াকলাপের প্রতিদিন তাপমাত্রার উপর নির্ভর করে পইসন হতে পারে। যদি আপনার প্রতিদিন তাপমাত্রা থাকে তবে আপনি একটি জিএলএম করতে পারেন, তাপমাত্রার উপর নির্ভরশীল পোয়েসন ভেরিয়েবল হিসাবে ক্রিয়াকলাপের সংখ্যাটি আবার চাপিয়ে দিন। যদি এটি সুন্দরভাবে ফিট করে তবে কাজ শেষ।

আপনার যদি সম্ভাব্য ব্যাখ্যাযোগ্য ভেরিয়েবলগুলি না থাকে তবে আপনি যা বলতে পারেন তা হ'ল "অন্য কিছু চলছে - ক্রিয়াকলাপের সংখ্যা স্বাধীন পোইসন নমুনা থেকে নয়" - অর্থাৎ আপনার নাল অনুমানকে প্রত্যাখ্যান করুন।

বিতরণ-মুক্ত পরীক্ষা রয়েছে যা র‌্যাঙ্কিং এবং আরও কিছু ব্যবহার করে যুক্ত জোড় পর্যবেক্ষণের তুলনা করতে পারে। সাধারণত তারা প্রচুর পরিমাণে অনুমতি দেয় এবং একটি পরীক্ষার পরিসংখ্যান গণনা করে ...


4

আরও একটি জিনিস: আপনার গণনার ডেটাতেও বহিরাগতদের তদন্ত করা উচিত। আপনার 400 গিগাবাইটে একটি গণনা রয়েছে এবং তারপরে 800-ইশ অবধি কিছুই নেই। এটি সাধারণ মডেলের কোনওটির দ্বারা ফিট হওয়ার সম্ভাবনা নেই।


1

আপনি শূন্য ইভেন্টগুলির সংখ্যা গণনা করছেন বলে মনে হয় - যদি তাই হয় তবে আপনি একটি জিপ মডেল (বা বাধা) বিবেচনা করতে পারেন - একটি পর্যালোচনা করার জন্য জিলিয়াস এট আল দ্বারা আর-এ গণনা ডেটার জন্য রিগ্রেশন মডেলগুলি উল্লেখ করুন ।

মোটামুটি সংক্ষিপ্তসার হিসাবে, এই পদ্ধতিগুলি শূন্য গণনাগুলিকে মডেল করে বাকী গণনাগুলি থেকে পৃথক করে যা আপনার ক্ষেত্রে কার্যকর হতে পারে।

পড়ুন psclপ্যাকেজ এবং zeroinfl()এবং hurdle()ফাংশন।


1

আমি সন্দেহ করি যে আপনার হিস্টগ্রামটি প্রতারণামূলকভাবে বিনষ্ট হয়েছে। আপনার যদি 0-50 পরিসীমা জুড়ে 300 টির বেশি পর্যবেক্ষণ সমানভাবে ছড়িয়ে পড়ে তবে প্রায় 320 সমানভাবে 50-100 পরিসীমা জুড়ে ছড়িয়ে পড়ে এবং 50 বা তার বেশি 100 এরও বেশি হয়, আপনার গড়টি 18.2 এর চেয়ে বেশি হওয়া উচিত।

যদি 0-50 রেঞ্জের ডেটা সমানভাবে ছড়িয়ে না গেলেও শূন্যের কাছাকাছি কেন্দ্রীভূত হয় তবে 0-50 রেঞ্জের চেয়ে 50-100 রেঞ্জের মধ্যে আরও বেশি দেখা অবাক করার মতো।

সম্ভবত আপনার কাছে বিতরণের মিশ্রণ রয়েছে। আমি সন্দেহ করি যে সত্যিকারের 6৯6 টি পর্যবেক্ষণ ছাড়া এবং বিশেষত প্রসঙ্গে আরও কিছু না জেনে যে কেউ এগুলি দিয়ে অনেক কিছু করতে পারে doubt 696 টি পর্যবেক্ষণগুলির মধ্যে প্রতিটি কি পৃথক পৃথক এবং প্রতিক্রিয়া কি প্রতিটি পৃথক পদক্ষেপ নিয়েছে? যদি তা হয়, তবে ডেটাতে কি বিভিন্ন ধরণের ব্যক্তি রয়েছে?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.