আমার কাছে নির্দ্বিধায় একটি মোটামুটি সোজা ফরোয়ার্ড সমস্যা বলে মনে হয়েছিল যা গণনা উপাত্তের অনেকগুলি সেটের জন্য আউটলেট সনাক্তকরণের সাথে জড়িত। বিশেষত, আমি নির্ধারণ করতে চাই যে গণনা উপক্রমের একটি সিরিজের এক বা একাধিক মান বিতরণের বাকি গণনাগুলির তুলনায় প্রত্যাশার চেয়ে বেশি বা কম if
বিস্ময়কর কারণটি হ'ল আমার ৩,৫০০ বিতরণের জন্য এটি করা দরকার এবং সম্ভবত তাদের মধ্যে কিছুগুলি একটি শূন্য স্ফীত অতিরিক্ত পরিমাণে পোষাগুলির সাথে মানিয়ে যাবে, অন্যরা হয়ত নেতিবাচক দ্বিপদী বা জেডআইএনবি ফিট করতে পারে, অন্যদিকে সাধারণত অন্যদের বিতরণ করা যেতে পারে। এই কারণে, ডেটাসেটের বেশিরভাগ ক্ষেত্রে সাধারণ জেড স্কোর বা বিতরণের প্লট করা উপযুক্ত নয়। এখানে গণনা সম্পর্কিত ডেটার একটি উদাহরণ রয়েছে যার জন্য আমি বিদেশীদের সনাক্ত করতে চাই।
counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0
0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0
2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14
15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15
15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.
প্রাথমিকভাবে আমি ভেবেছিলাম আমার পাইথন বা আর তে একটি লুপ লিখতে হবে যা প্রতিটি বিতরণে একটি সেট মডেল প্রয়োগ করতে পারে এবং এআইসি বা অন্যান্য অনুসারে সেরা ফিটিং মডেল নির্বাচন করতে পারে (সম্ভবত আরডি মধ্যে ফিটডিসট্রপ্লাস?)। তারপরে আমি জিজ্ঞাসা করতে পারি প্রদত্ত বিতরণের জন্য কী কী চূড়ান্ত ছিল (লেজগুলিতে যে সংখ্যাগুলি পড়ে eg তবে, আমি নিশ্চিত নই যে এটি একটি বৈধ কৌশল, এবং এটি আমার কাছে ঘটেছিল কাউন্টের ডেটাতে বিদেশীদের নির্ধারণের জন্য একটি সহজ পদ্ধতি থাকতে পারে যার সম্পর্কে আমি অবগত ছিলাম না। আমি যে পরিমাণ বিতরণ দেখতে চাই তার সংখ্যার দিক দিয়ে আমি বিস্তৃত অনুসন্ধান করেছি এবং আমার সমস্যার জন্য উপযুক্ত বলে মনে করি না।
আমার চূড়ান্ত লক্ষ্য হ'ল সর্বাধিক পরিসংখ্যানগতভাবে উপযুক্ত পদ্ধতি ব্যবহার করে গণনাগুলির প্রতিটি বিতরণের জন্য একটি গণনায় উল্লেখযোগ্য বৃদ্ধি বা হ্রাস সনাক্ত করা।