কিছুটা পর্যবেক্ষণ করে, আমার প্রায় দশ মিলিয়ন রেকর্ড রয়েছে যা প্রায় দশ বছর ব্যাপী একটি সিস্টেমে মানুষের প্রবেশের সময় এবং প্রস্থান সময় রেকর্ড করে। প্রতিটি রেকর্ডে একটি প্রবেশের সময় থাকে তবে প্রতিটি রেকর্ডের প্রস্থান সময় হয় না। সিস্টেমে গড় সময় ~ 1 বছর।
নিখোঁজ প্রস্থান দুটি কারণে ঘটে:
- ডেটা ক্যাপচারের সময় সেই ব্যক্তি সিস্টেমটি ত্যাগ করেনি।
- ব্যক্তির প্রস্থান সময় রেকর্ড করা হয়নি। এটি রেকর্ডের 50% বলার জন্য ঘটে
আগ্রহের প্রশ্নগুলি হ'ল:
- লোকেরা কি সিস্টেমে কম সময় ব্যয় করছে এবং কতটা কম সময় নিচ্ছে।
- আরও প্রস্থান সময় রেকর্ড করা হয়, এবং কত।
আমরা এটি বলে এই মডেল করতে পারি যে প্রস্থানটি রেকর্ড হওয়ার সম্ভাবনা সময়ের সাথে সামঞ্জস্যভাবে পরিবর্তিত হয় এবং সিস্টেমের সময়টিতে একটি ওয়েবুল থাকে যার পরামিতি সময়ের সাথে সামঞ্জস্যপূর্ণ হয় vary তারপরে আমরা বিভিন্ন পরামিতিগুলির সর্বাধিক সম্ভাবনার প্রাক্কলন করতে পারি এবং ফলাফলগুলি চোখের ছোঁয়াতে এবং সেগুলি প্রশংসনীয় বলে মনে করি। আমরা ওয়েইবুল বিতরণটি বেছে নিয়েছিলাম কারণ এটি মনে হয় যা জীবনকাল মাপতে ব্যবহৃত হয় এবং গামা বিতরণ করার চেয়ে ডেটা ফিট করার পক্ষে বিপরীতভাবে বলতে মজা লাগে।
এটি কীভাবে সঠিকভাবে করা যায় তার একটি সন্ধান পেতে আমার কোথায় নজর দেওয়া উচিত? আমরা কিছুটা গাণিতিকভাবে জ্ঞান, তবে চূড়ান্ত পরিসংখ্যানগতভাবে জ্ঞান নই।