হারানো ডেটা সহ বেঁচে থাকার মডেলটি উপযুক্ত কিনা তা আমি কীভাবে নির্ধারণ করব?


9

কিছুটা পর্যবেক্ষণ করে, আমার প্রায় দশ মিলিয়ন রেকর্ড রয়েছে যা প্রায় দশ বছর ব্যাপী একটি সিস্টেমে মানুষের প্রবেশের সময় এবং প্রস্থান সময় রেকর্ড করে। প্রতিটি রেকর্ডে একটি প্রবেশের সময় থাকে তবে প্রতিটি রেকর্ডের প্রস্থান সময় হয় না। সিস্টেমে গড় সময় ~ 1 বছর।

নিখোঁজ প্রস্থান দুটি কারণে ঘটে:

  1. ডেটা ক্যাপচারের সময় সেই ব্যক্তি সিস্টেমটি ত্যাগ করেনি।
  2. ব্যক্তির প্রস্থান সময় রেকর্ড করা হয়নি। এটি রেকর্ডের 50% বলার জন্য ঘটে

আগ্রহের প্রশ্নগুলি হ'ল:

  1. লোকেরা কি সিস্টেমে কম সময় ব্যয় করছে এবং কতটা কম সময় নিচ্ছে।
  2. আরও প্রস্থান সময় রেকর্ড করা হয়, এবং কত।

আমরা এটি বলে এই মডেল করতে পারি যে প্রস্থানটি রেকর্ড হওয়ার সম্ভাবনা সময়ের সাথে সামঞ্জস্যভাবে পরিবর্তিত হয় এবং সিস্টেমের সময়টিতে একটি ওয়েবুল থাকে যার পরামিতি সময়ের সাথে সামঞ্জস্যপূর্ণ হয় vary তারপরে আমরা বিভিন্ন পরামিতিগুলির সর্বাধিক সম্ভাবনার প্রাক্কলন করতে পারি এবং ফলাফলগুলি চোখের ছোঁয়াতে এবং সেগুলি প্রশংসনীয় বলে মনে করি। আমরা ওয়েইবুল বিতরণটি বেছে নিয়েছিলাম কারণ এটি মনে হয় যা জীবনকাল মাপতে ব্যবহৃত হয় এবং গামা বিতরণ করার চেয়ে ডেটা ফিট করার পক্ষে বিপরীতভাবে বলতে মজা লাগে।

এটি কীভাবে সঠিকভাবে করা যায় তার একটি সন্ধান পেতে আমার কোথায় নজর দেওয়া উচিত? আমরা কিছুটা গাণিতিকভাবে জ্ঞান, তবে চূড়ান্ত পরিসংখ্যানগতভাবে জ্ঞান নই।

উত্তর:


5

যদি আপনার ডেটা WEIBULL হল মৌলিক উপায় দেখতে প্লটে বিভক্ত সময়ের লগ বনাম ক্রমসঞ্চিত বিপদ লগ কর এবং দেখ যদি একটি সরল রেখা সুযোগ্য হতে পারে। ক্রমহ্রাসমান বিপত্তিটি নন-প্যারাম্যাট্রিক নেলসন-অ্যালেন অনুমানকারী ব্যবহার করে পাওয়া যাবে। ওয়েভুল রিগ্রেশন-এর জন্য অনুরূপ গ্রাফিকাল ডায়াগনস্টিকস রয়েছে যদি আপনি আপনার ডেটা কোভারিয়েটগুলির সাথে ফিট করেন এবং কিছু রেফারেন্স অনুসরণ করেন।

ক্লেইন ও Moeschberger টেক্সট বেশ ভাল এবং স্থিতিমাপ ও আধা স্থিতিমাপ মডেলের জন্য মডেল বিল্ডিং / ডায়গনিস্টিক দিয়ে মাটিতে অনেক (যদিও বেশিরভাগ আধুনিক) জুড়ে। আপনি যদি আর-তে কাজ করছেন, থিনিওর বইটি বেশ ভাল (আমার বিশ্বাস তিনি বেঁচে থাকার প্যাকেজটি লিখেছেন )। এটি প্রচুর কক্স পিএইচ এবং সম্পর্কিত মডেলগুলিকে কভার করে, তবে এটির যে প্যারামেট্রিক মডেলগুলির আপনি তৈরি করছেন তার মতো কভারেজ থাকলে তা আমি মনে করতে পারি না।

বিটিডাব্লু, এই কি এক মিলিয়ন বিষয় এক একটি এন্ট্রি / প্রস্থান বা পুনরাবৃত্তি এন্ট্রি / প্রস্থান ইভেন্ট কিছু ছোট ছোট পুলের জন্য? আপনি কি সেন্সরিং প্রক্রিয়াটির জন্য অ্যাকাউন্টিং করার সম্ভাবনাটি কন্ডিশনিং করছেন?


ধন্যবাদ, আমি যা খুঁজছিলাম ঠিক এটিই। এটি প্রবেশ ও প্রস্থান সময় সহ প্রতিটি মিলিয়ন মিলিয়ন বিষয়। হ্যাঁ আমরা সেন্সর অ্যাকাউন্টে কন্ডিশনার করছি are
deinst

2

আপনি আপনার সিস্টেমের সমস্ত লোকের জন্য প্রস্থান করার সময়টির পূর্বাভাস দেওয়ার জন্য আনুমানিক মডেলটি ব্যবহার করতে পারেন। এর পরে আপনি যেমন প্রকৃত প্রস্থান বার (যেখানে আপনি এই তথ্য আছে) সঙ্গে আনুমানিক প্রস্থান বার তুলনা পারে এবং গনা একটি মেট্রিক যেমন RMSE মূল্যায়ন করার কিভাবে ভাল আপনার ভবিষ্যৎবাণী যা আবার করবে মডেল হইয়া একটা ধারনা দিতে হয়। এই লিঙ্কটি দেখুন


1
মিলন পয়েন্ট এবং একটি 8 পরামিতি মডেল সহ, চি-স্কোয়ারের মতো ফিটের পরীক্ষার একটি সদ্ব্যয় আমাকে বলে যে মডেলটি সঠিক হওয়ার কোনও সম্ভাবনা নেই। (যা অবাক হওয়ার মতো কিছু নয়, কারণ মডেলটিতে নেই এমন বাস্তবের উপর প্রভাব ফেলছে এমন অন্তহীন কারণ রয়েছে) আরএমএসই আমাকে মডেলটি কতটা ভাল ফিট করে তা বোঝায়, তবে এর চেয়ে আরও ভাল মডেল রয়েছে কিনা তা আমাকে বোঝায় না
দিন

আরও ভাল মডেল আছে কিনা তা জানতে, আপনি হয় বিভিন্ন ফর্মুলেশনের সাথে পরীক্ষা করতে পারেন বা আপনি বিভিন্ন প্লট (উদাহরণস্বরূপ, প্রস্থান সময় বনাম) ব্যবহার করতে পারেন তা দেখতে আপনার মডেল অনুমানের সাথে ডেটা সামঞ্জস্যপূর্ণ কিনা। আপনি মডেল উন্নয়নের ধারণাগুলির জন্য এলোমেলোভাবে ভিজ-এ-ভিসের আসল সময়গুলিতে নির্বাচিত একটি ছোট নমুনার জন্য পূর্বাভাসযুক্ত প্রস্থান সময়ও প্লট করতে পারেন।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.