আমি মন্থ সম্পর্কে পূর্বাভাস দেওয়ার জন্য একটি ভবিষ্যদ্বাণীমূলক মডেল তৈরি করতে এবং একজন ব্যক্তি-কাল প্রশিক্ষণ ডেটাসেটের সাথে লাগানো একটি পৃথক সময় বেঁচে থাকার মডেলটি ব্যবহার করার সন্ধান করছি (প্রতিটি গ্রাহকের জন্য একটি সারি এবং ঝুঁকিতে থাকা ইভেন্টের জন্য একটি সূচক সহ - 1 সমান যদি সেই সময়ের মধ্যে মন্থন ঘটে থাকে, অন্যথায় 0)।
- আমি সিঙ্গার এবং উইলেট থেকে কৌশলটি ব্যবহার করে সাধারণ লজিস্টিক রিগ্রেশন ব্যবহার করে মডেলটিকে ফিট করছি ।
- গ্রাহকের মন্থন এক মাসের মধ্যে যে কোনও জায়গায় ঘটতে পারে তবে কেবলমাত্র মাসের শেষের দিকে আমরা এটি সম্পর্কে জানতে পারি (অর্থাত্ সেই মাসের কিছু সময় তারা চলে গিয়েছিল)। 24 মাস প্রশিক্ষণের জন্য ব্যবহৃত হচ্ছে।
- যে পরিবর্তনশীলটি ব্যবহার করা হচ্ছে তা হ'ল নমুনার মূল সময় - 12/31/2008 হিসাবে সক্রিয় সমস্ত গ্রাহক - তারা সকলেই ২০০৯ সালের জানুয়ারী হিসাবে t = 0 পান (এটি করার ধ্রুপদী উপায় নয়, তবে আমি বিল্ডিংয়ের সময় সেই পথে বিশ্বাস করি) একটি ভবিষ্যদ্বাণীপূর্ণ মডেল বনাম একটি traditionalতিহ্যগত পরিসংখ্যানগুলির)। ব্যবহৃত একটি কোভারিয়্যাট হ'ল গ্রাহকের সময়কাল ten
কিছু সিরিজ রয়েছে যা নির্মিত হয়েছিল - এমন কিছু যা ডেটাসেটের সারি জুড়ে পরিবর্তন করে না (প্রদত্ত গ্রাহকের জন্য) এবং কিছু এটি করে।
এই সময়ের বৈকল্পিক covariates ইস্যু এবং কী কারণে আমাকে মন্থর পূর্বাভাসের জন্য বেঁচে থাকার মডেল নিয়ে প্রশ্ন তুলছে (নিয়মিত শ্রেণিবদ্ধের তুলনায় যা পরবর্তী স্নাপশট ডেটার উপর ভিত্তি করে পরবর্তী x মাসে মন্থকে পূর্বাভাস দেয়)। সময়-আক্রমণকারীরা কার্যকলাপটি মাসের আগে বর্ণনা করে এবং প্রত্যাশা করা হয় যে এটি গুরুত্বপূর্ণ ট্রিগার হবে।
কমপক্ষে আমার বর্তমান চিন্তার উপর ভিত্তি করে এই ভবিষ্যদ্বাণীমূলক মডেলটির বাস্তবায়ন হ'ল প্রতি মাসের শেষে গ্রাহক বেসকে স্কোর করা, পরের মাসের মধ্যে মন্থর সম্ভাবনা / ঝুঁকি গণনা করে। তারপরে আবার পরবর্তী 1,2 বা 3 মাসের জন্য। তারপরে পরবর্তী 1,2,3,4,5,6 মাসের জন্য। 3 এবং 6 মাসের মন্থর সম্ভাবনার জন্য, আমি আনুমানিক বেঁচে থাকা বক্ররেখা ব্যবহার করব।
সমস্যাটি:
যখন স্কোরিং সম্পর্কে চিন্তাভাবনা করার কথা আসে, আমি কীভাবে সময়-পরিবর্তিত ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করতে পারি? দেখে মনে হচ্ছে আমি কেবল সময়-আক্রমণকারী ভবিষ্যদ্বাণীদের সাথে স্কোর করতে পারি বা সময় আক্রমণকারীদের অন্তর্ভুক্ত করতে আপনাকে তাদের সময় অবিস্মরণীয় করতে হবে - "এখনই" মানটিতে সেট করুন set
বেঁচে থাকার মডেলটির ব্যবহার সম্পর্কে কারও অভিজ্ঞতা বা চিন্তাভাবনা আছে?
@ জেভিএম মন্তব্যের ভিত্তিতে আপডেট:
সমস্যাটি প্রশিক্ষণের ডেটা ব্যবহার করে আকর্ষণীয় কোভারিয়েট মানগুলির বিপদ / বেঁচে থাকার প্লটগুলি মডেলটি নির্ধারণ করা, গুণফলের ব্যাখ্যা করা, ঝুঁকি / বেঁচে থাকার প্লটগুলি তৈরি করা নয় a সমস্যাটি কোনও প্রদত্ত গ্রাহকের ঝুঁকি পূর্বাভাস দেওয়ার জন্য মডেলটি ব্যবহার করার ক্ষেত্রে। এই মাসের শেষে বলুন, আমি যারা এই মডেলটির সাথে এখনও সক্রিয় গ্রাহক তাদের প্রত্যেককে স্কোর করতে চাই। আমি এক্স পিরিয়ডগুলি নির্ধারণের ঝুঁকিটি পূর্বাভাস করতে চাই (পরবর্তী মাসের শেষে অ্যাকাউন্টটি বন্ধ করার ঝুঁকি now এখন থেকে দুই মাসের শেষে অ্যাকাউন্টটি বন্ধ করার ঝুঁকি ইত্যাদি)। যদি সময় বিভিন্ন পরিবর্তিত হয়, তাদের মানগুলি ভবিষ্যতের কোনও সময়ের বাইরে অজানা, তবে কীভাবে মডেলটি ব্যবহার করবেন?
চূড়ান্ত আপডেট:
একজন ব্যক্তির পিরিয়ড ডেটা সেট প্রতিটি ব্যক্তির জন্য একটি প্রবেশিকা থাকবে এবং প্রতিটি সময়কাল তারা ঝুঁকিতে রয়েছে। বলুন এখানে জে সময়কাল রয়েছে (সম্ভবত জে = 1 ... 24 মাসের জন্য 24) বলা যাক আমি একটি বিচ্ছিন্ন সময় বেঁচে থাকার মডেল তৈরি করি, যেখানে সরলতার জন্য আমরা কেবল সময়কে রৈখিক হিসাবে বিবেচনা করি এবং এক্স এবং জে যেখানে দুটি সময় রয়েছে দুটি কোভারিয়েট রয়েছে -বিভাজন, অর্থ এটি আইথ ব্যক্তির জন্য প্রতিটি পিরিয়ডে ধ্রুবক এবং জেড সময় পরিবর্তিত হয়, যার অর্থ আইথ ব্যক্তির জন্য প্রতিটি রেকর্ড পৃথক মান গ্রহণ করতে পারে। উদাহরণস্বরূপ, এক্স গ্রাহকদের লিঙ্গ হতে পারে এবং জেড হতে পারে তারা আগের মাসে সংস্থার পক্ষে কতটা মূল্যবান ছিল। জেথ সময়কালীন ইথ ব্যক্তির জন্য বিপদের লগিটের মডেলটি হ'ল:
সুতরাং সমস্যাটি হ'ল নতুন ডেটা সহ সময় পরিবর্তিত বিভিন্ন কোভারিয়েটগুলি এবং পূর্বাভাস (এখনও অদৃশ্য ভবিষ্যতে) ব্যবহার করার সময় অজানা।
আমি ভাবতে পারি একমাত্র সমাধান:
- জেডের মতো বিভিন্ন পরিবর্তিত সময়কে ব্যবহার করবেন না। এটি মন্থনের ঘটনাটির পূর্বাভাস দেওয়ার জন্য মডেলটিকে ব্যাপকভাবে দুর্বল করবে যদিও উদাহরণস্বরূপ, জেডের হ্রাস দেখে আমাদের বলতে হবে গ্রাহক বিচ্ছিন্ন হয়ে পড়ছেন এবং সম্ভবত চলে যাওয়ার প্রস্তুতি নিচ্ছেন।
- বিভিন্ন পরিবর্তিত কোভারিয়েট ব্যবহার করুন তবে সেগুলি পিছিয়ে দিন (যেমন জেড উপরে ছিল) যা আমাদের বেশিরভাগ সময়কালের মধ্যে চলকটি পিছিয়ে রেখেছি (আবার নতুন মডেলটিকে নতুন বর্তমান ডেটা স্কোর করার চিন্তাভাবনা করে) অনুমান করতে দেয়।
- বিভিন্ন পরিবর্তিত সময়কে ব্যবহার করুন তবে তাদের পূর্বাভাসের ধ্রুবক হিসাবে রাখুন (সুতরাং মডেলটি বিভিন্ন উপাত্তের জন্য উপযুক্ত করা হয়েছিল তবে পূর্বাভাসের জন্য আমরা তাদের ধ্রুবক রেখেছি এবং অনুকরণ করি যে কীভাবে এই মানগুলির পরিবর্তনগুলি পরে পর্যবেক্ষণ করা হয়, মন্থনের ঝুঁকিকে প্রভাবিত করবে)।