আমার ডেটাসেটে প্রতিটি রেকর্ডের জন্য আমার কাছে নিম্নলিখিত তথ্য রয়েছে
যেখানে বৈশিষ্ট্যগুলি রয়েছে, লক্ষ্য ইভেন্টটি ঘটলে 1 হয় এবং অন্যথায় 0 হয়, এবং ঘটে যাওয়া ইভেন্টটির টাইমস্ট্যাম্প। বিশেষত, কোনও ইভেন্ট না থাকলে বা ফলো-আপ শেষ হওয়ার সময় নির্ধারণ করা হলে অনুপস্থিত হতে পারে।
আমি আমার ডেটাসেটের প্রতিটি রেকর্ডের জন্য একটি ঝুঁকি সূচক গণনা করতে চাই।
আমি ক্লাসিফিকেশন মডেলটির জন্য যাবার কথা ভাবছিলাম যা ক্লাস- সম্পর্কে ভবিষ্যদ্বাণী করতে বৈশিষ্ট্যগুলি ব্যবহার করে । তবে, গুরুত্বপূর্ণ: ইভেন্ট শিগগিরই হওয়ার সম্ভাবনা থাকলে ঝুঁকি বেশি হওয়া উচিত।
এ কারণেই এই সমস্যার জন্য বেঁচে থাকার বিশ্লেষণ উপযুক্ত হওয়া উচিত। আমার এর সম্পূর্ণ অনুমানের দরকার নেই তবে কেবল একটি একক সূচি যা একক রেকর্ডের জন্য ঝুঁকি উপস্থাপন করে।
বেঁচে থাকার গড় সময়, যা প্রতিটি রেকর্ডের জন্য গণনা করা যায়, একটি দুর্দান্ত ঝুঁকি সূচক বলে মনে হয় - ঝুঁকি যত কম থাকে।
আমার প্রশ্ন হ'ল:
- বেঁচে থাকার বিশ্লেষণটি কি আমার উদ্দেশ্যে উপযুক্ত?
- আমি কীভাবে আমার মডেলটির পারফরম্যান্স মূল্যায়ন করতে পারি?
প্রশ্ন (2) সম্পর্কে: উদাহরণস্বরূপ হ্যারেলের ইন্ডেক্সটি ব্যবহার করতে আমি আগ্রহী , তবে কোনটি পূর্বাভাসের ফলাফলটি গণনা করতে ব্যবহৃত হয়েছিল তা সম্পর্কে আমি নিশ্চিত নই। হ্যারেলের বইয়ের রেগ্রেশন মডেলিং কৌশলগুলি পৃষ্ঠা 247 থেকে:
সূচক [...] বিষয় সব সম্ভব জোড়া গ্রহণ যেমন যে এক বিষয় সাড়া এবং অন্যান্য নি দ্বারা নির্ণয় করা হয়। সূচকটি হ'ল প্রতিক্রিয়ারের সাথে এই জাতীয় জুটির অনুপাত হ'ল প্রতিক্রিয়াবিহীন প্রতিক্রিয়াটির চেয়ে বেশি প্রতিক্রিয়ার সম্ভাবনা থাকে।
যদি বেঁচে থাকার বিশ্লেষণটি সঠিক পছন্দ হিসাবে প্রমাণিত হয় তবে আমার মনে হয় সময় পরিবর্তিত কোভারিয়েট প্রবর্তনের জন্য কিছু মানক পদ্ধতি ব্যবহার করা সহজ হওয়া উচিত ।