প্রশিক্ষণ, পরীক্ষা, বেঁচে থাকার বিশ্লেষণ সমস্যায় বৈধতা দেওয়া

14

আমি এখানে বিভিন্ন থ্রেড ব্রাউজ করছি, তবে আমার সঠিক প্রশ্নের উত্তর দেওয়া হয়েছে বলে আমি মনে করি না।

আমার কাছে ~ 50,000 শিক্ষার্থীর একটি ডেটাসেট এবং ড্রপ আউট করার সময়। আমি প্রচুর সংখ্যক সম্ভাব্য কোভেরিয়েটদের সাথে আনুপাতিক বিপদ সংক্ষিপ্তকরণ সম্পাদন করতে যাচ্ছি। আমি ড্রপআউট / থাকার বিষয়ে লজিস্টিক রিগ্রেশনও করতে যাচ্ছি The মূল লক্ষ্যটি হবে নতুন নতুন শিক্ষার্থীদের জন্য ভবিষ্যদ্বাণী।

সাধারণত, আমার কাছে ডেটাগুলির মতো বিলাসিতা নেই এবং কোনও ধরণের দণ্ডের সাথে মডেল ফিটিং করি না, তবে এবার আমি ভাবা হয়েছিল প্রশিক্ষণ ও পরীক্ষার ডেটা সেটগুলি বিভক্ত করা এবং তারপরে প্রশিক্ষণের সেটটিতে পরিবর্তনশীল নির্বাচন করা; তারপরে পরামিতি এবং ভবিষ্যদ্বাণীমূলক ক্ষমতা অনুমানের জন্য পরীক্ষার ডেটা সেট ব্যবহার করে।

এটা কি ভাল কৌশল? তা না হলে এর থেকে ভাল আর কী?

উদ্ধৃতি স্বাগত তবে প্রয়োজনীয় নয়।

cross-validation survival train

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

8

$n > 20,000$

— ফ্র্যাঙ্ক হ্যারেল
সূত্র

ধন্যবাদ। আপনি 80-20 সুপারিশ করবেন? 90-10? অন্যকিছু? এই সম্পর্কে কোন রেফারেন্স?

— পিটার ফ্লুম - মনিকা পুনরায়

2

n

$n$

3

ক্রস-বৈধকরণের বেঁচে থাকার পূর্বাভাসের অনুরূপ কাজের জন্য আমি এই কাগজটি নিজেই দেখছি । ভাল বিট অধ্যায় 2 এ শুরু।

— Cam.Davidson.Pilon
সূত্র

এটি মডেল সিভি ভিত্তিক অনুমানের সাথে 5 ভাড়ার তুলনা করে বলে মনে হয় (এবং এটি 5 টি ভাঁজ আরও ভাল। তবে আমি কেবল মাত্র 2 ভাগে ডেটা বিভক্ত করতে এবং অন্যটি বৈধ করার জন্য একটি ব্যবহার করতে আগ্রহী ছিল।

— পিটার ফ্লুম - মনিকা পুনরায়

1

আমি এটি থেকে কীভাবে নেমে এসেছি এবং কেন মূলত আমি এই কাগজটির প্রতি আকৃষ্ট হয়েছিলাম, কীভাবে বেঁচে থাকার পূর্বাভাসে সেন্সরশিপ মোকাবেলা করতে হবে, অর্থাত কী ক্ষতির ফাংশন ব্যবহার করতে হবে (যদিও আপনার প্রশ্নটি পুনরায় পড়া, আপনার কাছে সেন্সরশিপ নাও থাকতে পারে)।

— ক্যাম.ড্যাভিডসন.পিলন

আমার সেন্সরশিপ আছে এবং গবেষণামূলক প্রবন্ধটি আকর্ষণীয়, তবে এটি আমার প্রশ্নের উত্তর নয়, আমি ভাবি না।

— পিটার ফ্লুম - মনিকা পুনরায়

1

আমি তখন থেকে এই কাগজটি পেয়েছি যা কেবলমাত্র আমার প্রশ্নের উত্তর দেয় না, তবে নির্দিষ্ট ডেটা সেটগুলির জন্য অনুকূল বিভাজনটি সনাক্ত করার জন্য একটি পদ্ধতি সরবরাহ করে। @ ফ্র্যাঙ্কহারেলের "সর্বোত্তম বিভাজন কনফিগারেশন" শব্দটি ব্যবহার করার জন্য আমি এই ধন্যবাদটি পেয়েছি যা আমি তখন গুগলড করেছিলাম।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

2

পিটার আমি মনে করি যে কাগজটি একটি অনুচিত স্কোরিং নিয়ম ব্যবহার করেছে। সঠিক স্কোরিং নিয়ম ব্যবহার করার সময় বিভিন্ন ফলাফল পাওয়া যেতে পারে। এছাড়াও, কাগজ বিশ্লেষণের "অস্থিরতা" সম্বোধন করে না। ছোট ছোট নমুনার আকারগুলি সেখানে বিবেচনা করা হয়েছে, আলাদা আলাদা এলোমেলো স্প্লিট ব্যবহার করে প্রক্রিয়াটি পুনরাবৃত্তি করার ফলে প্রথম বিভক্তির তুলনায় অনেকগুলি ভিন্ন মডেল এবং অনেক আলাদা নির্ভুলতার ফলস্বরূপ। আমি এটি দেখতে খুব অনাকাঙ্ক্ষিত।

— ফ্রাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহারেল: আমি আপনার বক্তব্যটি দেখছি এবং এটি সত্যই একটি খুব ভাল বিষয়। তাহলে আপনি কি করার পরামর্শ দিচ্ছেন? পেমফর্ম মন্টি কার্লো ট্রেনের পরীক্ষা / পরীক্ষা বিভক্ত হয় এবং তারপরে প্রতিটি রানে ix কে-ফোল্ডস সিভি (বা বুটস্ট্র্যাপিং) হয়? তবে তারপরে এটি পুরো ডেটাসেটকে দূষিত করবে .... আমি ডেটাসেটকে ট্রেন ও পরীক্ষার সেটে বিভক্ত করার উপযুক্ত উপায় খুঁজে বের করার চেয়ে ভাল সমাধান আর দেখতে পাচ্ছি না (মানদণ্ডটি কী হবে?) আমি কেবল সমস্তটি ব্যবহার করেই উপযুক্ত নই প্রশিক্ষণের জন্য ডেটাসেট (সিভি বা বুট ব্যবহার করে) মডেলগুলি (যা থেকে একটি (বা বেশ কয়েকটি) কিছু ইনপুট ডেটার ভিত্তিতে অজানা আউটপুট মানগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হবে)।

— jpcgandre

আমি সম্বোধন করেছি পোস্টটিতে আপনি কেবল একটি অন্য বিষয়ের পৃষ্ঠাতে রেখেছেন।

— ফ্রাঙ্ক হ্যারেল