আমি কি আমার ডেটা আবার বদল করব?


9

আমাদের কাছে একটি সেট জৈবিক নমুনা রয়েছে যা অর্জন করা বেশ ব্যয়বহুল ছিল। ভবিষ্যদ্বাণীমূলক মডেল গঠনের জন্য ব্যবহৃত ডেটা উত্পন্ন করতে আমরা এই নমুনাগুলি একাধিক পরীক্ষার মাধ্যমে রাখি। এই উদ্দেশ্যে আমরা নমুনাগুলি প্রশিক্ষণ (70%) এবং পরীক্ষার (30%) সেটগুলিতে বিভক্ত করেছি। আমরা সাফল্যের সাথে একটি মডেল তৈরি করেছি এবং পরীক্ষার সেটটিতে এটি প্রয়োগ করেছি যাতে পারফরম্যান্স "অনুকূল থেকে কম" হয়। পরীক্ষাগারীরা এখন আরও ভাল একটি মডেল তৈরি করতে জৈবিক পরীক্ষাগুলি উন্নত করতে চান। তবে শর্ত থাকে যে আমরা নতুন নমুনা পেতে পারি না, আপনি কী আমাদের নতুন প্রশিক্ষণ এবং বৈধতা সেট তৈরি করতে বা মূল বিভাগের সাথে লেগে থাকার জন্য নমুনাগুলিকে পুনরায় বদল করতে পরামর্শ দিন? (বিভাগটি একটি সমস্যাযুক্ত যে আমাদের কোনও ইঙ্গিত নেই)।


1
আপনি কীভাবে ডেটা ভাগ করলেন? এলোমেলোভাবে, হাতে, বা অন্য কোনও পদ্ধতিতে? যদিও সত্য, "সাফল্যের সাথে একটি মডেল তৈরি করা" সম্পর্কে অংশটি ইস্যুটির অনেক বড় অংশ। ব্যয়বহুল জিনিসগুলি করার আগে, আপনি দেখতে পাচ্ছেন যে আপনি উপযুক্ত ধরণের মডেলটি ব্যবহার করছেন, যদি আপনি আপনার প্রশিক্ষণের ডেটা বেশি উপভোগ করেন এবং আপনি কী পূর্বাভাস দেওয়ার চেষ্টা করছেন তার জন্য উপযুক্ত ডেটা রয়েছে কিনা।
ওয়েইন

বিটিডাব্লু, "সাফল্যের সাথে একটি মডেল তৈরি করার আগে" আমি
দুর্বোধ্য

উত্তর:


12

আপনি ইতিমধ্যে একটি হোল্ডআউট নমুনা ব্যবহার করার কারণে, আমি বলতে চাই যে আপনি এটি রাখা উচিত এবং আপনার নতুন মডেলগুলি একই প্রশিক্ষণের নমুনায় তৈরি করা উচিত যাতে সমস্ত মডেল বৈশিষ্ট্যের মধ্যে একই সম্পর্ক বিবেচনা করে। এছাড়াও, আপনি যদি বৈশিষ্ট্য নির্বাচন সম্পাদন করেন তবে এই ফিল্টারিং পর্যায়ে যে কোনও একটির আগে নমুনাগুলি অবশ্যই রেখে দেওয়া উচিত; অর্থাৎ, বৈশিষ্ট্য নির্বাচন অবশ্যই ক্রস-বৈধকরণ লুপের মধ্যে অন্তর্ভুক্ত করা উচিত।

লক্ষণীয়, মডেল নির্বাচনের জন্য 0.67 / 0.33 বিভক্তের চেয়ে আরও শক্তিশালী পদ্ধতি রয়েছে, যথা কে-ফোল্ড ক্রস-বৈধকরণ বা লেভ-ওয়ান-আউট। দেখুন উদাঃ পরিসংখ্যান শেখার দ্য উপাদানসমূহ (§7.10, পিপি। 241-248), www.modelselection.org বা মডেল নির্বাচনের জন্য ক্রস-বৈধতা পদ্ধতি একটি জরিপ Arlot এবং Celisse দ্বারা (আরো উন্নত গাণিতিক পটভূমি প্রয়োজনীয়)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.