হোল্ড-আউট সেট তৈরি করার সর্বোত্তম উপায় কী: কিছু বিষয় সরিয়ে নেওয়া বা প্রতিটি বিষয় থেকে কিছু পর্যবেক্ষণ অপসারণ করা?


11

আমার 26 টি বৈশিষ্ট্য এবং 31000 সারি সহ একটি ডেটাসেট রয়েছে। এটি 38 টি বিষয়ের ডেটাসেট। এটি একটি বায়োমেট্রিক সিস্টেমের জন্য। তাই আমি বিষয়গুলি সনাক্ত করতে সক্ষম হতে চাই।

পরীক্ষার সেট করার জন্য, আমি জানি যে আমাকে কিছু মান মুছে ফেলতে হবে।

সুতরাং এটি করা ভাল কি এবং কেন?

  1. (ক) ৩০ টি বিষয় প্রশিক্ষণ সেট হিসাবে রাখুন এবং পরীক্ষার সেট হিসাবে ৮ টি বিষয় অপসারণ করুন

  2. (খ) ৩৮ টি বিষয় রাখুন তবে প্রত্যেকটির কয়েকটি সারি সরিয়ে ফেলুন। সুতরাং শেষে আমি একটি প্রশিক্ষণ সেট দিয়ে শেষ করব: 388 টির 24800 সারি এবং একটি পরীক্ষার সেট: 38 টি বিষয়ের 6200 সারি


1
আপনি যদি বিষয়গুলি সনাক্ত করতে চান, তবে আপনি কীভাবে সম্ভবত পরীক্ষার জন্য "পুরো" বিষয়গুলি সরিয়ে ফেলতে পারেন? 30 টি বিষয়ে প্রশিক্ষিত মডেল কেবলমাত্র এই 30 টি বিষয় সনাক্ত করতে সক্ষম হবে, 8 টি এটি কখনও দেখেনি। "বায়োমেট্রিক সিস্টেম" সম্পর্কে আপনার স্পষ্টতা সর্বাধিক বিদ্যমান উত্তরগুলি প্রয়োগযোগ্য নয় nder
অ্যামিবা

1
এটি স্পষ্ট করতে সহায়ক হবে: (1) সুনির্দিষ্ট লক্ষ্যটি, আপনি কী ফলাফলের পরিবর্তনশীলটি ভবিষ্যদ্বাণী করতে চেষ্টা করছেন (2) আপনার কাছে কোন ডেটা রয়েছে এবং সম্ভবত (3) আপনি কোন পদ্ধতির ব্যবহার করেন।
ম্যাথিউ গন

আপনি একবার সিস্টেম প্রশিক্ষণ, এটি কিভাবে স্থাপন করা হবে? লোকেরা কি এটি ব্যবহারের লক্ষ্য প্রশিক্ষণে নেই? নতুন তথ্য একই 38 বিষয় হতে হবে? আমি বুঝতে চেষ্টা করছি যে সিস্টেমটি কীভাবে ব্যবহার করা হচ্ছে এবং আপনি যদি @ অ্যামিটাভোরীর উত্তর (1) বা কেস (2) এর ক্ষেত্রে থাকেন তবে কী হয়।
ম্যাথিউ গন

@ অ্যামিবা আমি খুব অভিজ্ঞ নই :( আমি প্রশ্নটি জিজ্ঞাসা করেছি কারণ এটি ডেটা বিভক্ত করার জন্য প্রস্তাবিত (প্রশিক্ষণ, বৈধতা এবং পরীক্ষা) So সুতরাং এটি হয় প্রতিটি বিষয়গুলির কিছু বিষয় বা কিছু পর্যবেক্ষণ অপসারণ বা অনলাইনে উপলব্ধ একটি ডেটাসেট ব্যবহার করা So সুতরাং 1) আমি বিষয়গুলি সনাক্ত করতে সক্ষম হতে চাই। বৈশিষ্ট্য যার সাথে সম্পর্কিত। 2) আমি ইইজি (তাই সময়-সিরিজ) ব্যবহার করছি। 3) আমি স্ট্র্যাটিফাইড-ভাঁজ ব্যবহার করছি। তবে এটি কারণ Kfold এর চেয়ে আমি এর সাথে উচ্চতর নির্ভুলতা পেয়েছি। আমি কেবল কে-ভাঁজ, স্তরবদ্ধ এবং ছেড়ে-ও-ওয়ান সম্পর্কে জানতাম। যেহেতু আমি সবসময় ভেবেছিলাম এটি ডেটাতে ভারসাম্যহীনতা ক্ষতিপূরণ করা। তবে আমি পরামর্শের জন্য উন্মুক্ত।
আইজাযাক

@ ম্যাথেজগান আমার ধারণা, ডেটাসেটে নেই এমন লোকদের সাথে এটি ব্যবহার করা সম্ভব হবে না। এটি অর্জন করা খুব কঠিন তবে খুব আকর্ষণীয় হবে। সুতরাং আমি কেস 1 বলব
আইজাযাক

উত্তর:


9

আমি মনে করি ম্যাথু গানের উত্তর সঠিক, তবে আমার কাছে মনে হয় "রেকর্ড-ভিত্তিক" সিভি দুটি পৃথক ধারণা ধারণ করতে পারে:

  1. বিষয় বা সময় নির্বিশেষে রেকর্ডগুলি এলোমেলোভাবে ভাঁজগুলিতে বিভক্ত হয়।

  2. রেকর্ডগুলি সময় ভিত্তিক ভাঁজগুলিতে বিভক্ত হয়, প্রশিক্ষণের জন্য কোনও ভাঁজ ব্যবহৃত হয় না যেখানে পরীক্ষার ভাঁজ শুরুর পর থেকে ডেটা থাকে।

প্রথম ক্ষেত্রে, আপনার ডেটাগুলির যে কোনও সময়-সিরিজের প্রকৃতির সাথে আপস করা হচ্ছে, যেহেতু আপনার প্রশিক্ষণ সেটে আপনার পরীক্ষার সেটটির আগে এবং পরে উভয় থেকে ডেটা অন্তর্ভুক্ত থাকতে পারে। ট্রেন / টেস্টের মূলনীতিটি হ'ল ট্রেনিং ডেটা উপস্থিতদের কাছে উপস্থিত তথ্যের প্রতিনিধিত্ব করে এবং টেস্ট ডেটা এখনও-অদেখা ডেটা (সম্ভবত ভবিষ্যতের থেকে আক্ষরিকভাবে) উপস্থাপন করে।

সম্ভবত সময় সিরিজ স্বতঃসিদ্ধকরণ বিকল্প # 2 আপস করে ises সম্ভবত মডেলের সময় উপাদানটি সত্যই গুরুত্বপূর্ণ নয় এবং তাই "অতীত" এবং "ভবিষ্যত" পর্যবেক্ষণগুলি একই রকম হতে পারে। এই ক্ষেত্রে, # 1 বা # 2 উভয়ই যাওয়ার উপায় নয়।

যদি কেবল মৌসুমীতা থাকে এবং ট্রেন্ডস না হয় তবে মনে হয় নতুন বিষয়গুলির ভবিষ্যদ্বাণী করার জন্য কিছু বিষয় প্রশিক্ষণের জন্য "ভবিষ্যত" অন্তর্ভুক্ত করা ঠিক আছে (যারা একই মৌসুমে প্রভাবিত হবে)। যদি ট্রেন্ডস থাকে, ভবিষ্যতে প্রশিক্ষণের জন্য ভবিষ্যতের বিষয়ে এমন কিছু শিখতে হবে যা আপনি যখন মডেলটিকে উত্পাদনের সময় ব্যবহার করেন তখন সত্যই আপনি জানতে পারবেন না।

ওপির উদাহরণে মনে হচ্ছে বিষয়-বুদ্ধিমান ভাল is তবে যদি ট্রেন্ডস এবং সময়-সিরিজের উদ্বেগগুলি মডেলের অংশ হয়ে থাকে তবে আমি সাবজেক্ট- এবং সময় ভিত্তিক পার্টিশনটি ব্যবহার করার চেষ্টা করতাম যাতে আপনি নির্দিষ্ট সময়ে একটি নির্দিষ্ট পয়েন্টের আগে এক সেট বিষয়ের উপর প্রশিক্ষণ নেন, তারপরে অন্যান্য বিষয়ের উপর পরীক্ষা করুন সময় যে নির্দিষ্ট পয়েন্ট।


1
টিটি

1
আমি বলব অ্যাপ্লিকেশনটি সিদ্ধান্ত নেয় অ্যাপোপ্রেট বিভাজন কী। উদাহরণস্বরূপ এমনকি সময় সিরিজ সহ, এটি অজানা বিষয়গুলির পরবর্তী পরিমাপের জন্য নির্ভরশীল পরিবর্তনশীলটির পূর্বাভাস দেওয়া কাজ হতে পারে যার অর্থ হবে বিভাজনটি অবশ্যই বুদ্ধিমানের পাশাপাশি সময় অনুসারেও করা উচিত।
এসবিএক্স

3
@ কেবেলাইটস: একমত আমি সাম্প্রতিক প্রকল্পে এটি করেছি: ডেটাটিকে ট্রেন এবং পরীক্ষার বিষয়গুলিতে বিভক্ত করুন এবং পরীক্ষার জন্য কেবল তারিখ-পরবর্তী তারিখের প্রশিক্ষণ এবং ডেটা ব্যবহার করুন, তাই আমরা কখনই চাই না যে বিষয়গুলিতে আমরা পরীক্ষা করছিলাম দেখা গেছে, সময়ের মধ্যে আমরা এখনও দেখিনি। আপনি ওভারবোর্ডে না গিয়ে - আপনার বিরুদ্ধে ডেকটি স্ট্যাক করতে চান - যদি আপনি সত্যিই জানতে চান যে আপনার মডেলটি বাস্তবে কতটা ভাল করবে।
ওয়েন

16

একটি গুরুত্বপূর্ণ পার্থক্য হ'ল আপনি চান কিনা:

  1. [সর্বাধিক সাধারণ কেস]: নতুন বিষয়ের উপর পারফরম্যান্সের একটি অনুমান তৈরি করুন (আপনার ডেটা হিসাবে একই জনসংখ্যা থেকে আঁকা)।
  2. আপনার নমুনার মতো একই বিষয়গুলি থেকে নতুন পর্যবেক্ষণগুলিতে পারফরম্যান্সের একটি অনুমান তৈরি করুন ।

এর চেয়ে বেশি সাধারণ ক্ষেত্রে কেস নম্বর (1)। উদাহরণস্বরূপ, জরুরি ঘরে roomুকে পড়ে এমন ব্যক্তির জন্য হার্ট অ্যাটাকের আপনি কতটা ভালভাবে ভবিষ্যদ্বাণী করেন? এবং যদি আপনি (1) এর ক্ষেত্রে থাকেন তবে আপনার অবশ্যই অবশ্যই (ক) রেকর্ড অনুযায়ী ক্রস-বৈধকরণের পরিবর্তে বিষয় ভিত্তিক ক্রস-বৈধকরণ করা উচিত। (1) ক্ষেত্রে রেকর্ড-ভিত্তিক বৈধতা কার্যকর করার ফলে নতুন বিষয়ে পারফরম্যান্সের অযৌক্তিকভাবে উচ্চ, বোগাস অনুমানের দিকে নিয়ে যাবে।

আপনি কী করতে চাইছেন তা আমি ঠিক বুঝতে পারি না (এবং সম্ভবত এটি স্ব-অধ্যয়ন তাই প্রশ্নটি সম্পূর্ণ বাস্তববাদী নয়)। আপনি কী ক্ষেত্রে আছেন তা আমি জানি না you're আপনি যদি খুব কম সাধারণ ক্ষেত্রে থাকেন (2), রেকর্ড অনুযায়ী বৈধতা ঠিক আছে।

পরিসংখ্যানগুলির একটি সাধারণ থিম হ'ল স্বাধীন কী এবং কী সম্পর্কিত about সে সম্পর্কে যত্ন সহকারে চিন্তা করা। সাধারণভাবে বলতে গেলে, একটি স্বাধীন পর্যবেক্ষণ একটি ভিন্ন বিষয় হতে থাকে আপনি যদি নতুন বিষয়ে পারফরম্যান্সের পূর্বাভাস দিতে চান তবে আপনাকে যে বিষয়ে প্রশিক্ষণ দেওয়া হয়নি সেগুলি পরীক্ষা করতে হবে!

কেন বিষয় ভিত্তিক ক্রস বৈধতা রেকর্ড অনুযায়ী না?

সাধারণ সেটিংসে, একই ব্যক্তির পুনরাবৃত্তি পর্যবেক্ষণগুলি বৈশিষ্ট্যগুলির শর্তাবলীর পরেও একে অপরের সাথে সম্পর্কিত হয়। রেকর্ড জ্ঞানী ক্রস বৈধতা সঙ্গে তাই, আপনার পরীক্ষার সেট নয় আপনার ট্রেনিং সেট স্বাধীন! নিখুঁত পারস্পরিক সম্পর্কের চরম ক্ষেত্রে, আপনার প্রশিক্ষণ সেট এবং পরীক্ষার সেটে ঠিক একই পর্যবেক্ষণ থাকতে হবে! আপনি পরীক্ষার সেটে প্রশিক্ষণ নিচ্ছেন! ক্রস-বৈধকরণ পরিমাপ করা পারফরম্যান্স নতুন বিষয়ে পারফরম্যান্সের ভবিষ্যদ্বাণীপূর্ণ হবে না

উদাহরণস্বরূপ, এই সাম্প্রতিক কাগজটি রেকর্ড অনুসারে ক্রস-বৈধকরণ, `ood ভুডো মেশিন লার্নিং কল করে।

এত কিছু বিষয় নিয়ে কী করা যায় যদিও ...

=এন

প্রশিক্ষণের জন্য ডেটা সর্বাধিক করে তোলার জন্য, আপনি যা কিছু করতে পারেন তা হ'ল ক্রস বৈধতার জন্য একটি বিষয় রেখে দেওয়া। প্রতিটি পুনরাবৃত্তি, একটি পৃথক হোল্ড-আউট বিষয়ে পরীক্ষা করুন এবং অন্য সকলকে প্রশিক্ষণ দিন।

এন=38


আমি জানি ডেটাসেটটি 3 এ ভাগ করতে হবে: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা। ক্রস-বৈধকরণে "প্রশিক্ষণ এবং বৈধতা" ব্যবহৃত হয়। হোল্ড আউট সেটটি হচ্ছে "পরীক্ষা"। সুতরাং আপনি কি পরামর্শ দিচ্ছেন: প্রশিক্ষণ এবং বৈধতার জন্য 37 টি বিষয় এবং 1 টি বিষয়ে পরীক্ষা? এবং আমি যে কোনও ধরণের ক্রস-বৈধতা করতে পারি: কে-ভাঁজ, স্তরিত ইত্যাদি?
আইজাযাক

1
ওপি একটি সম্পাদনা করে বলেছিল যে "এটি বায়োমেট্রিক সিস্টেমের জন্য। তাই আমি বিষয়গুলি সনাক্ত করতে সক্ষম হতে চাই"। আমি যদি এর অর্থটি সঠিকভাবে বুঝতে পারি তবে এর থেকে বোঝা যায় যে কেবল রেকর্ডওয়ালা সিভিই বোধগম্য হয় কারণ লক্ষ্য একটি নমুনার ভিত্তিতে সাবজেক্ট আইডির পূর্বাভাস দেওয়া।
অ্যামিবা

@ অ্যামিবা শুধুমাত্র যদি সেই একই 38 টি বিষয় থেকে নতুন তথ্য আসে come যেমন। যদি সিস্টেমটি বলার কথা বলে যে আঙুলের ছাপগুলি মেলে বা না মেলে এবং এটি আমার বাড়ির সামনের দরজায় স্থাপন করা হবে (অর্থাত্ অপরিচিত ব্যক্তিদের অপরিচিত হিসাবে চিহ্নিত করতে হবে), একই বিষয়ে প্রশিক্ষণ এবং পরীক্ষা করা সমস্যাযুক্ত হবে (আপনি চাইবেন) এটি এটি আগে কখনও কখনও দেখেনি, কখনও প্রশিক্ষণপ্রাপ্ত হয়নি এমন ব্যক্তিকে কতবার প্রবেশের মঞ্জুরি দেয় তা জানতে চাই)। যদিও আমি "এটি একটি বায়োমেট্রিক সিস্টেমের জন্য" প্রশ্ন উত্থাপন করে সম্মত ...
ম্যাথু গুন

3

এটি ট্রেন / পরীক্ষার বিভাজনের সাথে আপনি যে সেটিংটি অনুকরণ করতে চান তার উপর নির্ভর করে। জিনিসগুলিকে কংক্রিট করতে, বলুন প্রতিটি সারি একটি এক রাতেই কোনও বিষয়ের ঘুমের মানের বর্ণনা করে।

  1. এটি সম্ভব যে, ভবিষ্যতে প্রতিটি বিষয় প্রথমে একটি স্নাত ল্যাবে আসবে এবং আপনাকে কয়েকটি রাত্রে ঘুমের গুণমান সরবরাহ করবে। এটি অনুসরণ করে, আপনাকে ভবিষ্যতের রাতের ঘুমের এই বিষয়গুলির জন্য ভবিষ্যদ্বাণী করতে হবে । এই ক্ষেত্রে, আপনি আপনার বিকল্পটি ব্যবহার করবেন খ)। ইন sklearn, আপনি ব্যবহার করতে পারেsklearn.model_selection.StratifiedShuffleSplit

  2. এটি সম্ভব যে, ভবিষ্যতে কয়েকটি বিষয় প্রথমে একটি স্নায়বিক পরীক্ষাগারে আসবে এবং আপনাকে কয়েকটি রাত্রে ঘুমের গুণমান সরবরাহ করবে। এটি অনুসরণ করে, আপনি ভবিষ্যতের রাতের ঘুমের অন্যান্য বিষয়গুলির জন্য ভবিষ্যদ্বাণী করাতে সক্ষম হবেন । এই ক্ষেত্রে, আপনি আপনার বিকল্পটি ব্যবহার করবেন)। ইন sklearn, আপনি ব্যবহার করতে পারেsklearn.cross_validation.LeavePLabelOut


1
বাস্তবে যদিও, প্রশ্নটি অবশ্যই আপনার কেস (২) এবং বিকল্প (ক), অর্থাৎ বিষয়-ভিত্তিক ক্রস-বৈধকরণ, যা উপযুক্ত।
ম্যাথু গন

1
@ ম্যাথেজগান আপনি ঠিক বলেছেন কেস 2 এর চেয়ে অনেক বেশি সাধারণ। আমি অবশ্যই বলব আমি আছে বাস্তব জীবনের ক্ষেত্রে যেখানে 1 ডান পছন্দ ছিল মধ্যে চালানো।
অমি ট্যাভরি

1
মজাদার. আমি দেখতে পেলাম (1) কিছু বড়, প্রতিষ্ঠিত গ্রাহক বেসের জন্য নতুন পর্যবেক্ষণের পূর্বাভাস দেওয়ার জন্য সঠিক right পয়েন্ট নেওয়া হয়েছে। সম্ভবত আমি এত তীব্র প্রতিক্রিয়া জানাচ্ছি কারণ আমি সম্প্রতি চিকিত্সা ক্ষেত্রে রেকর্ড বুদ্ধিমান ক্রস-বৈধকরণের ব্যাপক অপব্যবহারের বিষয়ে এই গবেষণাপত্রটি পড়েছি ।
ম্যাথু গন

আপনি এটি সম্পর্কে কী ভাবেন: আমি 38 টি বিষয় কোনও ধরণের ক্রস বৈধকরণের সাথে ব্যবহার করি; এবং পরীক্ষা করতে আমার মডেলটি বিভিন্ন সাবজেক্টের সাথে ব্যবহার করা যায় কিনা; আমি একটি অনলাইন ডেটাসেট ব্যবহার করব? আমি মনে করি মডেলটি পরীক্ষা করার জন্য একটি আউট আউট সেটের ধারণাটি একটি "নতুন" ডেটাসেট থাকা।
আইজাযাক

3

চিম ইন করতে, আমি ধরে নিই যে অ্যাপ্লিকেশনটি অজানা বিষয়ের পূর্বাভাস to তার অর্থ (আপনার কাছে সময় সিরিজ বা স্বভাবগতভাবে সীমানাবিহীন পুনরাবৃত্তি পরিমাপ রয়েছে তা নির্বিশেষে) বিভাজনটি করা দরকার যাতে অজানা বিষয়গুলি পরীক্ষা করা হয় => বিভাজন এ)

আপনার কেবল 38 টি বিষয় রয়েছে তা বিবেচনা করে আপনার পুনর্নির্মাণ বৈধতার বিষয়ে কিছু চিন্তা করা উচিত। অনুরূপভাবে ছোট নমুনা মাপের সাথে কাজ করার আমার অভিজ্ঞতা থেকে (আরও বেশি বৈশিষ্ট্য হলেও) এখানে সংক্ষেপে কিছু প্রস্তাবনা দেওয়া হল:

  • বুটস্ট্র্যাপের বাইরের বিষয় অনুসারে বা পুনরাবৃত্ত ক্রস বৈধতার জন্য যান। তারা আপনার মডেলগুলির স্থিতিশীলতা মূল্যায়ন করতে দেয় যা ছোট নমুনা আকারের সমস্যার ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ। অস্থিরতা কোনও সমস্যা হলে ফলাফলগুলি সামগ্রিক মডেলের জন্যও ব্যবহার করা যেতে পারে।

  • ছুটি-এক-বিষয়-বাইরে করবেন না । এটি মডেল স্থিতিশীলতা পরিমাপ করতে বা এটি হ্রাস করতে দেয় না। তদুপরি, এমন পরিস্থিতি রয়েছে যেখানে ছোট নমুনার আকারের কারণে এটি প্রত্যাশিত ন্যূনতম পক্ষপাতমূলক পক্ষপাতিত্বের বিপরীতে) বৃহত হতাশাবাদী পক্ষপাতিত্বের শিকার হয়।

  • আপনি যদি যথাযথতা, সংবেদনশীলতা, নির্দিষ্টতা ইত্যাদির মতো যোগ্যতার বৈশিষ্ট্যযুক্ত শ্রেণিবিন্যাসের পরিসংখ্যানগুলি ব্যবহার করেন এবং কাজটি বিষয়গুলিকে সঠিকভাবে শ্রেণিবদ্ধ করা হয়: সতর্কতা অবলম্বন করুন যে পরীক্ষার ফলাফলের অনিশ্চয়তা পরম সংখ্যার উপর নির্ভর করে কারণ কার্যকর সমস্যাটি পারফরম্যান্সকে মাপছে is পরীক্ষার ক্ষেত্রে। উদাহরণস্বরূপ, সত্যিকারের ইতিবাচক বিষয়গুলির মধ্যে 17 টি সঠিক ভবিষ্যদ্বাণী পর্যবেক্ষণ করা সংবেদনশীলতার জন্য 95% আত্মবিশ্বাসের ব্যবধানের সাথে মিলিত হয় প্রায় 80% থেকে 100% পর্যন্ত।
    অন্য কথায়, আপনি তার উপর ভিত্তি করে ডেটা-চালিত মডেল অপ্টিমাইজেশন করতে সক্ষম হবেন না।

  • এর অর্থ হ'ল আপনাকে একটি তিন-সেট বিভক্তকরণ (নেস্টেড ক্রস বৈধকরণ) স্থাপন করার দরকার নেই, কারণ আপনি এখানে পরিসংখ্যানহীন অর্থহীন তুলনাগুলিতে সম্পদ নষ্ট করবেন - আপনার অপ্টিমাইজেশন প্রায় ব্যর্থ হওয়ার গ্যারান্টিযুক্ত (যদিও আপনি খেয়াল করতে পারেন না যে আপনি যদি স্থায়িত্ব জন্য পরীক্ষা করবেন না)।

  • প্রস্তাবিত 5 (3) পরীক্ষা / অপ্টিমাইজেশন / বৈধকরণ বিষয়গুলির জন্য দ্বি দ্বিবিশ্বের আত্মবিশ্বাসের ব্যবধানের জন্য একই গণনাটি 50% (30%) অবধি নিখুঁত পরীক্ষার ফলাফলের উপর ভিত্তি করে আপনার আত্মবিশ্বাসের বিরতিতে এখনও 50 / 50 অনুমান!

এই বিষয়গুলি সম্পর্কে আমরা কিছু কাগজপত্র লিখেছি:

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.