কীভাবে ডেটা বৃদ্ধি এবং ট্রেন-বৈধতা বিভক্ত করা যায়?


14

আমি মেশিন লার্নিং ব্যবহার করে চিত্রের শ্রেণিবিন্যাস করছি।

ধরুন আমার কাছে কিছু প্রশিক্ষণ ডেটা (চিত্র) রয়েছে এবং ডেটাটিকে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে বিভক্ত করব। এবং আমি এলোমেলো ঘোরাঘুরি এবং শব্দ ইঞ্জেকশন দ্বারা ডেটা (মূল চিত্রগুলি থেকে নতুন চিত্রগুলি তৈরি করতে) বৃদ্ধি করতে চাই। অগমেন্টেশনটি অফলাইনে করা হয়।

ডেটা বৃদ্ধির সঠিক উপায় কোনটি?

  1. প্রথমে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে ডেটা বিভক্ত করুন, তারপরে প্রশিক্ষণ এবং বৈধতা উভয় সেটগুলিতে ডেটা বৃদ্ধি করুন do

  2. প্রথমে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে ডেটা ভাগ করুন, তারপরে কেবল প্রশিক্ষণ সেটে ডেটা বর্ধন করুন।

  3. প্রথমে ডেটাতে ডেটা বর্ধন করুন, তারপরে ডেটাটিকে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে বিভক্ত করুন।


1
"ডেটা বর্ধন" এর একাধিক অর্থ রয়েছে; এটি আপনার প্রশ্নটি সম্পাদনা করতে সাহায্য করবে যা আপনার নিজের তা পরিষ্কার করতে বা একটি উদাহরণ দেওয়ার জন্য।
Scortchi - পুনর্বহাল মনিকা

আপনি যদি টিটিএ করার পরিকল্পনা করে থাকেন তবে পরীক্ষার সেট হিসাবে বৈধতা সেটটিতে বর্ধন প্রয়োগ করা উচিত।
অ্যাবি ইয়র্ককার

উত্তর:


18

প্রথমে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে ডেটা বিভক্ত করুন, তারপরে প্রশিক্ষণ সেটে ডেটা বর্ধন করুন।

বাস্তব পদ্ধতিতে আপনার পদ্ধতিটি কীভাবে কাজ করে তা অনুমান করার চেষ্টা করার জন্য আপনি আপনার বৈধতা সেটটি ব্যবহার করেন, সুতরাং এটিতে কেবল আসল ওয়ার্ল্ড ডেটা থাকা উচিত। অগমেন্টড ডেটা যুক্ত করা বৈধতার যথার্থতাকে উন্নত করবে না। এটি আপনার পদ্ধতিতে ডেটা বৃদ্ধিতে কতটা ভাল সাড়া ফেলেছে এবং বৈধতা যাচাইয়ের ফলাফল এবং ব্যাখ্যাকে সবচেয়ে খারাপভাবে ফেলবে সে সম্পর্কে এটি সর্বোত্তমভাবে কিছু বলবে।


আমি আপনার উত্তরের কিছু সম্পর্কে যথেষ্ট কৌতূহলী। যদি আমার সিএনএন প্রশিক্ষণ বন্ধের মানদণ্ড বৈধতা হ্রাস হ্রাস করে, আপনি কি বিশ্বাস করেন যে বৈধতা ডেটাতে ডেটা বৃদ্ধি একটি ভাল পছন্দ?
পাগল

1
না, আমি এখনও মনে করি যা "বৈধকরণের ফলাফল এবং ব্যাখ্যাযোগ্যতা নষ্ট করবে" কারণ বৈধতার যথাযথতা যদি আপনি বৈধতার ডেটা বৃদ্ধি করেন তবে নতুন অদেখা তথ্যের যথার্থতার জন্য এখন আর ভাল প্রক্সি নয়।
বার্ক করুন

সুতরাং আমাদের বৈধতা এবং পরীক্ষার ডেটা আদৌ ডেটা বৃদ্ধির প্রয়োজন নেই?
আদনান ফারুক এ

@ আদনান ফারুকু নং। আপনি পূর্বাভাসের জন্য যখন আপনার মডেলটি ব্যবহার করেন তখন অদৃশ্য ডেটা আপনার উপর করার পরিকল্পনা করার সাথে আপনার টেস্টিং এবং বৈধতা ডেটাতে সাধারণত একই কাজ করা উচিত।
বুড়ো

1
@ অ্যাডনানফারুকা সাধারণত বিভাজনের পরে আপনার কেবল প্রশিক্ষণের ডেটাতে বাড়ানো উচিত।
বার্ক

4

3 কখনও করবেন না, যেমন আপনি ফাঁস পাবেন। উদাহরণস্বরূপ ধরুন বৃদ্ধিটি 1-পিক্সেলের শিফট বামে। যদি না বৃদ্ধি মধ্যে বিভক্ত সচেতন, আপনি ট্রেন এবং বৈধতা উভয় খুব অনুরূপ ডেটা নমুনা পেতে পারেন।


0

ডেটা অগমেন্টেশন মানে হ'ল বিদ্যমান ডাটাতে বাহ্যিক ডেটা / তথ্য যুক্ত করা যা বিশ্লেষণ করা হচ্ছে।

সুতরাং, যেহেতু পুরো বর্ধিত ডেটা মেশিন লার্নিংয়ের জন্য ব্যবহৃত হবে, তারপরে নিম্নলিখিত প্রক্রিয়াটি আরও ভাল উপযুক্ত হবে:

ডেটা বৃদ্ধি -> বিভাজন ডেটা করুন


জবাবের জন্য ধন্যবাদ. এটি কি ঠিক আছে যে কোনও নমুনা এবং সংযোজনিত নমুনা, যা মূলটির সাথে বেশ অনুরূপ, বিভিন্ন সেটে ছড়িয়ে পড়ে?
ইয়াংজি

আপনি প্রশিক্ষণ সেট হিসাবে বিদ্যমান ডেটা এবং একটি বৈধতা সেট হিসাবে বর্ধিত ডেটা বোঝাতে চান? তারপরে, কোনও
ডাউনি 33

বিভাজকটি এলোমেলো, সুতরাং আমি যদি অর্থ উপাত্ত বৃদ্ধি করি এবং তারপরে ডেটা বিভক্ত করি তবে সম্ভবত কিছু বিদ্যমান ডেটা (সমস্ত নয়) প্রশিক্ষণ সেটে বিভক্ত হয়, যখন বাড়ানো ডেটা বৈধতা সেটটিতে যায় set
ইয়াংজি

বৃদ্ধি দ্বারা, আপনি সংযোজন মানে? অগমেন্টযুক্ত ডেটা এমন ডেটা যা সমস্ত পয়েন্টে বর্তমান ডেটা সমর্থন করে। সুতরাং, যদি বিভাজনটি এলোমেলো হয়, তবে বিভক্তির ফলে উভয় সেটে একই পরিমাণে প্রচুর পরিমাণে উপাত্ত পাওয়া যাবে, যেমন উপস্থিত তথ্য হিসাবে
Dawny33

এর জন্য কি কোনও কাগজের রেফারেন্স আছে?
আদনান ফারুক এ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.