সাধারণ ডেটাসেটের জন্য ডেটা বৃদ্ধির কৌশল?


21

অনেকগুলি মেশিন লার্নিং অ্যাপ্লিকেশনগুলিতে তথাকথিত ডেটা বৃদ্ধির পদ্ধতিগুলি আরও ভাল মডেল তৈরি করার অনুমতি দিয়েছে। উদাহরণস্বরূপ, বিড়াল এবং কুকুরের 100 টি চিত্রের একটি প্রশিক্ষণ সেট অনুমান করুন । আবর্তন, মিররিং, বিপরীতে সামঞ্জস্যকরণ ইত্যাদির মাধ্যমে মূল চিত্রগুলি থেকে অতিরিক্ত চিত্র উত্পন্ন করা সম্ভব।100

চিত্রগুলির ক্ষেত্রে, ডেটা বর্ধন তুলনামূলকভাবে সহজ। তবে, ধরুন (উদাহরণস্বরূপ) একটিতে নমুনা এবং কয়েক শতাধিক ধারাবাহিক ভেরিয়েবলগুলির একটি প্রশিক্ষণ সেট রয়েছে যা বিভিন্ন জিনিস উপস্থাপন করে। ডেটা বর্ধন এতটা স্বজ্ঞাত মনে হয় না। এমন ক্ষেত্রে কী করা যায়?100


2
আমি মনে করি পিসিএ বা এই এর মতো কিছু পদ্ধতি এখনও ডেটা বৃদ্ধির জন্য স্বজ্ঞাত। প্রথম পদ্ধতিগুলি হ'ল পিসিএ প্রয়োগ করুন এবং প্রথমে কে ইগেনভ্যালু রাখুন এবং এগ্রোভ্যালুগুলি এলোমেলোভাবে বিভ্রান্তি, গাউসিয়ান ইত্যাদি থেকে সেট করুন যদি অন্য পদ্ধতিগুলি নিজেই ডেটা তৈরি করতে অটো-এনকোডার ব্যবহার করে। যদি লুকানো ইউনিটের সংখ্যা দৃশ্যমান ইউনিটের কাছাকাছি থাকে তবে এটি নিজেই বেশ ভাল নির্মাণ করতে পারে। পুনর্গঠন করা ডেটা ডেটার অগমেন্টেড অংশ হিসাবে ব্যবহৃত হতে পারে।
yasin.yazici 26'15

@ মিমহ, এটি আপনার প্রশ্নের উত্তর দিয়েছে?
shf8888

@ yasin.yazici হাই আপনি পিসিএ ব্যবহার করে ডেটা বৃদ্ধি সম্পর্কে কিছুটা ব্যাখ্যা করতে পারেন? ধরুন আমার কাছে ফিচারের মাত্রা 50 টি সহ ডেটা রয়েছে । এখন আমি পিসিএ করি এবং দেখতে পাচ্ছি যে প্রথম 30 শীর্ষ ইগেনভেেক্টর যথেষ্ট। পরবর্তী 20 আইজেনভেেক্টরগুলিতে আমার কী করা উচিত এবং আমি এলোমেলোভাবে কীভাবে প্রবর্তন করব? 100x50503020
roni

চিত্রগুলির জন্য ডেটা বর্ধন টেকনিক্সের ওভারভিউয়ের জন্য আমার মাস্টার্স থিসিস, পৃষ্ঠা 80 দেখুন ।
মার্টিন থোমা

ডেটা বর্ধন চিত্রগুলির জন্য প্রচুর অর্থবোধ করে, যেমন। অবজেক্টের একটি ঘোরানো চিত্রটি এখনও অবজেক্টের একটি চিত্র এবং আপনার কাছে এটির মডেলটি প্রকাশ করা প্রয়োজন, তবে সম্ভবত আপনার ডেটাশেটে এই জাতীয় চিত্রের প্রয়োজন নেই। এক্ষেত্রে ডেটা বৃদ্ধির / পয়েন্টের প্রয়োজন কী? আপনার পক্ষে এটি করা উচিত তা আমার কাছে পরিষ্কার নয়।
গুং - মনিকা পুনরায়

উত্তর:


17

আমি এই প্রশ্নটিকে বৈশিষ্ট্য নির্মান এবং আপনার পর্যবেক্ষণগুলির সাথে সামঞ্জস্য রেখে ইতিমধ্যে আপনার যে বৈশিষ্ট্যগুলি তৈরি করবে তা ধনীর সাথে সম্পৃক্ত হিসাবে বিবেচনা করছি N << P

বৈশিষ্ট্য নির্মাণ

@ ইয়াসিন.ইয়াজিসির মন্তব্যে সম্প্রসারণ করা, ডেটা বৃদ্ধির কয়েকটি সম্ভাব্য উপায় হ'ল:

  • পিসিএ
  • স্বয়ং-এনকোডিং
  • রূপান্তর যেমন লগ, ক্ষমতা ইত্যাদি
  • বিচ্ছিন্ন বিভাগগুলিতে বিনিং অবিচ্ছিন্ন ভেরিয়েবলগুলি (যেমন, অবিচ্ছিন্ন ভেরিয়েবল 1 গড়ের উপরে এসডি হয়, গড়ের নীচে 1 ইত্যাদি))
  • সম্মিলিত ভেরিয়েবল (উদাহরণস্বরূপ, এখানে দেখুন )

আমি নিশ্চিত যে আমি আরও অনেক মিস করছি।

বৈশিষ্ট্য নির্বাচন / মাত্রা হ্রাস

আপনি পিসিএর মতো কৌশলগুলির সাহায্যে মাত্রিকতা হ্রাস করতে পারেন (যদিও পিসিএ ভেরিয়েবলগুলি দিয়ে আপনার ডেটা বৃদ্ধির পরে নয়)। বিকল্পভাবে, আপনি আলগোরিদিমগুলি ব্যবহার করতে পারেন যা আপনার জন্য বৈশিষ্ট্য নির্বাচন করে, যেমন লাসো, এলোমেলো বন ইত্যাদি perform


2
আপনি কী দয়া করে বলতে পারবেন কীভাবে বৈশিষ্ট্য নির্মাণের জন্য অটো এনকোডিং ব্যবহার করা যেতে পারে?
রনি

1
@ অরণি একটি স্বয়ংক্রিয়কোডারের সফল প্রশিক্ষণ উচ্চতর স্তরে বিমূর্তিতে ডেটাটির কিছু উপস্থাপনা লাভ করে। আশাকরি আরও কার্যকর উপস্থাপনা যা আপনি একটি শ্রেণিবদ্ধে ব্যবহার করতে পারেন।
ক্রিস অ্যান্ডারসন

0

আমি একই ধরণের সমস্যার মুখোমুখি হয়েছি যেখানে আমি লেবেলযুক্ত সংখ্যাযুক্ত ডেটা বৃদ্ধি করতে চেয়েছিলাম। আমি নিম্নলিখিত উপায়ে ডেটা বাড়িয়েছি: (বলুন আমার কাছে 100 * 10 আকারের ডেটা সেট রয়েছে))

  1. Rand 0,1 from থেকে এলোমেলোভাবে নমুনাগুলির মান তৈরি করে একটি তালিকা তৈরি করুন, যেমন শূন্যের সংখ্যা 1 s এর সংখ্যার চেয়ে কম, বলুন 0s এর অনুপাত এই ক্ষেত্রে 20%। সুতরাং একটিতে 100 এর দৈর্ঘ্যের 0 গুলি এবং 1 এর তালিকা থাকবে।
  2. নির্ভরযোগ্য পরিবর্তনশীল হিসাবে এই তালিকাটি ব্যবহার করুন এবং আরও ডেটা পয়েন্ট উত্পন্ন করতে এটি স্মোটে পাস করেছেন। (এখানে স্মোটটি উত্পন্ন তালিকার 0s এর সাথে সম্পর্কিত ডেটা পয়েন্টগুলিকে সংযুক্ত করে প্রান্তগুলিতে পয়েন্ট তৈরি করবে)।
  3. প্রয়োজনীয় আকারের ডেটা সেট না পাওয়া পর্যন্ত এই প্রক্রিয়াটি পুনরাবৃত্তি করুন।

1
দয়া করে একাধিক থ্রেডে অভিন্ন উত্তর পোস্ট করবেন না। আপনি যদি সত্যই বিশ্বাস করেন যে আপনি অন্য কোথাও পোস্ট করেছেন একই উত্তর পুরোপুরি অন্য প্রশ্নের উত্তর দেয় তবে সেই প্রশ্নটিকে প্রথমটির সদৃশ হিসাবে চিহ্নিত করুন।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.