আসল ডেটাসেটের সাহায্যে শিখানো মেশিন লার্নিং মডেল ব্যবহার করে সিন্থেটিক ডেটাसेट কীভাবে তৈরি করা যায়?


19

সাধারণত, মেশিন লার্নিং মডেলটি ডেটাসেটগুলিতে নির্মিত হয়। আমি জানতে চাই যে মূল ডেটাसेट বৈশিষ্ট্যগুলি সংরক্ষণ করে এই জাতীয় প্রশিক্ষণপ্রাপ্ত মেশিন লার্নিং মডেল ব্যবহার করে সিনথেটিক ডেটাसेट উত্পন্ন করার কোনও উপায় আছে কিনা?

[মূল ডেটা -> বিল্ড মেশিন লার্নিং মডেল -> সিন্থেটিক ডেটা তৈরি করতে মিলি মডেল ব্যবহার করুন .... !!!]

এটা কি সম্ভব ? সম্ভব হলে দয়া করে আমাকে সংশ্লিষ্ট উত্সের দিকে নির্দেশ করুন।

উত্তর:


27

সাধারণ পদ্ধতি হ'ল একই পরিসংখ্যানগত বৈশিষ্ট্য সহ ডেটা উত্পন্ন করবে এমন একটি বহুমাত্রিক এলোমেলো প্রক্রিয়া সংজ্ঞায়িত করতে আপনার ডেটা সেট করা প্রথাগত পরিসংখ্যান বিশ্লেষণ করা। এই পদ্ধতির বৈশিষ্ট্যটি হ'ল আপনার সিন্থেটিক ডেটা আপনার এমএল মডেলের চেয়ে পৃথক, তবে পরিসংখ্যানগতভাবে আপনার ডেটার "কাছাকাছি"। (আপনার বিকল্প আলোচনার জন্য নীচে দেখুন)

সংক্ষেপে, আপনি প্রক্রিয়াটির সাথে সম্পর্কিত মাল্টিভারিয়েট সম্ভাব্যতা বিতরণটি অনুমান করছেন। একবার বিতরণ অনুমান করার পরে, আপনি মন্টি কার্লো পদ্ধতি বা অনুরূপ পুনরাবৃত্ত নমুনা পদ্ধতিগুলির মাধ্যমে সিন্থেটিক ডেটা তৈরি করতে পারেন। যদি আপনার ডেটা কিছু প্যারাম্যাট্রিক বিতরণ (যেমন লগনরমাল) এর সাথে সাদৃশ্যপূর্ণ তবে এই পদ্ধতিটি সহজ এবং নির্ভরযোগ্য। জটিল অংশটি হল ভেরিয়েবলের মধ্যে নির্ভরতা অনুমান করা। দেখুন: https://www.encyclopediaofmath.org/index.php/ মাল্টিমিডিমেশনাল_ স্ট্যাটিস্টিকাল_্যানালাইসিস

যদি আপনার ডেটা অনিয়মিত হয় তবে অ-প্যারাম্যাট্রিক পদ্ধতিগুলি সহজ এবং সম্ভবত আরও মজবুত। মাল্টিভিয়ারিয়েট কর্নাল ঘনত্ব অনুমান এমন একটি পদ্ধতি যা এমএল ব্যাকগ্রাউন্ডের লোকদের কাছে অ্যাক্সেসযোগ্য এবং আবেদনযোগ্য । সাধারণ পরিচিতি এবং নির্দিষ্ট পদ্ধতির লিঙ্কগুলির জন্য, দেখুন: https://en.wikedia.org/wiki/Nonparametric_statistics

এই প্রক্রিয়াটি আপনার পক্ষে কাজ করেছে তা যাচাই করার জন্য, আপনি সংশ্লেষিত ডেটা দিয়ে আবার মেশিন লার্নিং প্রক্রিয়াটি অতিক্রম করবেন এবং আপনার মডেলের সাথে সমাপ্ত হওয়া উচিত যা আপনার মূলের সাথে বেশ কাছাকাছি। তেমনি, যদি আপনি সংশ্লেষিত ডেটা আপনার এমএল মডেলটিতে রাখেন তবে আপনার আউটপুটগুলি পাওয়া উচিত যা আপনার আসল আউটপুটগুলির অনুরূপ বন্টন করে।

বিপরীতে, আপনি এটি প্রস্তাব করছেন:

[মূল ডেটা -> বিল্ড মেশিন লার্নিং মডেল -> সিন্থেটিক ডেটা তৈরি করতে মিলি মডেল ব্যবহার করুন .... !!!]

এটি আলাদা কিছু সম্পাদন করে যা আমি যে পদ্ধতিটি স্রেফ বর্ণনা করেছি। এটি বিপরীত সমস্যার সমাধান করবে : "কী ইনপুটগুলি কোনও মডেল আউটপুটগুলির কোনও সেট তৈরি করতে পারে"। যদি না আপনার এমএল মডেলটি আপনার মূল ডেটাতে বেশি ফিট করে, এই সংশ্লেষিত ডেটা আপনার সম্মিলিত ডেটা প্রতিটি ক্ষেত্রে বা এমনকি বেশিরভাগের মতো দেখাবে না

লিনিয়ার রিগ্রেশন মডেল বিবেচনা করুন। একই লিনিয়ার রিগ্রেশন মডেলটির ডেটাতে অভিন্ন বৈশিষ্ট্য থাকতে পারে যা খুব আলাদা বৈশিষ্ট্যযুক্ত। এটির একটি বিখ্যাত বিক্ষোভ আনসকম্বের চৌকোটিয়ের মাধ্যমে ।

সাধারণ সংক্ষিপ্ত পরিসংখ্যান ব্যবহার করে পরীক্ষা করা হলে সমস্ত চারটি সেট অভিন্ন, তবে গ্রাফড করার সময় যথেষ্ট আলাদা হয়

ভেবেছিলাম আমার রেফারেন্স নেই, আমি বিশ্বাস করি এই সমস্যাটি লজিস্টিক রিগ্রেশন, জেনারালাইজড লিনিয়ার মডেলস, এসভিএম এবং কে-মানে ক্লাস্টারিংয়েও দেখা দিতে পারে।

কিছু এমএল মডেলের ধরণ রয়েছে (উদাহরণস্বরূপ সিদ্ধান্তের গাছ) যেখানে সিন্থেটিক ডেটা তৈরি করতে তাদের বিপরীত করা সম্ভব, যদিও এটি কিছুটা কাজ নেয়। দেখুন: ডেটা মাইনিং প্যাটার্নগুলির সাথে মেলে সিনথেটিক ডেটা তৈরি করা


মন্টে-কার্লো এবং বহুমাত্রিক পরিসংখ্যান বিশ্লেষণে আরও পড়ার সময় ... সুন্দর ব্যাখ্যার জন্য ধন্যবাদ .. !!!
hadooper

2

ভারসাম্যহীন ডেটাসেটগুলির সাথে মোকাবিলার জন্য খুব সাধারণ পন্থা রয়েছে, নামক এসএমওটিই, যা সংখ্যালঘু শ্রেণীর থেকে সিন্থেটিক নমুনা তৈরি করে। এটি তার প্রতিবেশীদের সাথে পার্থক্যগুলি ব্যবহার করে সংখ্যালঘু নমুনাগুলিকে ব্যাহত করে কাজ করে (0 এবং 1 এর মধ্যে কিছু এলোমেলো সংখ্যা দ্বারা গুণিত)

নতুন মূল কাগজের একটি উদ্ধৃতি এখানে:

কৃত্রিম নমুনা নিম্নলিখিত উপায়ে উত্পন্ন করা হয়: বৈশিষ্ট্য ভেক্টর (নমুনা) বিবেচনাধীন এবং এর নিকটতম প্রতিবেশী মধ্যে পার্থক্য নিন। এই পার্থক্যটিকে 0 এবং 1 এর মধ্যে একটি এলোমেলো সংখ্যায় গুণ করুন এবং বিবেচনাধীন বৈশিষ্ট্য ভেক্টরে এটিকে যুক্ত করুন।

আপনি এখানে আরও তথ্য পেতে পারেন ।


1

ডেটা বর্ধন হ'ল বিদ্যমান ডেটার উপর ভিত্তি করে সিন্থেটিকভাবে নমুনা তৈরির প্রক্রিয়া। বিদ্যমান ডেটাটি নভেল ডেটা উত্পন্ন করতে সামান্য বিভ্রান্ত হয় যা অনেকগুলি মূল ডেটা বৈশিষ্ট্য ধরে রাখে। উদাহরণস্বরূপ, যদি ডেটা চিত্র হয়। চিত্র পিক্সেল অদলবদল করা যেতে পারে। ডেটা বৃদ্ধির কৌশলগুলির অনেক উদাহরণ এখানে পাওয়া যাবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.