সাধারণ পদ্ধতি হ'ল একই পরিসংখ্যানগত বৈশিষ্ট্য সহ ডেটা উত্পন্ন করবে এমন একটি বহুমাত্রিক এলোমেলো প্রক্রিয়া সংজ্ঞায়িত করতে আপনার ডেটা সেট করা প্রথাগত পরিসংখ্যান বিশ্লেষণ করা। এই পদ্ধতির বৈশিষ্ট্যটি হ'ল আপনার সিন্থেটিক ডেটা আপনার এমএল মডেলের চেয়ে পৃথক, তবে পরিসংখ্যানগতভাবে আপনার ডেটার "কাছাকাছি"। (আপনার বিকল্প আলোচনার জন্য নীচে দেখুন)
সংক্ষেপে, আপনি প্রক্রিয়াটির সাথে সম্পর্কিত মাল্টিভারিয়েট সম্ভাব্যতা বিতরণটি অনুমান করছেন। একবার বিতরণ অনুমান করার পরে, আপনি মন্টি কার্লো পদ্ধতি বা অনুরূপ পুনরাবৃত্ত নমুনা পদ্ধতিগুলির মাধ্যমে সিন্থেটিক ডেটা তৈরি করতে পারেন। যদি আপনার ডেটা কিছু প্যারাম্যাট্রিক বিতরণ (যেমন লগনরমাল) এর সাথে সাদৃশ্যপূর্ণ তবে এই পদ্ধতিটি সহজ এবং নির্ভরযোগ্য। জটিল অংশটি হল ভেরিয়েবলের মধ্যে নির্ভরতা অনুমান করা। দেখুন: https://www.encyclopediaofmath.org/index.php/ মাল্টিমিডিমেশনাল_ স্ট্যাটিস্টিকাল_্যানালাইসিস ।
যদি আপনার ডেটা অনিয়মিত হয় তবে অ-প্যারাম্যাট্রিক পদ্ধতিগুলি সহজ এবং সম্ভবত আরও মজবুত। মাল্টিভিয়ারিয়েট কর্নাল ঘনত্ব অনুমান এমন একটি পদ্ধতি যা এমএল ব্যাকগ্রাউন্ডের লোকদের কাছে অ্যাক্সেসযোগ্য এবং আবেদনযোগ্য । সাধারণ পরিচিতি এবং নির্দিষ্ট পদ্ধতির লিঙ্কগুলির জন্য, দেখুন: https://en.wikedia.org/wiki/Nonparametric_statistics ।
এই প্রক্রিয়াটি আপনার পক্ষে কাজ করেছে তা যাচাই করার জন্য, আপনি সংশ্লেষিত ডেটা দিয়ে আবার মেশিন লার্নিং প্রক্রিয়াটি অতিক্রম করবেন এবং আপনার মডেলের সাথে সমাপ্ত হওয়া উচিত যা আপনার মূলের সাথে বেশ কাছাকাছি। তেমনি, যদি আপনি সংশ্লেষিত ডেটা আপনার এমএল মডেলটিতে রাখেন তবে আপনার আউটপুটগুলি পাওয়া উচিত যা আপনার আসল আউটপুটগুলির অনুরূপ বন্টন করে।
বিপরীতে, আপনি এটি প্রস্তাব করছেন:
[মূল ডেটা -> বিল্ড মেশিন লার্নিং মডেল -> সিন্থেটিক ডেটা তৈরি করতে মিলি মডেল ব্যবহার করুন .... !!!]
এটি আলাদা কিছু সম্পাদন করে যা আমি যে পদ্ধতিটি স্রেফ বর্ণনা করেছি। এটি বিপরীত সমস্যার সমাধান করবে : "কী ইনপুটগুলি কোনও মডেল আউটপুটগুলির কোনও সেট তৈরি করতে পারে"। যদি না আপনার এমএল মডেলটি আপনার মূল ডেটাতে বেশি ফিট করে, এই সংশ্লেষিত ডেটা আপনার সম্মিলিত ডেটা প্রতিটি ক্ষেত্রে বা এমনকি বেশিরভাগের মতো দেখাবে না ।
লিনিয়ার রিগ্রেশন মডেল বিবেচনা করুন। একই লিনিয়ার রিগ্রেশন মডেলটির ডেটাতে অভিন্ন বৈশিষ্ট্য থাকতে পারে যা খুব আলাদা বৈশিষ্ট্যযুক্ত। এটির একটি বিখ্যাত বিক্ষোভ আনসকম্বের চৌকোটিয়ের মাধ্যমে ।
ভেবেছিলাম আমার রেফারেন্স নেই, আমি বিশ্বাস করি এই সমস্যাটি লজিস্টিক রিগ্রেশন, জেনারালাইজড লিনিয়ার মডেলস, এসভিএম এবং কে-মানে ক্লাস্টারিংয়েও দেখা দিতে পারে।
কিছু এমএল মডেলের ধরণ রয়েছে (উদাহরণস্বরূপ সিদ্ধান্তের গাছ) যেখানে সিন্থেটিক ডেটা তৈরি করতে তাদের বিপরীত করা সম্ভব, যদিও এটি কিছুটা কাজ নেয়। দেখুন: ডেটা মাইনিং প্যাটার্নগুলির সাথে মেলে সিনথেটিক ডেটা তৈরি করা ।