প্রসঙ্গ হিসাবে: খুব বড় ডেটা সেট নিয়ে কাজ করার সময়, আমাকে মাঝে মাঝে জিজ্ঞাসা করা হয় যে আমরা কোন সিনথেটিক ডেটা সেট তৈরি করতে পারি যেখানে আমরা ভবিষ্যদ্বাণীকারীদের সাথে প্রতিক্রিয়াশীল পরিবর্তনশীল এবং ভবিষ্যদ্বাণীকের মধ্যে সম্পর্ক "জানি"।
বছরের পর বছরগুলিতে, আমি উভয়ই এক-অফ সিন্থেটিক ডেটা সেটগুলির মুখোমুখি হব বলে মনে হচ্ছে, যা দেখে মনে হয় এগুলি একটি আদৌ পদ্ধতিতে রান্না করা হয়েছিল, বা আরও কাঠামোগত ডেটা সেট যা গবেষকের প্রস্তাবিত মডেলিং পদ্ধতির জন্য বিশেষত অনুকূল বলে মনে হয়।
আমি বিশ্বাস করি যে সিনথেটিক ডেটা সেট তৈরির জন্য আমি স্ট্যান্ডার্ড পদ্ধতিগুলি সন্ধান করছি। যদিও সিন্থেটিক ডেটা সেট তৈরির জন্য বুটস্ট্র্যাপ পুনরায় মডেলিং একটি সাধারণ পদ্ধতি, এটি শর্তটি পূরণ করে না যে আমরা কাঠামোটিকে অগ্রাধিকার জানি । তদুপরি, অন্যদের সাথে বুটস্ট্র্যাপ নমুনা বিনিময় করার জন্য ডেটা উত্পন্ন পদ্ধতির পরিবর্তে মূলত ডেটা এক্সচেঞ্জের প্রয়োজন।
আমরা যদি ডেটাতে একটি প্যারাম্যাট্রিক বিতরণ মাপসই করতে পারি, বা পর্যাপ্ত পরিমাণে প্যারামাইট্রাইজড মডেল খুঁজে পাই, তবে এটি এমন একটি উদাহরণ যেখানে আমরা সিন্থেটিক ডেটা সেট তৈরি করতে পারি।
অন্য কোন পদ্ধতি বিদ্যমান? আমি বিশেষত উচ্চ মাত্রিক ডেটা, স্পার্স ডেটা এবং সময় সিরিজের ডেটাতে আগ্রহী। উচ্চ মাত্রিক তথ্যের জন্য, আমি আগ্রহের স্ট্রাকচারগুলি (যেমন কোভারিয়েন্স স্ট্রাকচার, লিনিয়ার মডেল, গাছ ইত্যাদি) উত্পন্ন করতে পারে এমন পদ্ধতিগুলির সন্ধান করতাম। সময় সিরিজের ডেটাগুলির জন্য, এফএফটি, এআর মডেল বা অন্যান্য বিভিন্ন ফিল্টারিং বা পূর্বাভাস মডেলগুলির বিতরণ থেকে শুরু করে মনে হয়। বিরল ডেটার জন্য, একটি স্পারসিটি প্যাটার্ন পুনরুত্পাদন দরকারী বলে মনে হয়।
আমি বিশ্বাস করি এগুলি কেবলমাত্র পৃষ্ঠকে স্ক্র্যাচ করে - এগুলি হিউরিস্টিক, আনুষ্ঠানিক অনুশীলন নয়। সিনথেটিক ডেটা তৈরির জন্য কি রেফারেন্স বা সংস্থান রয়েছে যা অনুশীলনকারীদের জানা উচিত?
দ্রষ্টব্য 1: আমি বুঝতে পারি যে এই প্রশ্নটি কোনও নির্দিষ্ট সময় সিরিজের মডেলের মতো ডেটা উত্পন্ন করতে পারে তার উপর সাহিত্যের ঠিকানা দেয়। এখানে পার্থক্যটি অনুশীলনগুলির মধ্যে রয়েছে, বিশেষত একটি বিদ্যমান কাঠামোর সাথে মিল / বিশ্বস্ততা বনাম একটি পরিচিত কাঠামো (আমার প্রশ্ন) নির্দেশ করতে। আমার ক্ষেত্রে তাত্পর্যপূর্ণ কাঠামোর মতো সাদৃশ্য থাকা প্রয়োজন, যদিও সাদৃশ্যটি ভিন্নতার চেয়ে বেশি পছন্দ করা হয়। একটি বহিরাগত সিন্থেটিক ডেটা সেট যার জন্য কোনও মডেল প্রতিশ্রুতি দেখায় তা বাস্তবসম্মত সিমুলেশনের চেয়ে কম পছন্দ হয়।
দ্রষ্টব্য 2: সিন্থেটিক তথ্যগুলির জন্য উইকিপিডিয়া এন্ট্রিটি নির্দেশ করে যে রুবিন এবং ফিয়েনবার্গের মতো আলোকিত ব্যক্তিরা এই বিষয়টিকে সম্বোধন করেছেন, যদিও আমি সেরা অনুশীলনের বিষয়ে কোনও রেফারেন্স পাইনি। এটি প্রয়োগকৃত পরিসংখ্যানগুলির অ্যানালসগুলি (বা এওএস) বা পর্যালোচনাতে এই বা অন্যান্য জার্নালে কী কাজ করবে তা জেনে রাখা আকর্ষণীয় হবে। সহজ এবং তীক্ষ্ণ শব্দে, কেউ জিজ্ঞাসা করতে পারেন যে "(গ্রহণযোগ্যভাবে) রান্না করা" এবং "খুব রান্না আপ" এর মধ্যে প্রান্তিক অবস্থান কোথায় আছে?
উল্লেখ্য 3: যদিও এটা প্রশ্নের প্রভাবিত করে না, ব্যবহারের পরিস্থিতি মডেলিং হয়, বড়, উচ্চ মাত্রিক ডেটা সেট পরিবর্তিত হতে যেখানে গবেষণা বিষয়সূচি হয় শিখতে (উভয় মানবিক এবং মেশিন ;-) দ্বারা) ডেটার কাঠামো। অবিভাজন, দ্বিবিভক্ত এবং অন্যান্য নিম্ন মাত্রিক পরিস্থিতিতে ভিন্ন, কাঠামো সহজেই অনুমান করা হয় না। যেমন আমরা কাঠামোর আরও ভাল বোঝার দিকে এগিয়ে চলেছি, অনুরূপ বৈশিষ্ট্যগুলির সাথে ডেটা সেট তৈরি করতে সক্ষম হওয়া কোনও মডেলিং পদ্ধতিটি কীভাবে ডেটার সাথে ইন্টারেক্ট করে তা দেখতে আগ্রহী (উদাহরণস্বরূপ প্যারামিটারের স্থায়িত্ব পরীক্ষা করা)। তবুও, নিম্ন মাত্রিক সিন্থেটিক ডেটা সম্পর্কিত পুরানো গাইডগুলি একটি সূচনা পয়েন্ট হতে পারে যা উচ্চ মাত্রিক ডেটা সেটগুলির জন্য প্রসারিত বা অভিযোজিত হতে পারে।