সিনথেটিক ডেটা সেট তৈরি করার জন্য কিছু মানক অনুশীলনগুলি কী কী?


26

প্রসঙ্গ হিসাবে: খুব বড় ডেটা সেট নিয়ে কাজ করার সময়, আমাকে মাঝে মাঝে জিজ্ঞাসা করা হয় যে আমরা কোন সিনথেটিক ডেটা সেট তৈরি করতে পারি যেখানে আমরা ভবিষ্যদ্বাণীকারীদের সাথে প্রতিক্রিয়াশীল পরিবর্তনশীল এবং ভবিষ্যদ্বাণীকের মধ্যে সম্পর্ক "জানি"।

বছরের পর বছরগুলিতে, আমি উভয়ই এক-অফ সিন্থেটিক ডেটা সেটগুলির মুখোমুখি হব বলে মনে হচ্ছে, যা দেখে মনে হয় এগুলি একটি আদৌ পদ্ধতিতে রান্না করা হয়েছিল, বা আরও কাঠামোগত ডেটা সেট যা গবেষকের প্রস্তাবিত মডেলিং পদ্ধতির জন্য বিশেষত অনুকূল বলে মনে হয়।

আমি বিশ্বাস করি যে সিনথেটিক ডেটা সেট তৈরির জন্য আমি স্ট্যান্ডার্ড পদ্ধতিগুলি সন্ধান করছি। যদিও সিন্থেটিক ডেটা সেট তৈরির জন্য বুটস্ট্র্যাপ পুনরায় মডেলিং একটি সাধারণ পদ্ধতি, এটি শর্তটি পূরণ করে না যে আমরা কাঠামোটিকে অগ্রাধিকার জানি । তদুপরি, অন্যদের সাথে বুটস্ট্র্যাপ নমুনা বিনিময় করার জন্য ডেটা উত্পন্ন পদ্ধতির পরিবর্তে মূলত ডেটা এক্সচেঞ্জের প্রয়োজন।

আমরা যদি ডেটাতে একটি প্যারাম্যাট্রিক বিতরণ মাপসই করতে পারি, বা পর্যাপ্ত পরিমাণে প্যারামাইট্রাইজড মডেল খুঁজে পাই, তবে এটি এমন একটি উদাহরণ যেখানে আমরা সিন্থেটিক ডেটা সেট তৈরি করতে পারি।

অন্য কোন পদ্ধতি বিদ্যমান? আমি বিশেষত উচ্চ মাত্রিক ডেটা, স্পার্স ডেটা এবং সময় সিরিজের ডেটাতে আগ্রহী। উচ্চ মাত্রিক তথ্যের জন্য, আমি আগ্রহের স্ট্রাকচারগুলি (যেমন কোভারিয়েন্স স্ট্রাকচার, লিনিয়ার মডেল, গাছ ইত্যাদি) উত্পন্ন করতে পারে এমন পদ্ধতিগুলির সন্ধান করতাম। সময় সিরিজের ডেটাগুলির জন্য, এফএফটি, এআর মডেল বা অন্যান্য বিভিন্ন ফিল্টারিং বা পূর্বাভাস মডেলগুলির বিতরণ থেকে শুরু করে মনে হয়। বিরল ডেটার জন্য, একটি স্পারসিটি প্যাটার্ন পুনরুত্পাদন দরকারী বলে মনে হয়।

আমি বিশ্বাস করি এগুলি কেবলমাত্র পৃষ্ঠকে স্ক্র্যাচ করে - এগুলি হিউরিস্টিক, আনুষ্ঠানিক অনুশীলন নয়। সিনথেটিক ডেটা তৈরির জন্য কি রেফারেন্স বা সংস্থান রয়েছে যা অনুশীলনকারীদের জানা উচিত?


দ্রষ্টব্য 1: আমি বুঝতে পারি যে এই প্রশ্নটি কোনও নির্দিষ্ট সময় সিরিজের মডেলের মতো ডেটা উত্পন্ন করতে পারে তার উপর সাহিত্যের ঠিকানা দেয়। এখানে পার্থক্যটি অনুশীলনগুলির মধ্যে রয়েছে, বিশেষত একটি বিদ্যমান কাঠামোর সাথে মিল / বিশ্বস্ততা বনাম একটি পরিচিত কাঠামো (আমার প্রশ্ন) নির্দেশ করতে। আমার ক্ষেত্রে তাত্পর্যপূর্ণ কাঠামোর মতো সাদৃশ্য থাকা প্রয়োজন, যদিও সাদৃশ্যটি ভিন্নতার চেয়ে বেশি পছন্দ করা হয়। একটি বহিরাগত সিন্থেটিক ডেটা সেট যার জন্য কোনও মডেল প্রতিশ্রুতি দেখায় তা বাস্তবসম্মত সিমুলেশনের চেয়ে কম পছন্দ হয়।

দ্রষ্টব্য 2: সিন্থেটিক তথ্যগুলির জন্য উইকিপিডিয়া এন্ট্রিটি নির্দেশ করে যে রুবিন এবং ফিয়েনবার্গের মতো আলোকিত ব্যক্তিরা এই বিষয়টিকে সম্বোধন করেছেন, যদিও আমি সেরা অনুশীলনের বিষয়ে কোনও রেফারেন্স পাইনি। এটি প্রয়োগকৃত পরিসংখ্যানগুলির অ্যানালসগুলি (বা এওএস) বা পর্যালোচনাতে এই বা অন্যান্য জার্নালে কী কাজ করবে তা জেনে রাখা আকর্ষণীয় হবে। সহজ এবং তীক্ষ্ণ শব্দে, কেউ জিজ্ঞাসা করতে পারেন যে "(গ্রহণযোগ্যভাবে) রান্না করা" এবং "খুব রান্না আপ" এর মধ্যে প্রান্তিক অবস্থান কোথায় আছে?

উল্লেখ্য 3: যদিও এটা প্রশ্নের প্রভাবিত করে না, ব্যবহারের পরিস্থিতি মডেলিং হয়, বড়, উচ্চ মাত্রিক ডেটা সেট পরিবর্তিত হতে যেখানে গবেষণা বিষয়সূচি হয় শিখতে (উভয় মানবিক এবং মেশিন ;-) দ্বারা) ডেটার কাঠামো। অবিভাজন, দ্বিবিভক্ত এবং অন্যান্য নিম্ন মাত্রিক পরিস্থিতিতে ভিন্ন, কাঠামো সহজেই অনুমান করা হয় না। যেমন আমরা কাঠামোর আরও ভাল বোঝার দিকে এগিয়ে চলেছি, অনুরূপ বৈশিষ্ট্যগুলির সাথে ডেটা সেট তৈরি করতে সক্ষম হওয়া কোনও মডেলিং পদ্ধতিটি কীভাবে ডেটার সাথে ইন্টারেক্ট করে তা দেখতে আগ্রহী (উদাহরণস্বরূপ প্যারামিটারের স্থায়িত্ব পরীক্ষা করা)। তবুও, নিম্ন মাত্রিক সিন্থেটিক ডেটা সম্পর্কিত পুরানো গাইডগুলি একটি সূচনা পয়েন্ট হতে পারে যা উচ্চ মাত্রিক ডেটা সেটগুলির জন্য প্রসারিত বা অভিযোজিত হতে পারে।

উত্তর:


7

আমি নই ব্যাপারে নিশ্চিত হওয়ার হয় সিন্থেটিক তথ্য জেনারেট করার জন্য মান চর্চা - এটা যে বিশেষভাবে নির্মিত তথ্য একটি আরো সাধারণ এবং তর্কসাপেক্ষ অধিক যুক্তিসঙ্গত পদ্ধতির মনে করা হয় গবেষণার অনেক বিভিন্ন দিক যাতে প্রচন্ডভাবে ব্যবহৃত হচ্ছে।

আমার জন্য, আমার সবচেয়ে ভালো মান অভ্যাস না ডেটা সেট করতে তাই এটি মডেল সঙ্গে ভাল কাজ করবে। এটি গবেষণা মঞ্চের অংশ, ডেটা জেনারেশনের মঞ্চের অংশ নয়। পরিবর্তে, ডেটা তৈরি করা উচিত ডেটা তৈরির প্রক্রিয়াটি প্রতিফলিত করার জন্য । উদাহরণস্বরূপ, এপিডেমিওলজি সিমুলেশন অধ্যয়নের জন্য, আমি সর্বদা পরিচিত বিতরণ দিয়ে একটি বৃহত কাল্পনিক জনসংখ্যার থেকে শুরু করি এবং তারপরে সরাসরি "অধ্যয়নের জনসংখ্যা" উত্সাহিত করার পরিবর্তে সেই জনসংখ্যা থেকে অধ্যয়নের নমুনা অনুকরণ করি।

উদাহরণস্বরূপ, নীচে আমাদের আলোচনার ভিত্তিতে, আমি তৈরি করা সিমুলেটেড ডেটার দুটি উদাহরণ:

  • নীচে আপনার এসআইআর-মডেলের উদাহরণের সাথে কিছুটা অনুরূপ, আমি একবারে নেটওয়ার্কের মাধ্যমে রোগের বিস্তার সম্পর্কিত একটি গাণিতিক মডেল ব্যবহার করেছি যাতে সিমুলেশন মাধ্যমে নিজেকে দেখায় যে কোনও নির্দিষ্ট ধ্রুবক প্যারামিটার অগত্যা ধ্রুবক বিপত্তি বোঝায় না যদি আপনি ফলাফলগুলি ফলাফল হিসাবে বিবেচনা করেন একটি সমীক্ষা। আমি যখন বিশ্লেষণাত্মক সমাধানের জন্য খনন করতে গিয়েছিলাম তখন এটি ধারণার একটি কার্যকর প্রমাণ ছিল।
  • আমি কেস-নিয়ন্ত্রণ অধ্যয়নের জন্য একটি নির্দিষ্ট নমুনা প্রকল্পের প্রভাবটি অনুসন্ধান করতে চেয়েছিলাম। সরাসরি অধ্যয়ন উত্সাহিত করার চেষ্টা করার পরিবর্তে, আমি প্রক্রিয়াটির প্রতিটি ধাপ পেরিয়েছি। 1,000,000 লোকের জনসংখ্যা, রোগের নির্দিষ্ট জ্ঞাত বিস্তার এবং একটি পরিচিত কোভারিয়েট প্যাটার্ন সহ। তারপরে সেই নমুনা প্রক্রিয়াটি অনুকরণ করে - এই ক্ষেত্রে, কীভাবে জনসংখ্যার হাত থেকে কেস এবং নিয়ন্ত্রণ আঁকানো হয়েছিল। তবেই আমি সংগৃহীত "সিমুলেটেড স্টাডিজ" এ একটি প্রকৃত পরিসংখ্যানের মডেল ফেলেছিলাম।

অধ্যয়ন নিয়োগের পদ্ধতিগুলি, কোভেরিয়েটগুলি নিয়ন্ত্রণের ক্ষেত্রে পরিসংখ্যানগত পদ্ধতি ইত্যাদির প্রভাব পরীক্ষা করার সময়গুলির মতো সিমুলেশনগুলি খুব সাধারণ are


উত্তর করার জন্য ধন্যবাদ. যাইহোক, আমি মহামারীবিজ্ঞান সম্পর্কে যা জানি তার উপর ভিত্তি করে মোটামুটি কার্যকর স্টোকাস্টিক মডেল বিকাশ করার জন্য আরও অনেক কিছু করা হয়েছে, বিশেষত এসআইআর মডেল। এটি অন্যান্য অনেকগুলি ডোমেইনে সত্য নয়, যদিও গ্রহণযোগ্য স্টোকাস্টিক ডেটা মডেলগুলি দ্রুত বিকাশ করতে সক্ষম হওয়া আমার উদ্দেশ্যগুলির অংশ।
ইটরেটর

@ ইটারেটর এটি নির্ভর করে যে আপনি কোথায় আছেন এবং মহামারীবিজ্ঞানের কোন দিকটির বিষয়ে আপনি কথা বলছেন on উদাহরণস্বরূপ, একটি ক্যান্সার মহামারী বিশেষজ্ঞরা শুনে শুনে হতবাক হয়ে যাবেন যে এসআইআর মডেলগুলির সাথে "আরও অনেক কিছু" করা হয়েছে - তারা সম্ভবত তাদের কাজকর্মের মধ্যে কখনও মুখোমুখি হয়নি। স্যার-টাইপ মডেল এপিডেমিওলজি (সংক্রামক রোগ ইপিআই, এবং তারপর এমনকি এমনকি বৃহৎ একটি নির্দিষ্ট অংশ একটা দিক হলেও উপসেট আইডি ইপিআই এর), এপিডেমোলোজি একটি ক্ষেত্র যেমন পরিসংখ্যানগত মডেল, বিশেষ করে সাধারণ রৈখিক মডেল, বেঁচে থাকার অসাধারণ ব্যবহার করে বিশ্লেষণ এবং সময় সিরিজ।
ফোমাইট

দাঁড়ান। কোনও অপরাধের উদ্দেশ্যে নয়, আমি কেবল বলেছি যে এসআইআর মডেলগুলি স্ট্যান্ডার্ড ডেটা উত্পন্ন মডেলটির খুব ভাল উদাহরণ। অবশ্যই আমি সচেতন যে এপির অন্যান্য ক্ষেত্রগুলিও মডেলিং পদ্ধতিগুলির পুরো বর্ণালী ব্যবহার করে। আপনার যদি মহামারীবিদ্যায় ব্যবহৃত অন্যান্য ডেটা উত্পন্ন পদ্ধতি সম্পর্কে কিছু পয়েন্টার বা রেফারেন্স থাকে তবে আমি তাদের জন্য বেশ উন্মুক্ত।
ইটলেটর

1
@ ইটারেটর দুঃখিত, আমি যদি ইমপ্রেশনটি দিয়ে থাকি তবে আমি ক্ষুব্ধ হয়েছি। খুব বেশি নয়;)। এটা ঠিক কিছু আমি পেতে কারণ আমি গাণিতিক ইপিআই ও পর্যবেক্ষণকারী এপিডেমিওলজি মধ্যে ছেদ মধ্যে বর্গ বসতে, এবং এক এলাকার লোক হয় আক্কেল গুড়ুম টি অঞ্চল রয়েছে। আমি আমার উত্তরটি একটি নন-এসআইআর টাইপের উদাহরণ দিয়ে সম্পাদনা করব।
ফমাইট

2

আর স্ট্যাটিস্টিকাল প্যাকেজের একটি সিমুলেট ফাংশন রয়েছে যা বিদ্যমান ডেটাগুলির সাথে ফিট একটি মডেলের উপর ভিত্তি করে ডেটা সিমুলেট করবে। এটি "পরিচিত" জনসংখ্যার সম্পর্ক হিসাবে লাগানো মডেলটি ব্যবহার করে, তারপরে সেই মডেলের উপর ভিত্তি করে নতুন ডেটা সিমুলেট করে। Lme4 প্যাকেজে এই ফাংশনের জন্য একটি পদ্ধতি রয়েছে। এই লাগানো বস্তুগুলি এলোমেলো এবং স্থির প্রভাব এবং পারস্পরিক সম্পর্ক গ্রহণ করতে পারে (সময় সিরিজের জন্য স্বতঃসংশ্লিষ্ট সহ)।

এটি আপনার ইচ্ছা মতো কাজ করতে পারে।


পরামর্শের জন্য ধন্যবাদ. এই ফাংশনটি অবশ্যই কার্যকর, যদিও আমার আগ্রহ একটি নির্দিষ্ট সমাধানের কোডের চেয়ে পরিসংখ্যান অনুশীলন এবং পদ্ধতিগুলির ক্ষেত্রে বেশি। স্যাম্পলিং পদ্ধতি বা পুনরুত্পাদনযোগ্য বিশ্লেষণ সম্পর্কে জিজ্ঞাসা করার অনুরোধ, নির্দিষ্ট প্যাকেজগুলির পরিবর্তে যা বলা পদ্ধতি এবং বিশ্লেষণ কার্যকর করে। তবুও, ভাল পদ্ধতিগুলি প্যাকেজ হওয়া উচিত। :)
ইটেটর
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.