বাস্তব ডেটা থেকে "ডেমো" ডেটা তৈরি করা: ছদ্মবেশ ছাড়াই ছদ্মবেশ


9

(এটিকে কী দিয়ে ট্যাগ করব তা সম্পর্কে আমার কোনও আসল ধারণা নেই কারণ আমি কোনও পরিসংখ্যানবিদ নই এবং আমি জানি না এটি কোন ক্ষেত্রের মধ্যে পড়ে more আরও উপযুক্ত ট্যাগ যুক্ত করতে নির্দ্বিধায় অনুভব করুন))

আমি এমন একটি সংস্থার জন্য কাজ করি যা ডেটা বিশ্লেষণ সফ্টওয়্যার তৈরি করে এবং আমাদের সর্বশেষ পণ্যটি পরীক্ষা ও ডেমো করার জন্য আমাদের একটি শালীন সেটের ডেটা প্রয়োজন। আমরা কেবল একটি এলোমেলো সংখ্যা জেনারেটরের আউটপুট দিয়ে ডাটাবেস পূরণ করতে পারি না কারণ প্রোগ্রামটির আউটপুটগুলি অযৌক্তিক হয়ে উঠবে। এই জাতীয় ডেটা পাওয়ার সহজ উপায়গুলির মধ্যে একটি হ'ল কোনও ক্লায়েন্টের কাছ থেকে; আমরা দৌড়েছি এমন একটি পরীক্ষার থেকে আমাদের কাছে বিশাল একটি ডেটা রয়েছে। এখন, স্পষ্টতই আমরা কোনও ক্লায়েন্টের আসল ডেটা প্রকাশ করতে পারি না, তাই আমাদের এটিকে কিছুটা পরিবর্তন করতে হবে, তবে আমাদের এখনও এটি সত্য ডেটার মতো আচরণ করার প্রয়োজন।

এখানে উদ্দেশ্যটি হ'ল তাদের ডেটা সেট করা, এবং এটিতে একটি "ফজ" প্রয়োগ করা যাতে এটি বিশেষত তাদের হিসাবে স্বীকৃত না হয়। আমার পরিসংখ্যানগত তত্ত্বের স্মৃতিটি নিজেই কিছুটা অস্পষ্ট, সুতরাং আমি আপনাকে এই দ্বারা চালিত করতে চাই:

মূলত, আমাদের কাছে থাকা ডেটা (ক্লায়েন্টের কাছ থেকে) নিজে থেকেই উপস্থিত সমস্ত ডেটার (দেশে বা বিশ্বে) একটি নমুনা। আমি কী জানতে চাই যে নমুনাটিকে আর ক্লায়েন্টের নমুনা জনসংখ্যার দৃ strongly়ভাবে প্রতিনিধিত্ব করতে না পারার জন্য কী ধরণের অপারেশন প্রয়োগ করা যেতে পারে, এখনও এটিকে বিশ্বের জনসংখ্যার প্রায় প্রতিনিধিত্ব করে।

রেফারেন্সের জন্য, যতক্ষণ না আমরা অবগত রয়েছি তথ্য আমরা সাধারণত রফ স্বাভাবিক (গাউসিয়ান) বিতরণ অনুসরণ করি।

মূল ডেটাসেটটি বহুলভাবে উপলভ্য নয়, তবে তাত্ত্বিকভাবে কিছু অঞ্চল-নির্দিষ্ট বৈশিষ্ট্যগুলি থেকে স্বীকৃত হতে পারে (আমরা জানি না যে সেই বৈশিষ্ট্যগুলি কী, এবং এটি যথেষ্ট পরিমাণে কেউ করে কিনা তা সন্দেহজনক , তবে আমরা জানি যে ভিন্নতা স্থান থেকে বিদ্যমান exist স্থান). যাইহোক, আমি অনুশীলনের চেয়ে এই তত্ত্বের প্রতি আরও আগ্রহী - আমি জানতে চাই যে কোনও অপারেশনটি প্যারামিটার এক্স দ্বারা উত্স ডেটাসেট চিহ্নিত করা অসম্ভব (বা কমপক্ষে কঠিন) করেছে কিনা, কারও আছে কি না তা কার্যকর হতে পারে কিনা তা জানতে চাই want প্রথম স্থানে প্যারামিটার এক্স।

আমি যে পদ্ধতির সাথে নিয়ে এসেছি তা হল বিভিন্ন ধরণের পাঠকে আলাদা করা, (বেশি কিছু না দিয়েই বলা যাক একটি গ্রুপ হতে পারে "দৈর্ঘ্য" বা "এক্স করতে সময় নেওয়া"।) তাদের প্রত্যেকটির জন্য গণনা করুন আদর্শ চ্যুতি. তারপরে, প্রতিটি মান হিসাবে, (এন * স্টডিডিভ) এর ধনাত্মক এবং নেতিবাচক মানগুলির মধ্যে একটি এলোমেলো মান যুক্ত করুন যেখানে এন কিছু ভগ্নাংশ যা ডেটা পর্যাপ্ত পরিমাণে "বিবর্ণ" না হওয়া পর্যন্ত আমি ফলাফলটি টিউন করতে ব্যবহার করতে পারি। আমি কেবল কোনও স্থির পরিসীমা প্রয়োগ করতে চাইনি (বলুন, মূল মানের 90% থেকে 110% এর মধ্যে এলোমেলো) কারণ কিছু মান অন্যের চেয়ে অনেক বেশি বা কম পরিবর্তিত হয় - কিছু পরিমাপে, গড়ের 10% হওয়া সবেমাত্র লক্ষণীয় , কিন্তু অন্যদের মধ্যে এটি আপনাকে একটি গুরুতর আউটলেট করে তোলে।

এটি কি মূল ডেটার উত্সটি মাস্ক করার পক্ষে যথেষ্ট? যদি তা না হয় তবে কোন পরিসংখ্যানমূলক পদক্ষেপের সাহায্যে ডেটাটি এখনও সনাক্তযোগ্য হবে এবং ফলস্বরূপ তথ্যগুলিকে অস্পষ্টভাবে বাস্তবসম্মত রাখার সময় আমি কীভাবে সেগুলি মুখোশ করব?


3
একটি সম্পর্কিত প্রশ্নের সাম্প্রতিক মন্তব্যে , আমি অনলাইনে উপলব্ধ এই বিষয়টির কিছু জরিপ পত্রের লিঙ্ক সরবরাহ করেছি। লিঙ্কগুলি আদমশুমারির তথ্য ছদ্মবেশে ফোকাস করে, তবে তাদের মধ্যে অনেকগুলি সাধারণভাবে তথ্য ছদ্মবেশিত করার প্রশ্নগুলিকে সম্বোধন করে।
শুক্র

বুদ্ধিমান হতে পারে যে আমি কোনওভাবেই কোনও পরিসংখ্যানবিদ বা এমনকি একজন গণিতবিদ নই। আমি ব্যবসায়ের দ্বারা প্রোগ্রামার, তাই আমি অ্যালগোরিদমিক ব্যাখ্যাগুলি পরিচালনা করতে পারি তবে বিদেশী বীজগণিত আমার মস্তিষ্ককে পুটিতে পরিণত করে। এছাড়াও, এটি বিশেষত বৃহত্তর কঠোর হওয়ার প্রয়োজন নেই; এই ডেটা ব্যবহার করা হবে এমন বিক্ষোভগুলি সাধারণত উপস্থাপনা হয় - আমাদের যে কোনও reps এর দশ বা বিশ মিনিট সফটওয়্যারটিতে ঘুরে দেখছে। যদি কাউকে কোনও বর্ধিত সময়ের জন্য সফ্টওয়্যারটি পরীক্ষা করার অনুমতি দেওয়া হয় তবে তারা এতে তাদের নিজস্ব ডেটা byুকিয়ে শুরু করবে - তারা ডেমো ডেটা সত্যই যাচাই করে নেবে না।
anaximander

2
আমি এমন একজন পরিসংখ্যানবিদ নিয়োগের পরামর্শ দেব যিনি এর আগে এটি করেছেন। এটি আপনার প্রথম রোডিও করবেন না। এই সময়ে ভয়াবহ কাজ করার জন্য আপনি হুকের উপরে থাকতে চান না, তাই না? আর্স্টেচনিকিকা.com
ডেভিড জে

উত্তর:


2

কিছু পরামর্শ আছে:

  1. এটি মাত্রাবিহীন আকারে রূপান্তর করুন। যদি এটি 0 থেকে 1 পর্যন্ত চলে যায় এবং প্রতি পাক্ষিকের মধ্যে ফারলংসের মতো ইউনিট বা টন কয়লা সংযুক্ত না থাকে তবে এটি সনাক্ত করা শক্ত।
  2. এটিতে একটি ছোট এলোমেলো নম্বর যুক্ত করুন। আপনি যখন কোনও গাউসিয়ানকে গাউসির সাথে দৃ conv়প্রতিজ্ঞ করেন, তখন আপনি কেবল অন্য গাউসিয়ান পান। এটি এর প্রয়োজনীয়তা পরিবর্তন করে না, তবে সঠিক মানগুলি থেকে সরে যাওয়া কাউকে গুগলিং সংখ্যা রাখার চেষ্টা করে এটি কী তা নির্ধারণ করতে রাখে।
  3. আমি এটি ঘোরার ধারণা পছন্দ করি। 1 ডি ডেটা সেট থেকে 2 ডি ডেটা সেট তৈরি করতে আপনি বেশ কয়েকটি সময়-পদক্ষেপ নিতে পারেন। এরপরে আপনি কোনও ঘূর্ণন নির্ধারণের জন্য পিসিএ, বা এসভিডি (কেন্দ্রীকরণ এবং স্কেলিংয়ের পরে) ব্যবহার করতে পারেন। একবার ডেটা যথাযথভাবে আবর্তিত হওয়ার পরে আপনি তারতম্য পরিবর্তন করতে পারেন এবং নিজেই তথ্যের বিব্রত করতে পারেন। আপনি ঘোরানো স্থানাঙ্কের একটিতে "নমুনা ডেটা" হিসাবে রিপোর্ট করতে পারেন।
  4. আপনি এটি অন্য কোনও উত্স থেকে দৃ formed়ভাবে গঠিত ডেটার সাথে মিশ্রিত করতে পারেন। সুতরাং যদি আপনার নমুনা ডেটা স্টক মার্কেটের ডেটা হয় তবে আপনি আবহাওয়ার উপর ভিত্তি করে বা বিটলসের আপনার প্রিয় সাউন্ডট্র্যাক থেকে পিচের গড় থেকে ভিন্নতা যুক্ত করতে পারেন। লোকেরা নাসডাক অনুধাবন করতে পারে কি না, তাদের নাসডাক + বিটলস তৈরি করতে সমস্যা হবে।

1

আমি দুই ধাপের পদ্ধতির পরামর্শ দেব। প্রথম পদক্ষেপটি প্রতিস্থাপনের সাথে নমুনা দেওয়া হবে - বুটস্ট্র্যাপিংয়ে ব্যবহৃত পদ্ধতির অনুরূপ। ইন R, আপনি ব্যবহার করতে পারে

 newdata = sample(olddata, replace = TRUE)

মূল হিসাবে একই বৈশিষ্ট্যগুলির সাথে আপনার এখন একটি আলাদা ডেটা সেট রয়েছে। দ্বিতীয় পদক্ষেপটি শূন্যের চারদিকে কেন্দ্রে একটি এলোমেলো পরিবর্তনশীল যুক্ত করা হবে:

 newdata = newdata + runif(1, min = -10, max = 10)

যে কোনও এলোমেলো পরিবর্তনশীল যা শূন্যের চারপাশে প্রতিসাম্যযুক্ত কাজ করবে এবং বিতরণের সীমা গুরুত্বপূর্ণ নয়।

শেষে, আপনার পুরানো ডেটা সেট হিসাবে একই বৈশিষ্ট্যগুলির সাথে সম্পূর্ণ আলাদা আলাদা ডেটা থাকা উচিত।


1
"একই বৈশিষ্ট্যযুক্ত" বলতে কী বোঝ? খুব কমপক্ষে, রূপগুলি এবং সমবায়াগুলি আলাদা হবে। আপনি যদি ভেরিয়েবলের মধ্যে সম্পর্কের বিষয়ে আগ্রহী হন তবে তা সত্যিই গুরুত্বপূর্ণ।
চার্লি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.