(এটিকে কী দিয়ে ট্যাগ করব তা সম্পর্কে আমার কোনও আসল ধারণা নেই কারণ আমি কোনও পরিসংখ্যানবিদ নই এবং আমি জানি না এটি কোন ক্ষেত্রের মধ্যে পড়ে more আরও উপযুক্ত ট্যাগ যুক্ত করতে নির্দ্বিধায় অনুভব করুন))
আমি এমন একটি সংস্থার জন্য কাজ করি যা ডেটা বিশ্লেষণ সফ্টওয়্যার তৈরি করে এবং আমাদের সর্বশেষ পণ্যটি পরীক্ষা ও ডেমো করার জন্য আমাদের একটি শালীন সেটের ডেটা প্রয়োজন। আমরা কেবল একটি এলোমেলো সংখ্যা জেনারেটরের আউটপুট দিয়ে ডাটাবেস পূরণ করতে পারি না কারণ প্রোগ্রামটির আউটপুটগুলি অযৌক্তিক হয়ে উঠবে। এই জাতীয় ডেটা পাওয়ার সহজ উপায়গুলির মধ্যে একটি হ'ল কোনও ক্লায়েন্টের কাছ থেকে; আমরা দৌড়েছি এমন একটি পরীক্ষার থেকে আমাদের কাছে বিশাল একটি ডেটা রয়েছে। এখন, স্পষ্টতই আমরা কোনও ক্লায়েন্টের আসল ডেটা প্রকাশ করতে পারি না, তাই আমাদের এটিকে কিছুটা পরিবর্তন করতে হবে, তবে আমাদের এখনও এটি সত্য ডেটার মতো আচরণ করার প্রয়োজন।
এখানে উদ্দেশ্যটি হ'ল তাদের ডেটা সেট করা, এবং এটিতে একটি "ফজ" প্রয়োগ করা যাতে এটি বিশেষত তাদের হিসাবে স্বীকৃত না হয়। আমার পরিসংখ্যানগত তত্ত্বের স্মৃতিটি নিজেই কিছুটা অস্পষ্ট, সুতরাং আমি আপনাকে এই দ্বারা চালিত করতে চাই:
মূলত, আমাদের কাছে থাকা ডেটা (ক্লায়েন্টের কাছ থেকে) নিজে থেকেই উপস্থিত সমস্ত ডেটার (দেশে বা বিশ্বে) একটি নমুনা। আমি কী জানতে চাই যে নমুনাটিকে আর ক্লায়েন্টের নমুনা জনসংখ্যার দৃ strongly়ভাবে প্রতিনিধিত্ব করতে না পারার জন্য কী ধরণের অপারেশন প্রয়োগ করা যেতে পারে, এখনও এটিকে বিশ্বের জনসংখ্যার প্রায় প্রতিনিধিত্ব করে।
রেফারেন্সের জন্য, যতক্ষণ না আমরা অবগত রয়েছি তথ্য আমরা সাধারণত রফ স্বাভাবিক (গাউসিয়ান) বিতরণ অনুসরণ করি।
মূল ডেটাসেটটি বহুলভাবে উপলভ্য নয়, তবে তাত্ত্বিকভাবে কিছু অঞ্চল-নির্দিষ্ট বৈশিষ্ট্যগুলি থেকে স্বীকৃত হতে পারে (আমরা জানি না যে সেই বৈশিষ্ট্যগুলি কী, এবং এটি যথেষ্ট পরিমাণে কেউ করে কিনা তা সন্দেহজনক , তবে আমরা জানি যে ভিন্নতা স্থান থেকে বিদ্যমান exist স্থান). যাইহোক, আমি অনুশীলনের চেয়ে এই তত্ত্বের প্রতি আরও আগ্রহী - আমি জানতে চাই যে কোনও অপারেশনটি প্যারামিটার এক্স দ্বারা উত্স ডেটাসেট চিহ্নিত করা অসম্ভব (বা কমপক্ষে কঠিন) করেছে কিনা, কারও আছে কি না তা কার্যকর হতে পারে কিনা তা জানতে চাই want প্রথম স্থানে প্যারামিটার এক্স।
আমি যে পদ্ধতির সাথে নিয়ে এসেছি তা হল বিভিন্ন ধরণের পাঠকে আলাদা করা, (বেশি কিছু না দিয়েই বলা যাক একটি গ্রুপ হতে পারে "দৈর্ঘ্য" বা "এক্স করতে সময় নেওয়া"।) তাদের প্রত্যেকটির জন্য গণনা করুন আদর্শ চ্যুতি. তারপরে, প্রতিটি মান হিসাবে, (এন * স্টডিডিভ) এর ধনাত্মক এবং নেতিবাচক মানগুলির মধ্যে একটি এলোমেলো মান যুক্ত করুন যেখানে এন কিছু ভগ্নাংশ যা ডেটা পর্যাপ্ত পরিমাণে "বিবর্ণ" না হওয়া পর্যন্ত আমি ফলাফলটি টিউন করতে ব্যবহার করতে পারি। আমি কেবল কোনও স্থির পরিসীমা প্রয়োগ করতে চাইনি (বলুন, মূল মানের 90% থেকে 110% এর মধ্যে এলোমেলো) কারণ কিছু মান অন্যের চেয়ে অনেক বেশি বা কম পরিবর্তিত হয় - কিছু পরিমাপে, গড়ের 10% হওয়া সবেমাত্র লক্ষণীয় , কিন্তু অন্যদের মধ্যে এটি আপনাকে একটি গুরুতর আউটলেট করে তোলে।
এটি কি মূল ডেটার উত্সটি মাস্ক করার পক্ষে যথেষ্ট? যদি তা না হয় তবে কোন পরিসংখ্যানমূলক পদক্ষেপের সাহায্যে ডেটাটি এখনও সনাক্তযোগ্য হবে এবং ফলস্বরূপ তথ্যগুলিকে অস্পষ্টভাবে বাস্তবসম্মত রাখার সময় আমি কীভাবে সেগুলি মুখোশ করব?