প্রয়োজনীয় ডেটা চেকিং পরীক্ষা


93

আমার কাজের ভূমিকায় আমি প্রায়শই অন্যান্য লোকের ডেটাসেটের সাথে কাজ করি, অ-বিশেষজ্ঞরা আমাকে ক্লিনিকাল ডেটা নিয়ে আসে এবং আমি তাদের এটি সংক্ষিপ্ত করতে এবং পরিসংখ্যান পরীক্ষা করতে সহায়তা করি।

আমার যে সমস্যাটি হচ্ছে তা হ'ল আমি যে ডেটাসেটগুলি নিয়ে এসেছি তা প্রায় সবসময় টাইপস, অসঙ্গতি এবং অন্যান্য সমস্ত ধরণের সমস্যার সাথে ধাঁধা হয়। আমি জানতে আগ্রহী যে অন্য ব্যক্তির কাছে স্ট্যান্ডার্ড টেস্ট রয়েছে যা তারা যে কোনও ডেটাসেটগুলি যাচাই করার চেষ্টা করে।

আমি প্রতিটি পরিবর্তনশীলের হিস্টোগ্রামগুলি কেবল একবার দেখার জন্য আঁকতাম তবে এখন আমি বুঝতে পারছি যে প্রচুর ভয়ঙ্কর ত্রুটি রয়েছে যা এই পরীক্ষায় টিকে থাকতে পারে। উদাহরণস্বরূপ, অন্য দিন আমার একটি পুনরাবৃত্তি ব্যবস্থা ছিল যেখানে কিছু ব্যক্তির জন্য, পুনরাবৃত্তি পরিমাপটি টাইম 2 তে একই সময়ে ছিল যেমন 1 সময় ছিল This এটি পরবর্তীকালে ভুল হিসাবে প্রমাণিত হয়েছিল, যেমনটি আপনি প্রত্যাশা করেছিলেন। অন্য একটি ডেটাসেটের এমন একজন ব্যক্তি ছিলেন যা বোর্ডের জুড়ে 0 এর প্রতিনিধিত্ব করে খুব মারাত্মকভাবে বিঘ্নিত হয়ে উঠেন (উচ্চ স্কোর দ্বারা প্রতিনিধিত্ব করা) হন। এটি কেবল অসম্ভব, যদিও আমি এটি নির্দিষ্ট করে প্রমাণ করতে পারিনি।

সুতরাং টাইপস না রয়েছে এবং এগুলিতে অসম্ভব মান রয়েছে না তা নিশ্চিত করার জন্য আমি প্রতিটি ডেটাसेटে কী বুনিয়াদি পরীক্ষা চালাতে পারি?

আগাম ধন্যবাদ!


3
দুর্দান্ত প্রশ্ন। আমি সন্দেহ করি যে সাধারণ উত্তর দেওয়া কঠিন হবে কারণ চেকগুলি ডেটা সেটের নির্দিষ্টকরণের উপর নির্ভর করবে।
999

2
@ চিহ্ন 999 আমি সম্মত আমি এই প্রশ্নের উত্তর পড়তে আগ্রহী হবে। কিছু সাধারণ কৌশল আছে তবে আমি দেখতে পেয়েছি যে অনেকগুলি চেকিং ডোমেনের সুনির্দিষ্ট প্রত্যাশাগুলি তৈরি করা, উভয় ডেটা কেমন হওয়া উচিত এবং কিছু সাধারণ ত্রুটি যা উত্থিত হতে পারে সে সম্পর্কে।
জেরোমি অ্যাংলিম

উত্তর:


77

এটি কীভাবে ডেটা রেকর্ড করা হয়েছিল তা বুঝতে সহায়তা করে।

আমাকে একটি গল্প ভাগ করে দিন । একবার, অনেক আগে, অনেক ডেটাসেট কেবল বিবর্ণ হার্ডকপিতে সংরক্ষণ করা হয়েছিল। সেই অন্ধকার দিনগুলিতে আমি একটি সংস্থার সাথে চুক্তি করেছিলাম (দুর্দান্ত বংশ ও আকারের; আপনার অনেকেরই সম্ভবত এটির স্টক রয়েছে) এর উত্পাদনকেন্দ্রের একটিতে পরিবেশগত পর্যবেক্ষণের ডেটা প্রায় 10 ^ 5 রেকর্ডকে কম্পিউটারাইজ করার জন্য। এটি করার জন্য, আমি ব্যক্তিগতভাবে পরীক্ষাগারের প্রতিবেদনের একটি তাককে চিহ্নিত করেছি (ডেটা কোথায় ছিল তা দেখানোর জন্য), ডেটা এন্ট্রি ফর্মগুলি তৈরি করেছিলাম এবং সাক্ষরতার জন্য কোনও অস্থায়ী সংস্থার সাথে চুক্তিবদ্ধ হয়েছিকর্মীরা ফর্মগুলিতে ডেটা টাইপ করতে। (হ্যাঁ, আপনাকে পড়তে পারে এমন লোকদের জন্য আপনাকে অতিরিক্ত মূল্য দিতে হয়েছিল।) তথ্যের মূল্য এবং সংবেদনশীলতার কারণে আমি এই প্রক্রিয়াটি একবারে দু'জন কর্মীর সাথে সমান্তরালভাবে পরিচালনা করেছিলাম (যারা সাধারণত দিন থেকে দিন বদলে যায়)। কয়েক সপ্তাহ সময় লেগেছিল। আমি এন্ট্রি দুটি সেট তুলনা করতে সফ্টওয়্যার লিখেছি, নিয়মিতভাবে প্রদর্শিত সমস্ত ত্রুটি চিহ্নিত এবং সংশোধন।

ছেলে ত্রুটি ছিল! কী ভুল হতে পারে? ত্রুটিগুলি বর্ণনা করার এবং পরিমাপ করার একটি ভাল উপায় হ'ল মৌলিক রেকর্ডের স্তরে , যা এই পরিস্থিতিতে একটি নির্দিষ্ট পর্যবেক্ষণের স্থানে প্রাপ্ত নির্দিষ্ট নমুনার জন্য একটি বিশ্লেষণাত্মক ফলাফলের (কিছু রাসায়নিকের ঘনত্ব, প্রায়শই) বর্ণনা ছিল a প্রদত্ত তারিখ দুটি ডেটাসেটের তুলনায়, আমি পেয়েছি:

  • বাদ দেওয়ার ত্রুটি : একটি ডেটাসেট একটি রেকর্ড অন্তর্ভুক্ত করবে, অন্য না। এটি সাধারণত ঘটেছিল কারণ (ক) একটি পৃষ্ঠার নীচে একটি লাইন বা দুটি উপেক্ষা করা হবে বা (খ) একটি সম্পূর্ণ পৃষ্ঠা বাদ দেওয়া হবে।

  • বাদ দেওয়ার দৃশ্যত ত্রুটি যা সত্যই ডেটা-প্রবেশের ভুল ছিল। একটি রেকর্ডটি একটি মনিটরিং পয়েন্টের নাম, একটি তারিখ এবং "বিশ্লেষক" (সাধারণত কোনও রাসায়নিক নাম) দ্বারা সনাক্ত করা হয়। এর মধ্যে যদি কোনও টাইপোগ্রাফিক ত্রুটি থাকে তবে এটি সম্পর্কিত অন্যান্য রেকর্ডগুলির সাথে এটি মিলবে না। কার্যত, সঠিক রেকর্ড অদৃশ্য হয়ে যায় এবং একটি ভুল রেকর্ড উপস্থিত হয়।

  • জাল নকল । একই ফলাফল একাধিক উত্সে উপস্থিত হতে পারে, একাধিকবার প্রতিলিপি হতে পারে এবং যখন তা না হয় তবে সত্যিকারের পুনরাবৃত্তি ব্যবস্থা বলে মনে হয়। সদৃশগুলি সনাক্তকরণের জন্য সোজা, তবে ডুপ্লিকেটগুলি এমনকি ডেটাসেটে উপস্থিত হওয়া উচিত কিনা তা নির্ভর করে er কখনও কখনও আপনি শুধু জানতে পারবেন না।

  • ফ্র্যাঙ্ক ডেটা-এন্ট্রি ত্রুটি । "ভাল "গুলি সহজেই ধরা সহজ কারণ তারা ডেটামের ধরণ পরিবর্তন করে : উদাহরণস্বরূপ" 0 "অঙ্কের জন্য" O "অক্ষরটি ব্যবহার করে একটি সংখ্যাটিকে অ-সংখ্যাতে পরিণত করে। অন্যান্য ভাল ত্রুটিগুলি মানটিকে এত বেশি পরিবর্তন করে যে এটি সহজেই পরিসংখ্যান পরীক্ষার মাধ্যমে সনাক্ত করা যায়। (একটি ক্ষেত্রে, "১০,০০০ জন মিলিগ্রাম / কেজি" -এর শীর্ষস্থানীয় সংখ্যাটি 10 ​​কে একটি মান রেখে কেটে গেছে That's এটি একটি বিশাল পরিবর্তন, যখন আপনি কীটনাশকের ঘনত্বের কথা বলছেন!) খারাপ ত্রুটিগুলি ধরা শক্ত কারণ তারা পরিবর্তন করে "50" এর জন্য "80" টাইপ করার মতো বাকী ডেটার সাথে (ধরণের) ফিট করে এমন একটি মান one (ওসিআর সফ্টওয়্যার দিয়ে সর্বদা এই জাতীয় ভুল হয় happens)

  • স্থানান্তর । সঠিক মানগুলি প্রবেশ করা যেতে পারে তবে ভুল রেকর্ড কীগুলির সাথে যুক্ত হতে পারে। এটি কুখ্যাত, কারণ ডেটাসেটের বৈশ্বিক পরিসংখ্যানগত বৈশিষ্ট্যগুলি অবিচ্ছিন্ন থাকতে পারে তবে গোষ্ঠীগুলির মধ্যে উত্সাহজনক পার্থক্য তৈরি হতে পারে। সম্ভবত কেবল ডাবল-প্রবেশের মতো একটি ব্যবস্থাও এই ত্রুটিগুলি সনাক্ত করতে সক্ষম।

একবার আপনি এই ত্রুটিগুলি সম্পর্কে অবগত হয়ে ওঠেন এবং কীভাবে এটি ঘটে যায় সে সম্পর্কে কোনও তত্ত্ব জানার পরে, আপনি এই জাতীয় ত্রুটিগুলির সম্ভাব্য উপস্থিতির জন্য আপনার ডেটাসেটগুলি ট্রল করতে স্ক্রিপ্টগুলি লিখতে পারেন এবং আরও মনোযোগের জন্য এটিকে পতাকাঙ্কিত করতে পারেন। আপনি সর্বদা এগুলি সমাধান করতে পারবেন না, তবে তাদের পরবর্তী বিশ্লেষণ জুড়ে ডেটা সহ আপনি অন্তত একটি "মন্তব্য" বা "মানের পতাকা" ক্ষেত্র অন্তর্ভুক্ত করতে পারেন।

সেই সময় থেকে আমি ডেটা মানের বিষয়গুলিতে মনোযোগ দিয়েছি এবং বৃহত পরিসংখ্যানীয় ডেটাসেটের বিস্তৃত চেক করার আরও অনেক সুযোগ পেয়েছি। কেউই নিখুঁত নয়; এগুলি সব মানের চেক থেকে উপকৃত হয়। এটি করার জন্য আমি কয়েক বছর ধরে যে নীতিগুলি বিকাশ করেছি তার মধ্যে অন্তর্ভুক্ত রয়েছে

  1. যখনই সম্ভব, ডেটা এন্ট্রি এবং ডেটা ট্রান্সক্রিপশন পদ্ধতিতে রিডানডেন্সি তৈরি করুন : চেকসাম, মোট, বারবার এন্ট্রি: ধারাবাহিকতার স্বয়ংক্রিয় অভ্যন্তরীণ চেকগুলিকে সমর্থন করার জন্য কিছু anything

  2. যদি সম্ভব হয় তবে অন্য একটি ডাটাবেস তৈরি এবং ব্যবহার করুন যা ডেটা দেখতে কেমন হবে তা বর্ণনা করে: এটি কম্পিউটার-পঠনযোগ্য মেটাডেটা। উদাহরণস্বরূপ, ওষুধের পরীক্ষায় আপনি আগে থেকেই জানতে পারবেন যে প্রতিটি রোগীকে তিনবার দেখা হবে। এটি আপনাকে সমস্ত সঠিক রেকর্ড এবং তাদের শনাক্তকারীদের কেবলমাত্র পূরণ করার অপেক্ষায় থাকা মানগুলির সাথে একটি ডেটাবেস তৈরি করতে সক্ষম করে given আপনাকে প্রদত্ত ডেটা পূরণ করুন এবং তারপরে নকল, বাদ দেওয়া এবং অপ্রত্যাশিত ডেটা পরীক্ষা করুন।

  3. বিশ্লেষণের জন্য আপনি কীভাবে ডেটাসেট ফর্ম্যাট করার পরিকল্পনা করছেন তা বিবেচনা না করে সর্বদা আপনার ডেটা স্বাভাবিক করুন (বিশেষত এগুলি কমপক্ষে চতুর্থ সাধারণ ফর্মে আনুন )। এটি আপনাকে মডেলিংয়ের প্রতিটি স্বতন্ত্র স্বতন্ত্র সারণীর সারণী তৈরি করতে বাধ্য করে। (পরিবেশগত ক্ষেত্রে, এর মধ্যে নিরীক্ষণের অবস্থানের সারণী, নমুনা, রাসায়নিক (বৈশিষ্ট্য, সাধারণ রেঞ্জ ইত্যাদি), এই নমুনাগুলির পরীক্ষা (একটি পরীক্ষা সাধারণত রাসায়নিকের একটি স্যুটকে অন্তর্ভুক্ত করে) এবং সেই পরীক্ষাগুলির স্বতন্ত্র ফলাফল অন্তর্ভুক্ত থাকে। এর ফলে আপনি ডেটা গুণমান এবং ধারাবাহিকতার অনেক কার্যকর চেক তৈরি করেন এবং অনেকগুলি সম্ভাব্য অনুপস্থিত বা সদৃশ বা অসামঞ্জস্যপূর্ণ মানগুলি সনাক্ত করেন identify

    এই প্রচেষ্টা (যার জন্য ভাল ডেটা প্রসেসিং দক্ষতার প্রয়োজন তবে সোজা হয়) আশ্চর্যজনকভাবে কার্যকর। আপনি যদি বৃহত বা জটিল ডেটাসেটগুলি বিশ্লেষণ করতে আগ্রহী হন এবং রিলেশনাল ডাটাবেসগুলি এবং তাদের তত্ত্ব সম্পর্কে ভাল কাজের জ্ঞান না পেয়ে থাকেন তবে যত তাড়াতাড়ি সম্ভব আপনার জিনিসগুলির তালিকায় যুক্ত করুন। এটি আপনার পুরো ক্যারিয়ার জুড়ে লভ্যাংশ প্রদান করবে।

  4. আপনি যতটা সম্ভব সম্ভব সর্বদা যতগুলি "বোকা" চেক সঞ্চালন করুন । এগুলি সুস্পষ্ট বিষয়গুলির স্বয়ংক্রিয় যাচাইকরণ যেমন তারিখগুলি তাদের প্রত্যাশিত সময়কালের মধ্যে পড়ে, রোগীদের সংখ্যা (বা রাসায়নিক বা যে কোনও কিছু) সর্বদা সঠিকভাবে যুক্ত হয়, মানগুলি সর্বদা যুক্তিসঙ্গত হয় (যেমন, একটি পিএইচ অবশ্যই ০ থেকে ১৪ এর মধ্যে হতে পারে এবং হতে পারে ব্লাড পিএইচ রিডিং), ইত্যাদির জন্য অনেক সংকীর্ণ পরিসীমা এই যেখানে ডোমেন দক্ষতা সর্বাধিক সাহায্য হতে পারে: পরিসংখ্যানবিদ নির্ভীকভাবে বিশেষজ্ঞদের বোকা প্রশ্ন জিজ্ঞাসা করতে পারেন এবং ডেটা পরীক্ষা করার জন্য উত্তরগুলি কাজে লাগাতে পারেন।

আরও অনেক কিছু বলা যেতে পারে - বিষয়টি একটি বইয়ের পক্ষে মূল্যবান - তবে এটি ধারণাগুলি উদ্দীপনার জন্য পর্যাপ্ত পরিমাণে হওয়া উচিত।



2
একটি ফলোআপ প্রশ্ন- বিষয়টি একটি বইয়ের মূল্য- কোনও বই আছে?
ক্রিস বিলি

5
+1 - দুর্দান্ত উত্তর whuber। আমি আশা করি আপনার একটি ব্লগ ছিল :) (আমি আপনার লেখাটি আর-ব্লগার.কম এ যুক্ত করতে পছন্দ করতাম)
তাল

2
আপনার বইটি লেখা উচিত যে বিষয়টি মূল্যবান!
জাচ

1
এটি এত জটিল যে অনেকগুলি পরামর্শক সংস্থাগুলি "ডেটা পুনরুদ্ধার / পরিষ্কার / স্টোরেজ" এ বিশেষজ্ঞ।
লুকাস রেইস

25

@ হুবার দুর্দান্ত পরামর্শ দেয়; আমি কেবল এটি যুক্ত করব: প্লট, প্লট, প্লট, প্লট। স্ক্যাটারপ্লটস, হিস্টোগ্রাম, বক্সপ্লটস, লাইনপ্লটস, হিটম্যাপস এবং আপনি যে কোনও কিছু ভাবতে পারেন। অবশ্যই, আপনি যেমনটি খুঁজে পেয়েছেন ত্রুটিগুলি রয়েছে যা কোনও প্লটে প্রদর্শিত হবে না তবে তারা শুরু করার জন্য ভাল জায়গা। আপনার সফ্টওয়্যার কীভাবে হারিয়ে যাওয়া ডেটা ইত্যাদির পরিচালনা করে সে সম্পর্কে আপনি পরিষ্কার হয়ে গেছেন তা নিশ্চিত করুন Just

প্রসঙ্গে আপনি সৃজনশীল পেতে পারেন উপর নির্ভর করে। মাল্টিভিয়ারেট ডেটাগুলির সাথে আমি এক জিনিসটি করতে চাই তা কোনও ধরণের ফ্যাক্টর মডেল / সম্ভাব্য পিসিএ ফিট (এমন কিছু যা তথ্য হারিয়ে যাওয়ার জন্য একাধিক প্রত্যাখ্যান করবে) এবং যতগুলি সম্ভব উপাদানগুলির জন্য স্কোরগুলি তাকান। ডেটা পয়েন্টগুলি যা কম গুরুত্বপূর্ণ উপাদানগুলি / উপাদানগুলির উপর উচ্চতর স্কোর করে সেগুলি প্রায়শই অপ্রদর্শক হয় যা আপনি অন্যথায় দেখতে পাবেন না।


5
+1 প্লট করা শিকাগোর পক্ষে ভোটদান কী তা পরিসংখ্যানগুলির জন্য: প্রত্যেকে এবং প্রায়শই কিছু কিছু করে। ;-)
হোবার

15

আমি যে বড় বিষয়গুলি পরীক্ষা করতে চাইছি:

  1. পরিবর্তনশীল প্রকার - দেখতে একটি সংখ্যাটি সাংখ্যিক, এবং গুণক / চরিত্র নয় (প্রবেশ করানো ডেটাতে কিছু সমস্যা নির্দেশ করতে পারে)
  2. সামঞ্জস্যপূর্ণ মান স্তর - এটি দেখতে যে "t1" নামের কোনও ভেরিয়েবল "t1" বা "t 1" নামের সাথে আবার এটি খুঁজে পায় না name
  3. আউটলিয়াররা - দেখুন যে মানের সীমাগুলি বোধগম্য হয়। (আপনি কি রক্তচাপের মান 0 বা মাইনাস পেয়েছেন?)। এখানে আমরা মাঝে মাঝে জানতে পারি যে কেউ -5 এনকোড করে মান হিসাবে অনুপস্থিত, বা এরকম কিছু।
  4. লিনিয়ার সীমাবদ্ধতা। আমি এটি ব্যবহার করি না, তবে কেউ কেউ দেখতে পান যে তারা কিছু কলামের নির্ভরতার উপর পুনর্নির্মাণ করতে চান (কলাম এ, বি অবশ্যই সিটিতে যুক্ত হবে, বা এর মতো কিছু)। এর জন্য আপনি কর্তনযোগ্য প্যাকেজটি একবার দেখে নিতে পারেন (আমি স্পিকার মার্ক ভ্যান ডার লুর সাথে দেখা হয়েছিল, শেষ ইউজারআর সম্মেলনে - এবং তার প্যাকেজটি দেখে খুব মুগ্ধ হয়েছিল)
  5. খুব কম এলোমেলো। কখনও কখনও মানগুলি কিছু মানকে বৃত্তাকারে পরিণত হতে পারে বা কোনও সময়ে ছাঁটাই হয়। এই ধরণের জিনিসগুলি প্রায়শই বিচ্ছুরিত প্লটে আরও স্পষ্ট হয়।
  6. অনুপস্থিত মান - নিখোঁজ হওয়া অন্য কোনও চলক সম্পর্কিত (এলোমেলোভাবে অনুপস্থিত) এর সাথে সম্পর্কিত নয় তা নিশ্চিত করে। তবে এখানে দেওয়ার মতো আমার কোনও নিয়ম নেই।
  7. খালি সারি বা সারি বেশিরভাগই কোনও মান নেই। এগুলি (সাধারণত) পাওয়া এবং বাদ দেওয়া উচিত।

দুর্দান্ত প্রশ্ন বিটিডাব্লু - আমি বিষয়টি সম্পর্কে অন্যান্য ব্যক্তির অভিজ্ঞতা পড়তে আশা করি।


10

যখন আপনার সাথে সময়মতো ব্যবস্থাগুলি থাকে (" অনুদৈর্ঘ্য ডেটা ") তখন প্রায়শই গ্রেডিয়েন্টগুলি এবং প্রান্তিক বিতরণগুলি পরীক্ষা করতে কার্যকর হয়। এই গ্রেডিয়েন্টটি বিভিন্ন স্কেলে গণনা করা যায়। আরও সাধারণভাবে আপনি আপনার ডেটাতে (ফুরিয়ার, ওয়েভলেট) অর্থবহ রূপান্তর করতে পারেন এবং রূপান্তরিত তথ্যের প্রান্তিকের বিতরণ পরীক্ষা করতে পারেন।


7

কয়েকটি আমি সবসময়ই যেতে পারি:

  1. সেখানে রেকর্ড সংখ্যা আছে বলে মনে হচ্ছে? উদাহরণস্বরূপ, আপনি যদি অন্য কোনও উত্স থেকে আপনার ডেটা টানেন, বা এটি কোনও এলস ডেটার উপ-সেট, আপনার সংখ্যাগুলি যুক্তিসঙ্গত বলে মনে হচ্ছে। আপনি মনে করেন এটি আবৃত হবে তবে আপনি অবাক হবেন।
  2. আপনার সমস্ত পরিবর্তনক আছে? এই ভেরিয়েবলগুলির মানগুলি কী বোঝায়? উদাহরণস্বরূপ, যদি একটি হ্যাঁ / না / মিসিং ভেরিয়েবল "1,2,3" কোড করে থাকে - এর অর্থ কী?
  3. আপনার অনুপস্থিত মান কোথায়? এমন কিছু ভেরিয়েবল রয়েছে যেগুলি নিখোঁজ হওয়া তথ্যের সাথে ভারাক্রান্ত বলে মনে হচ্ছে? বিপুল সংখ্যক অনুপস্থিত মান সহ কিছু নির্দিষ্ট বিষয় রয়েছে।

সেগুলি অনুসন্ধানের ডেটা বিশ্লেষণের মতো কোনও ডেটাসেট এমনকি প্রস্তুত হওয়ার জন্য তা নিশ্চিত করার জন্য আমি প্রথম পদক্ষেপগুলি পাচ্ছি। সবে বসে বসে ডেটা নিয়ে ঘোরাঘুরি করছে কিছু "কি ... ঠিক মনে হচ্ছে?"


1

আমি প্রতিটি কলামে স্বীকৃতি স্যাম্পলিং পদ্ধতি ব্যবহার করব (এটি কাট-অফ নম্বর দেয় যেখানে আপনি উচ্চ মানের এবং নিম্ন মানের মধ্যে লাইন আঁকতে পারেন), তার জন্য একটি অনলাইন ক্যালকুলেটর রয়েছে।


3
এটি বর্তমানে হিসাবে দাঁড়িয়ে একটি উত্তর হিসাবে একটি মন্তব্য হিসাবে ভাল মাপসই করা হবে। দয়া করে কিছুটা বিশদভাবে বর্ণনা করুন, উত্স বা রেফারেন্স ইত্যাদির লিঙ্ক সরবরাহ করুন
এন্টোইন

1
এটি এমন অনেক পরিস্থিতিতে দেখা মুশকিল, যেখানে এটি কার্যকর এবং অনেকের পক্ষে সহজেই পাওয়া যায় যার জন্য এটি কোনও কাজ করে না (যেমন স্ট্রিং বা অন্যান্য নামমাত্র ডেটা) বা ভয়ঙ্কর (কারণ এটি সমস্ত বহুবিধ সম্পর্ককে সম্পূর্ণ উপেক্ষা করে)। এটি স্বেচ্ছাসেবী বলেও মনে হয়, কারণ সময় সিরিজ (এবং কিছু সম্পর্কিত ডেটা) বাদে কোনও ডাটা টেবিলের রেকর্ডগুলিতে কোনও অন্তর্নিহিত ক্রম নেই, যেখানে অনেকগুলি (সমস্ত না থাকলে) স্যাম্পলিংয়ের পদ্ধতিগুলি ক্রমের উপর নির্ভর করে।
whuber

ঠিক আছে, এখানে ব্যবহারের জন্য ক্যালকুলেটরটি রয়েছে: sqconline.com/… যতক্ষণ আপনি র্যান্ডমাইজেশন স্বীকৃতি স্যাম্পলিং ব্যবহার করেন ততক্ষণ। আপনি যদি এটি জটিল করতে চান তবে আপনি নিয়মিত পদ্ধতিতে নমুনা কৌশলটি ব্যবহার করতে পারেন এবং তারপরে প্রতিটি বিভাগে গ্রহণযোগ্যতা নমুনা ব্যবহার করতে পারেন
তারেক শাহওয়ান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.