একটি বৃহত সামগ্রিক ডেটাসেট থেকে কীভাবে প্রতিনিধি নমুনা সেট করবেন?


10

একটি নমুনা সেট তৈরি করার পরিসংখ্যান কৌশলগুলি কী, যা সমগ্র জনগোষ্ঠীর প্রতিনিধি (একটি পরিচিত আত্মবিশ্বাসের স্তর সহ)?

এছাড়াও,

  • কীভাবে যাচাই করবেন, যদি নমুনা সামগ্রিক ডেটাসেটের সাথে ফিট করে?
  • পুরো ডেটাসেট (যা কোটি কোটি রেকর্ড হতে পারে) পার্সিং না করেই কি এটি সম্ভব?

উত্তর:


8

আপনি যদি পুরো ডেটা সেটটি বিশ্লেষণ করতে না চান তবে আপনি সম্ভবত স্তরযুক্ত নমুনা ব্যবহার করতে পারবেন না , তাই আমি একটি বড় সাধারণ এলোমেলো নমুনা নেওয়ার পরামর্শ দেব । এলোমেলো নমুনা গ্রহণ করে , আপনি নিশ্চিত করেছেন যে নমুনাটি গড়ে পুরো ডেটাসেটের প্রতিনিধিত্ব করবে এবং স্ট্যান্ডার্ড ত্রুটি এবং আত্মবিশ্বাসের অন্তরগুলির মতো নির্ভুলতার মানক পরিসংখ্যানগত ব্যবস্থা আপনাকে জানাবে যে আপনার নমুনা অনুমানের সম্ভাবনা জনসংখ্যার কতটা দূরে রয়েছে হতে পারে, তাই কোনও নমুনা জনসংখ্যার প্রতিনিধি হিসাবে যাচাই করার কোনও সত্যিকারের প্রয়োজন নেই যদি আপনার কিছু উদ্বেগ না থাকে যা সত্যই এলোমেলোভাবে নমুনাযুক্ত হয়েছিল।

একটি সাধারণ এলোমেলো নমুনা কত বড়? ঠিক আছে, নমুনা যত বড় হবে আপনার অনুমানগুলি তত বেশি নির্ভুল হবে। আপনার কাছে ইতিমধ্যে ডেটা রয়েছে বলে প্রচলিত নমুনা আকারের গণনাগুলি সত্যিই প্রযোজ্য নয় - আপনি কম্পিউটারের জন্য যতটা ব্যবহারিক ততটুকু ব্যবহার করতে পারেন dat আপনি যদি এমন জটিল জটিল বিশ্লেষণগুলি করার পরিকল্পনা করছেন যা গণনার সময়কে একটি সমস্যা হিসাবে চিহ্নিত করবে, আপনার পিসিতে পেজিং না করেই সাধারণ র্যান্ডম নমুনাটিকে যত বড় বিশ্লেষণ করা যায় তত সহজ করার জন্য একটি সহজ উপায় হবে approachবা অন্যান্য স্মৃতি সমস্যা। থাম্বের একটি নিয়ম আপনার ডেটাসেটের আকারকে আপনার কম্পিউটারের র‌্যামের অর্ধেকের বেশি সীমাবদ্ধ করার জন্য যাতে এটির ব্যবহারের জন্য জায়গা থাকতে পারে এবং ওএসের জন্য স্থান ছেড়ে যেতে পারে এবং সম্ভবত আরও কয়েকটি ছোট অ্যাপ্লিকেশন (যেমন সম্পাদক এবং ওয়েব ব্রাউজার) )। আর একটি সীমাবদ্ধতা হ'ল 32-বিট উইন্ডোজ অপারেটিং সিস্টেমগুলি কোনও একক অ্যাপ্লিকেশনটির জন্য ঠিকানা স্থানটিকে এর চেয়ে বড় হতে দেয় না231 বাইটস = 2.1 গিগাবাইট, সুতরাং আপনি যদি 32-বিট উইন্ডোজ ব্যবহার করেন তবে 1 জিবি কোনও ডেটাসেটের আকারের একটি যুক্তিসঙ্গত সীমা হতে পারে।

তারপরে প্রতিটি পর্যবেক্ষণের জন্য আপনার কতগুলি ভেরিয়েবল রয়েছে এবং প্রতিটি ভেরিয়েবল কতগুলি বাইট নেয় তা গণনা করার জন্য কিছু সাধারণ পাটিগণিতের বিষয়।


আপনার উত্তরের জন্য ধন্যবাদ. আমি অনুমান করি যে আমি স্তরিত নমুনা খুঁজছি। (আমি আলগোরিদিমগুলির সন্ধান করছিলাম, যেগুলি গণনাগতভাবে খুব ব্যয়বহুল নয়, পুরো জনসংখ্যাকে বিশ্লেষণ না করে, একটি প্রতিনিধি সেট তৈরি করা, এমনকি কোনও অর্থ দেয় না: :-))
মোহিত রাঙ্কা

2

আপনার দ্বিতীয় প্রশ্নে প্রথমে আপনি জিজ্ঞাসা করতে পারেন, "ডেটা কীভাবে প্রবেশ করা হয়েছিল?" আপনি যদি মনে করেন যে ডেটা তুলনামূলকভাবে স্বেচ্ছাসেবী ফ্যাশনে প্রবেশ করা হয়েছিল (অর্থাত্, আপনার পর্যবেক্ষণগুলির যে কোনও পর্যবেক্ষণযোগ্য বা অবলম্বনযোগ্য বৈশিষ্ট্য যা ডেটা ব্যবহার করে আপনার চূড়ান্ত বিশ্লেষণকে প্রভাবিত করতে পারে তার চেয়ে আলাদা), তবে আপনি প্রথম 5 মিলিয়ন বিবেচনা করতে পারেন, তবে বলুন বা অনেকের সাথে আপনি সম্পূর্ণ নমুনার প্রতিনিধি হিসাবে কাজ করতে স্বাচ্ছন্দ্য বোধ করেন এবং আপনি কাজ করতে পারেন এমন একটি নমুনা তৈরি করতে এই গ্রুপ থেকে এলোমেলোভাবে নির্বাচন করুন।

দুটি পরীক্ষামূলক বিতরণের তুলনা করতে, আপনি কিউকিউ প্লট এবং দ্বি-নমুনা কলমোগোরভ – স্মারনভ বিতরণে পার্থক্যের জন্য নন-প্যারাম্যাট্রিক পরীক্ষা ব্যবহার করতে পারেন (উদাহরণস্বরূপ, এখানে: http://en.wikedia.org/wiki/Kolmogorov%E2 % 80% 93 স্মারনভ_তম )। এই ক্ষেত্রে, আপনি আপনার "সম্পূর্ণ" ডেটা সেটে সেই পরিবর্তনশীল বন্টনের বিরুদ্ধে আপনার নমুনায় প্রতিটি ভেরিয়েবলের বিতরণ পরীক্ষা করবেন (আবার এটি আপনার সম্পূর্ণ নমুনা থেকে মাত্র 5 মিলিয়ন পর্যবেক্ষণ হতে পারে)। কেএস টেস্টটি কম বিদ্যুতের সাথে ভুগতে পারে (যেমন, গ্রুপগুলির মধ্যে কোনও পার্থক্যের নাল অনুমানটি বাতিল করা শক্ত) তবে অনেক পর্যবেক্ষণের সাথে আপনার ঠিক হওয়া উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.