আরএমএসই এর উপর ভিত্তি করে নির্ভুলতার পরিমাপ কীভাবে গণনা করবেন? আমার বড় ডেটাসেটটি সাধারণত বিতরণ করা হয়?


9

কয়েক হাজার পয়েন্টের ক্রমে আমার বেশ কয়েকটি ডেটাসেট রয়েছে। প্রতিটি ডেটাসেটের মানগুলি হ'ল এক্স, ওয়াই, জেড স্থানের স্থানাঙ্কের উল্লেখ করে। জেড-মান স্থানাঙ্ক জোড়া (এক্স, ওয়াই) এর উচ্চতার পার্থক্যের প্রতিনিধিত্ব করে।

সাধারণত আমার জিআইএসের ক্ষেত্রে, আরএমএসইতে উচ্চতা ত্রুটিটিকে একটি পরিমাপের পয়েন্টে (লিডার ডেটা পয়েন্ট) বিস্তৃত করে গ্রাউন্ড-ট্রুথ পয়েন্টটি বিয়োগ করে রেফারেন্স করা হয়। সাধারণত সর্বনিম্ন 20 গ্রাউন্ড-ট্রুথিং চেক পয়েন্ট ব্যবহার করা হয়। এই আরএমএসই মানটি ব্যবহার করে এনডিইপি (ন্যাশনাল ডিজিটাল এলিভেশন গাইডলাইনস) এবং ফেমা নির্দেশিকা অনুসারে নির্ভুলতার একটি পরিমাপ গণনা করা যেতে পারে: নির্ভুলতা = 1.96 * আরএমএসই।

এই যথার্থতাটি হিসাবে বর্ণিত হয়েছে: "মৌলিক উল্লম্ব যথার্থতা হ'ল মান যার দ্বারা উল্লম্ব নির্ভুলতার সমানভাবে মূল্যায়ন করা যায় এবং ডেটাসেটগুলির মধ্যে তুলনা করা যায়। লম্বালম্বিত নির্ভুলতা উল্লম্ব আরএমএসইয়ের একটি কার্য হিসাবে 95-শতাংশ আস্থা স্তরে গণনা করা হয়।"

আমি বুঝতে পারি যে একটি সাধারণ বিতরণ বক্ররেখার আওতাধীন 95% অঞ্চলটি 1.96 * স্ট্যান্ড.ডিভিয়েশন এর মধ্যে অবস্থিত, তবে এটি আরএমএসই সম্পর্কিত নয়।

সাধারণত আমি এই প্রশ্নটি জিজ্ঞাসা করছি: 2-ডেটাসেট থেকে গণিত আরএমএসই ব্যবহার করে আমি কীভাবে আরএমএসইকে কিছুটা নির্ভুলতার সাথে সম্পর্কিত করতে পারি (অর্থাত আমার ডেটা পয়েন্টের 95 শতাংশ + +-এক্স সেন্টিমিটারের মধ্যে)? এছাড়াও, আমি কীভাবে নির্ধারণ করতে পারি যে আমার ডেটাসেটটি এমন একটি বড় ডেটাসেটের সাথে ভালভাবে কাজ করে এমন কোনও পরীক্ষা ব্যবহার করে বিতরণ করা হয়? একটি সাধারণ বিতরণের জন্য "যথেষ্ট ভাল" কী? সমস্ত পরীক্ষার জন্য পি <0.05 উচিত, বা এটি একটি সাধারণ বিতরণের আকারের সাথে মিলে যায়?


আমি নিম্নলিখিত কাগজে এই বিষয় সম্পর্কে খুব ভাল কিছু তথ্য পেয়েছি:

http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf


4
সতর্ক থেকো! আপনার কেএসএস্টের ব্যবহারটি ভুল। সহায়তা পৃষ্ঠা অনুসারে আপনাকে 'ডনরম' এর পরিবর্তে 'পনরম' ব্যবহার করতে হবে। তদ্ব্যতীত, তুলনামূলক বিতরণের প্যারামিটারগুলি গড়তে এবং নমুনার এসডি নিজেই পি-মানকে যথেষ্ট পরিমাণে বাড়িয়ে তুলবে: "যদি একটি একক-নমুনা পরীক্ষা ব্যবহৃত হয় তবে ... নির্দিষ্ট করা প্যারামিটারগুলি অবশ্যই পূর্বনির্ধারিত হওয়া উচিত এবং এটি থেকে অনুমান করা উচিত নয় তথ্যটি."
whuber

3
ঠিক আছে, প্রকৃতপক্ষে, সেই সূত্রটি আপনাকে আত্মবিশ্বাসের ব্যবধান দেবে না: এটির জন্য এটি অনেক বেশি বড় হবে। সহনশীলতার ব্যবধানটি অনুমান করার পক্ষে এটি সত্যিই একটি অশোধিত (তবে মানক) উপায় , যা পুরো 95% পার্থক্যের মধ্যম is পার্থক্যগুলির একটি সাধারণ বিতরণ হবে না বলে মনে করার উপযুক্ত কারণ রয়েছে : বৃহত্তর পরম্পরাগত পার্থক্য বৃহত্তর টোগোগ্রাফিক opালের সাথে যুক্ত হতে থাকে। আপনার 4000 পয়েন্টগুলি এই পার্থক্যের একটি এলোমেলো নমুনা হিসাবে ধরে নিচ্ছেন, কেন আপনি কেবল তাদের 2.5 এবং 97.5 শতাংশের প্রতিবেদন করছেন না?
হোয়াট

4
আপনার ডেটা পরিমাপ করা যায় এমন উচ্চতার একটি পরিসংখ্যানের নমুনা তৈরি করে। আপনি যখন "নির্ভুলতা" সম্পর্কে কথা বলছেন আপনি যখন আপনার ডিইএমগুলি উচ্চতার পুরো জনসংখ্যাকে কতটা নিবিড়ভাবে উপস্থাপন করেন সে সম্পর্কে দাবী করছেন । আপনার ক্ষেত্রে, ডেটাসেটের তুলনা করে নির্ভুলতা নির্ধারণ করা অসম্ভব: আপনাকে আপনার ডেটা "ফিল্ড-ট্রুথ" করতে হবে। সুতরাং, নির্দেশিকা সত্যই দুটি ডেটাসেটের আপেক্ষিক চুক্তির বিষয়ে কথা বলছে । অবশেষে, তাদের "আত্মবিশ্বাস স্তর" ব্যবহার ভুল হয়েছে, আমি আগেই ব্যাখ্যা করেছি। আমি স্বীকার করি আপনাকে এই জাতীয় ভয়ঙ্কর দিকনির্দেশনার কাঠামোর মধ্যে কাজ করতে হবে তবে সঠিক কি তা আপনি জানার অধিকারী।
হুবুহু

3
এটি আপনার জন্য একটি দরকারী প্রশ্নের মতো শোনাচ্ছে। আপনি এখনও কোনও উত্তর পাননি বলে আপনি এই মন্তব্যে প্রকাশিত তথ্য অন্তর্ভুক্ত করার জন্য কেন কেবলমাত্র বর্তমান প্রশ্নটিকে পুরোপুরি সম্পাদনা করবেন না? নির্দেশিকা উদ্ধৃত পরে (দেখানোর জন্য পদ্ধতি ধরনের কি সাধারণত আপনার ক্ষেত্রে নিযুক্ত করা হয়), আপনি বেশ সাধারণত চাইতে পারি কিভাবে বিতরণের ব্যবহার করার জন্য: আমি এটা কিছুটা বাড়ানোর সুপারিশ করবে পরিবাহিত মধ্যে পার্থক্যের আদেশ জোড়া (এক অভিমানী সঠিকতা মূল্যায়ন করার ডেটা সেটগুলির রেফারেন্স হয়)।
whuber

2
সমস্ত: মন্তব্য থেকে পরিবর্তনগুলি প্রতিফলিত করতে আমার প্রধান পোস্ট এবং প্রশ্ন আপডেট করেছে।
ম্যাথু বিলস্কি

উত্তর:


1

2-ডেটাসেট থেকে গণিত আরএমএসই ব্যবহার করে, কীভাবে আমি আরএমএসইকে কোনও ধরণের নির্ভুলতার সাথে সম্পর্কিত করতে পারি (অর্থাত আমার ডেটা পয়েন্টের 95 শতাংশ + +-- এক্স সেন্টিমিটারের মধ্যে)?

নিকটবর্তী সদৃশ প্রশ্নটি একবার দেখুন: আরএমএসইর আত্মবিশ্বাসের বিরতি ?

আমার বড় ডেটাসেটটি সাধারণত বিতরণ করা হয়?

একটি ভাল শুরু zমূল্যবোধের অভিজ্ঞতা অভিজ্ঞতা বিতরণ করা হবে । এখানে একটি পুনরুত্পাদনযোগ্য উদাহরণ।

set.seed(1)
z <- rnorm(2000,2,3)
z.difference <- data.frame(z=z)

library(ggplot2)

ggplot(z.difference,aes(x=z)) + 
  geom_histogram(binwidth=1,aes(y=..density..), fill="white", color="black") +
  ylab("Density") + xlab("Elevation differences (meters)") +
  theme_bw() + 
  coord_flip()

এখানে চিত্র বর্ণনা লিখুন

প্রথম নজরে দেখে মনে হচ্ছে, তাই না? (প্রকৃতপক্ষে, আমরা জানি যে এটি সাধারণ, কারণ rnormআমরা যে আদেশটি ব্যবহার করেছি)।

যদি কেউ ডেটাসেটের উপর দিয়ে ছোট ছোট নমুনাগুলি বিশ্লেষণ করতে চায় তবে সেখানে শাপিরো-উইলক নরমালটি টেস্ট রয়েছে।

z_sample <- sample(z.difference$z,40,replace=T)
shapiro.test(z_sample) #high p-value indicates the data is normal (null hypothesis)

    Shapiro-Wilk normality test

data:  z_sample
W = 0.98618, p-value = 0.8984 #normal

একাধিকবার বিভিন্ন ছোট ছোট নমুনাগুলির চেয়ে এসডাব্লু পরীক্ষার পুনরাবৃত্তি করা যায় এবং তারপরে বিতরণটি দেখুন p-values

সচেতন থাকুন যে গ্রেগ স্নো সরবরাহকারী এই উত্তরে ব্যাখ্যা করা হয়েছে যে বড় ডেটাসেটগুলিতে স্বাভাবিকতা পরীক্ষাগুলি এত কার্যকর নয় ।

অন্যদিকে, সত্যই বড় ডেটাসেটের সাহায্যে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি কার্যকর হয় এবং সাধারণ বিশ্লেষণের জন্য (রিগ্রেশন, টি-টেস্ট, ...) জনসংখ্যার সাধারণত বিতরণ করা হয় কি না আপনার সত্যই যত্ন নেই।

থাম্বের ভাল নিয়ম হল কিউকিউ প্লট করা এবং জিজ্ঞাসা করা, এটি কি যথেষ্ট সাধারণ?

সুতরাং, আসুন একটি কিউকিউ প্লট করা যাক:

#qq-plot (quantiles from empirical distribution - quantiles from theoretical distribution)
mean_z <- mean(z.difference$z)
sd_z <- sd(z.difference$z)
set.seed(77)
normal <- rnorm(length(z.difference$z), mean = mean_z, sd = sd_z)

qqplot(normal, z.difference$z, xlab="Theoretical", ylab="Empirical")

এখানে চিত্র বর্ণনা লিখুন

যদি বিন্দুগুলিকে y=xলাইনে একত্র করা হয় তবে এর অর্থ অভিজ্ঞতাই বিতরণ তাত্ত্বিক বিতরণের সাথে মেলে, যা এই ক্ষেত্রে সাধারণ বন্টন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.