পাটিগণিতের গড়টি জ্যামিতিক গড়ের খুব কাছাকাছি থাকলে ডেটা সম্পর্কে কী সিদ্ধান্তে পৌঁছতে পারে?


24

জ্যামিতিক গড় এবং গাণিতিক অর্থ সম্পর্কে একে অপরের খুব কাছাকাছি পড়ে যাওয়া সম্পর্কে ~ 0.1% বলার মতো গুরুত্বপূর্ণ কিছু আছে কি? এই জাতীয় ডেটা সেট সম্পর্কে কী অনুমান করা যায়?

আমি একটি ডেটা সেট বিশ্লেষণ করার জন্য কাজ করছি, এবং আমি লক্ষ্য করেছি যে ব্যঙ্গাত্মকভাবে মানগুলি খুব খুব কাছাকাছি। সঠিক না, তবে কাছাকাছি। এছাড়াও, গাণিতিক গড়-জ্যামিতিক গড় অসমতার তাত্ক্ষণিক তদন্তের সাথে সাথে ডেটা অধিগ্রহণের পর্যালোচনা থেকে প্রমাণিত হয় যে আমি কীভাবে মূল্যবোধগুলি নিয়ে এসেছি তার পরিপ্রেক্ষিতে আমার ডেটা সেট করার অখণ্ডতা সম্পর্কে কোন মতামত নেই।


6
ছোট দ্রষ্টব্য: প্রথমে আপনার ডেটা সব ইতিবাচক আছে তা পরীক্ষা করুন; এমনকি সংখ্যক নেতিবাচক মান আপনাকে ধনাত্মক পণ্যটি রেখে যেতে পারে এবং কিছু প্যাকেজগুলি সম্ভাব্য সমস্যাটিকে ফ্ল্যাগ নাও করতে পারে (এএম-জিএম অসমতা সমস্ত মানকে ধনাত্মক হওয়ার উপর নির্ভর করে)। উদাহরণস্বরূপ (আরে) দেখুন:x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363 (যখন পাটিগণিত গড় 1)
Glen_b -Rininstate মনিকা

1
@ গ্লেন_ব এর পয়েন্টটি বিস্তারিতভাবে বলতে গেলে, একটি ডেটাসেট {x,0,x} সর্বদা সমান পাটিগণিত এবং জ্যামিতিক গড় থাকে, যথা শূন্য। তবে আমরা তিনটি মান আমাদের ইচ্ছে মতো ছড়িয়ে দিতে পারি।
হার্ডম্যাথ

পাটিগণিত এবং জ্যামিতিক উভয় মাধ্যমের একই সাধারণীকরণের সূত্র রয়েছে , সহ প্রাক্তন এবং পি 0 পরবর্তীটি দেওয়া। এরপরে এটি স্বজ্ঞাতভাবে স্পষ্ট হয়ে ওঠে যে ডেটা মানগুলি x যখন আরও বেশি পরিমাণে সমস্ত সমান হয়, ধ্রুবকটির কাছে চলে আসে তখন দুটি একে অপরের সাথে আরও ঘনিষ্ঠ হয় । p=1p0x
ttnphns

উত্তর:


29

পাটিগণিত গড়টি জ্যামিতিক গড়ের সাথে গাণিতিক-গড়-জ্যামিতিক-গড় (এএমজিএম) অসমতার মধ্য দিয়ে সম্পর্কিত যা বলে যে:

x1+x2++xnnx1x2xnn,

যেখানে সমতা অর্জন করা হয় যদি । সুতরাং সম্ভবত আপনার ডেটা পয়েন্টগুলি একে অপরের খুব কাছাকাছি রয়েছে।x1=x2==xn


4
এটা ঠিক। সাধারণত, মানগুলির ভিন্নতা যত কম হয় ততই দুটি অর্থের কাছাকাছি।
মাইকেল এম

16
ভিন্নতাগুলি পর্যবেক্ষণের মাপের আকারে ছোট হতে হবে M সুতরাং এটি প্রকরণের সহগ, , এটি ছোট হতে হবে।σ/μ
মাইকেল হার্ডি

1
এএমজিএম কি কোনও কিছুর পক্ষে দাঁড়ায়? যদি তা হয় তবে এটির বানানটি ভাল লাগবে।
রিচার্ড হার্ডি

@ রিচার্ড হার্দি: এএমজিএম এর অর্থ দাঁড়ায় 'গাণিতিক গড় - জ্যামিতিক গড়'

1
@ ব্যবহারকারী1108, ধন্যবাদ, আসলে, অন্যান্য পোস্টগুলি পড়ার পরে আমি এটি পেয়েছি। আমি কেবল মনে করি এটির উত্তরে এটি বানান (কেবল মন্তব্যেই নয়)।
রিচার্ড হার্ডি

15

@ অ্যালেক্স আর এর উত্তরে বিশদভাবে জানানো, এএমজিএম বৈষম্য দেখার একটি উপায় জেনসেনের অসমতা প্রভাব হিসাবে। দ্বারা জেনসেন এর বৈষম্য : তখন উভয় পক্ষের সূচকীয় নেওয়া: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

ডান হাতটি জ্যামিতিক গড় থেকে (x1x2xn)1/n=exp(1nilogxi)

এএমজিএম বৈষম্য যখন কাছের সমতার সাথে ধারণ করে? জেনসেনের অসমতার প্রভাব যখন ছোট হয়। জেনসেনের অসমতার প্রভাবটি এখানে চালিত করে তা হ'ল লোগারিদমের বক্রতা। আপনার ডেটা যদি এমন কোনও অঞ্চলে ছড়িয়ে পড়ে যেখানে লগারিদমের বক্রতা থাকে তবে প্রভাবটি বড় হবে। যদি লগারিদম মূলত affine হয় এমন কোনও অঞ্চলে যদি আপনার ডেটা ছড়িয়ে পড়ে তবে প্রভাবটি ছোট হবে।

উদাহরণস্বরূপ, যদি ডেটার সামান্য ভিন্নতা থাকে, পর্যাপ্ত ছোট পাড়ায় একসাথে থাকে তবে লগারিদম সেই অঞ্চলে একটি অ্যাফাইন ফাংশনের মতো দেখাবে (ক্যালকুলাসের একটি থিম হ'ল আপনি যদি মসৃণ, অবিচ্ছিন্ন ক্রিয়াকলাপে যথেষ্ট পরিমাণে জুম করেন, তবে এটি একটি লাইনের মতো দেখাবে)। যথেষ্ট পরিমাণে একসাথে ঘনিষ্ঠভাবে, ডেথের গাণিতিক গড়টি জ্যামিতিক গড়ের কাছাকাছি থাকবে।


12

আসুন পরিসীমা তদন্ত দেওয়া যে তাদের গাণিতিক গড় (পূর্বাহ্ণ) একটি ছোট একাধিক হয় 1 + + δ তাদের জ্যামিতিক গড় (জিএম) (সঙ্গে δ 0 )। প্রশ্নে, δ 0.001 তবে আমরা n জানি না ।x1x2xn1+δδ0δ0.001n

যেহেতু পরিমাপের ইউনিটগুলি পরিবর্তিত হয় যখন এই মাধ্যমের অনুপাত পরিবর্তন হয় না, তাই জিএম এমন একটি ইউনিট বাছুন । সুতরাং, আমরা x 1 + x 2 + + x n = n ( 1 + δ ) এবং x 1x 2x n = 1 এর সীমাবদ্ধতার অধীনে x n সর্বাধিকতর করতে চাই ।1xnx1+x2++xn=n(1+δ)x1x2xn=1

এটি , বলুন এবং x n = z x তৈরি করে সম্পন্ন হবে । এইভাবেx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

এবং

1=x1x2xn=xn1z.

The solution x is a root between 0 and 1 of

(1n)xn+n(1+δ)xn11.

It is easily found iteratively. Here are the graphs of the optimal x and z as a function of δ for n=6,20,50,150, left to right:

Figure

যত তাড়াতাড়ি কোনও প্রশংসনীয় আকারে পৌঁছায়, এমনকি 1.001 এর একটি ক্ষুদ্র অনুপাতও একটি বৃহত বহির্মুখী এক্স এন (উপরের লাল বক্ররেখা) এবং শক্তভাবে ক্লাস্টারযুক্ত এক্স আই (নীচের নীল বক্ররেখা) এর একটি গ্রুপের সাথে সামঞ্জস্যপূর্ণ ।n1.001xnxi

অন্য চরম সময়ে, ধরা যাক সমান (সরলতার জন্য)। সর্বনিম্ন ব্যাপ্তিটি অর্জিত হয় যখন অর্ধ x আমি সমান একটি মান x 1 এবং অন্য অর্ধেকের সাথে অন্য মান z 1 সমান হয় । এখন সমাধান (যা সহজে পরীক্ষা করা হয়)n=2kxix1z1

xk=1+δ±δ2+2δ.

δδ2kth

x1+δ2δk; z1+δ+2δk.

The range is approximately 32δ/n.

In this manner we have obtained upper and lower bounds on the possible range of the data. We have learned that they depend heavily on the amount of data n. The upper bound shows the range can be appreciable even for tiny δ, thereby improving our sense of just how close to each other the data points really need to be--and placing a lower limit on their range, too.

Similar analyses, just as easily carried out, can inform you--quantitatively--of how tightly clustered the xi might be in terms of any other measure of spread, such as their variance or coefficient of variation.


On the right of your right hand graph you seem to have n=150,δ=0.002,x0.9954,z1.983,k=75. I do not see how these values are near your stated formulae approximations which seem to give x0.99918,z1.00087. Perhaps I have misunderstood
Henry

@Henry I don't know how you came up with those numbers. When n=150, the requirements are that x149z=1 and 149x+z=150(1.002)=150.3. Neither of those comes close to being true for the values you supply. When you plug in x=0.995416 and z=1.98308, you get the correct values.
whuber

I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry

@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.