কীভাবে কেউ একটি বন্টনের অ-অভিন্নতা পরিমাপ করে?

28

আমি যে পরীক্ষা চালাচ্ছি তার জন্য বিতরণের অ-অভিন্নতা পরিমাপ করার জন্য একটি মেট্রিক নিয়ে আসার চেষ্টা করছি। আমার একটি এলোমেলো পরিবর্তনশীল রয়েছে যা বেশিরভাগ ক্ষেত্রে সমানভাবে বিতরণ করা উচিত এবং আমি ভেরিয়েবলটি কিছু মার্জিনের মধ্যে অভিন্নভাবে বিতরণ না করা তথ্য সেটগুলির উদাহরণগুলি সনাক্ত করতে (এবং সম্ভবত ডিগ্রি পরিমাপ করতে সক্ষম) হতে সক্ষম হতে চাই।

10 টি পরিমাপের সাথে তিনটি ডাটা সিরিজের একটি উদাহরণ যা আমি পরিমাপ করছি তার সংঘটনটির প্রতিনিধিত্ব করে এমন কিছু হতে পারে:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

আমি সি এবং এর মতো বিতরণগুলিকে পৃথক করতে সক্ষম হতে চাই যা একটি এবং খ এর মতো, এবং সি-এর বিচ্যুতিটি অভিন্ন বিতরণ থেকে পরিমাপ করে। সমানভাবে, যদি কোনও ডিস্ট্রিবিউশন কীভাবে ইউনিফর্মের জন্য মেট্রিক থাকে (শূন্যের কাছাকাছি বিচ্যুতি?), আমি সম্ভবত এটি ব্যবহার করতে পারি উচ্চতর বৈকল্পিকের সাথে আলাদা করতে। তবে, আমার উপাত্তের উপরের সি উদাহরণের মতো কেবল একটি বা দু'জন আউটলিয়ার থাকতে পারে এবং নিশ্চিত যে এটি সেভাবে সহজে সনাক্তযোগ্য হবে কিনা not

আমি সফ্টওয়্যারটিতে এটি করার জন্য কিছু হ্যাক করতে পারি তবে এটি আনুষ্ঠানিকভাবে ন্যায়সঙ্গত করার জন্য পরিসংখ্যান পদ্ধতি / পদ্ধতির সন্ধান করছি। আমি বছর আগে ক্লাস নিয়েছিলাম, তবে পরিসংখ্যান আমার অঞ্চল নয়। এটি এমন কোনও কিছুর মতো বলে মনে হচ্ছে যা একটি সুপরিচিত পদ্ধতির উচিত। দুঃখিত, যদি এর কোনওটি পুরোপুরি হাড়-মাথাযুক্ত হয়। আগাম ধন্যবাদ!

— Jjc
সূত্র

সম্পর্কিত: stats.stackex

— بدل.

18

যদি আপনার কেবলমাত্র ফ্রিকোয়েন্সিই না হয় তবে প্রকৃত গণনা থাকে, তবে প্রতিটি ডেটা সিরিজের জন্য আপনি test পরীক্ষা করতে পারেন । বিশেষত, আপনি একটি পৃথক ইউনিফর্ম বিতরণের জন্য পরীক্ষাটি ব্যবহার করতে চান । এটি আপনাকে একটি ভাল পরীক্ষা দেয় , যা আপনাকে কোনও ডেটা সিরিজটি কোনও অভিন্ন বিতরণ দ্বারা উত্পন্ন না হওয়ার সম্ভাবনা রয়েছে তা সন্ধান করার অনুমতি দেয়, তবে একত্রে কোনও পরিমাণে সরবরাহ করে না। $\chi^2$

অন্যান্য সম্ভাব্য পন্থা রয়েছে যেমন প্রতিটি সিরিজের এনট্রপি গণনা করা - ইউনিফর্ম বিতরণ এনট্রপি সর্বাধিক করে তোলে, তাই যদি এনট্রপি সন্দেহজনকভাবে কম হয় তবে আপনি এই সিদ্ধান্তে পৌঁছাতে পারবেন যে আপনার সম্ভবত অভিন্ন বিতরণ নেই। যা কিছু দিক থেকে অভিন্নতার পরিমাপ হিসাবে কাজ করে।

আর একটি পরামর্শ হ'ল কুলব্যাক-লেবলার ডাইভারজেন্সের মতো একটি পদক্ষেপ ব্যবহার করা , যা দুটি বিতরণের মিলকে পরিমাপ করে।

— MånsT
সূত্র

আপনার উত্তর সম্পর্কে আমার বেশ কয়েকটি প্রশ্ন রয়েছে: ১. আপনি কেন বলেন যে চি-স্কোয়ার একত্রে একতা দেয় না? অভিন্ন ডিস্ট্রিবিউশন সহ ফিটের পরীক্ষা কি এককতার মাপকাঠি নয়? ২. কীভাবে আমরা জানতে পারি যে কখন আমাদের চি-স্কোয়ার বা এন্ট্রপি ব্যবহার করা উচিত?

— কানজেন_মাস্টার

@ ক্যানজেন_মাস্টার: আমি অনুমান করি যে চি-বর্গাকার পরিসংখ্যানকে একতারতার পরিমাপ হিসাবে দেখা যেতে পারে তবে এর কিছু ত্রুটি রয়েছে যেমন অভিমুখে স্থাপন করা বিনয়ের উপর নির্ভরতা, কোষগুলিতে প্রত্যাশিত সংখ্যার প্রয়োজন পর্যাপ্ত পরিমাণে বড় হওয়া ইত্যাদি Which কোন পরিমাপ / পরীক্ষাটি ব্যবহার করতে হবে তা স্বাদের বিষয়, এবং এনট্রপি এর সমস্যাগুলি ছাড়া হয় না (বিশেষত, কোনও বিতরণের এনট্রপির অনেকগুলি অনুমানকারী রয়েছে)। আমার কাছে, এনট্রপি কম স্বেচ্ছাসেবক ব্যবস্থা হিসাবে মনে হয় এবং ব্যাখ্যা করা সহজ to

— MånsT

8

@ মনস্টের ভাল ধারণাগুলি ছাড়াও, আপনি অন্যান্য ব্যবস্থা নিয়ে আসতে পারেন তবে এটি "অ-অভিন্নতা" বলতে কী বোঝায় তার উপর নির্ভর করে। এটি সহজ রাখতে, আসুন 4 টি স্তরটি দেখুন। নিখুঁত অভিন্নতা নির্ধারণ করা সহজ:

25 25 25

তবে নিম্নলিখিত কোনটি আরও অ-ইউনিফর্ম?

20 20 30 30 বা 20 20 25 35

না তারা কি সমান অ-ইউনিফর্ম?

যদি আপনি ভাবেন যে এগুলি সমানভাবে অ-অভিন্ন, আপনি সাধারণ থেকে বিচ্যুতিগুলির নিখুঁত মানগুলির যোগফলের ভিত্তিতে একটি পরিমাপ ব্যবহার করতে পারেন, সর্বাধিক সম্ভব দ্বারা পরিমিত। তারপরে প্রথমটি হ'ল 5 + 5 + 5 + 5 = 20 এবং দ্বিতীয়টি হ'ল 5 + 5 + 0 + 10 = 20. তবে আপনি যদি মনে করেন যে দ্বিতীয়টি আরও অদ্বিতীয়, আপনি স্কোয়ার বিচ্যুতির ভিত্তিতে কিছু ব্যবহার করতে পারেন যা ক্ষেত্রে প্রথমটি 25 + 25 + 25 + 25 = 100 এবং দ্বিতীয়টি 25 + 25 + 0 + 100 = 150 পায়।

— পিটার ফ্লুম - মনিকা পুনরায়
সূত্র

1

আপনি পিটারকে "সমানভাবে বিতরণ করা" "সমান" হিসাবে ব্যাখ্যা করছেন বলে মনে হচ্ছে। ওপির উদ্দেশ্য সেটিকে উত্থাপন করার জন্য একটি বৈধ পয়েন্ট কিনা, তবে সত্যই এই প্রশ্নের একটি মন্তব্য হিসাবে উপস্থিত হওয়া উচিত।

— শুক্র

হাই @ ভুবার প্রশ্ন থেকে তাঁর বোঝানো বোঝাচ্ছিল। এর অর্থ আর কী হতে পারে?

— পিটার ফ্লুম - মনিকা পুনরায়

2

"সমান" অর্থ সিডিএফ হয়

জন্য

,

জন্য

"অভিন্ন" অর্থ যখন

জন্য

। আপনি প্রথম অর্থে "নিখুঁত অভিন্নতা" সংজ্ঞায়িত করেন যেখানে মানক পরিসংখ্যানগত জ্ঞান দ্বিতীয় হয়।

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— শুক্র

@ হুবুহু, আমার কাছে মনে হচ্ছে প্রথম জিনিসটি "ইউনিফর্ম" বলতে মূল পোস্টারটি বোঝায়। এটি আবার তাকালে মনে হয় যে সে / সে "ইউনিফর্ম" ব্যবহার করে "স্বল্প বৈচিত্র্য" বোঝায়।

— ম্যাক্রো

ম্যাক্রো: আমরা কেবল এটি বলতে পারি না। আইএমএইচও, উত্তরটির উত্তর পাওয়ার আগে প্রশ্নের স্পষ্টতা দরকার needs গৃহীত উত্তরটি নির্দেশ দেয় যে ওপি স্ট্যান্ডার্ডস্টিকাল অর্থে "ইউনিফর্ম" ব্যবহার করেছে।

— শুক্র

6

এখানে একটি সরল হিউরিস্টিক: আপনি যদি কোনও ভেক্টরের যোগফলের উপাদানগুলি ধরে নেন (বা এটি অর্জনের জন্য প্রতিটি উপাদানকে সাধারণভাবে সাধারণ করে তোলা), তবে অভিন্নতা এল 2 আদর্শ দ্বারা প্রতিনিধিত্ব করা যেতে পারে, যা থেকে শুরু করে $1$ করার, সঙ্গেভেক্টর মাত্রা হচ্ছে। $\frac{1}{\sqrt d}$ $1$ $d$

নীচে আবদ্ধ অভিন্নতার সাথে মিলিত হয় এবং-ভেক্টরের সাথেউপরের আবদ্ধ। $\frac{1}{\sqrt d}$ $1$

এটি থেকে মধ্যে স্কোর করতে স্কেল করতে আপনি ব্যবহার করতে পারেন $0$ $1$ , যেখানেহল L2 আদর্শ। $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

সরলতার জন্য একই মাত্রা সহ এবং সমস্ত ভেক্টর সমষ্টিযুক্ত উপাদানগুলির সাথে আপনার কাছ থেকে একটি উদাহরণ পরিবর্তিত হয়েছে : $1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

নিম্নলিখিত সমর্পণ করা হবে , , এবং সারি জন্য: $0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— user495285
সূত্র

1

এটি দুর্দান্ত কাজ করে। তবে কেন (বা কোন পরিস্থিতিতে) এটি অন্য কোনও

আদর্শ বা এই থ্রেডে প্রদত্ত অন্যান্য সমাধানের চেয়ে বেশি পছন্দ করা উচিত ?

L_{p}

$L_p$

— whuber

@ যেটি আমি জানি না এবং আমি এই সম্পর্কে কোনও গবেষণা জানি না। মূলত এটি এমন কিছু যা আমি একটি হিউরিস্টিক হিসাবে ব্যবহার করেছি যা ওপি'র পরে কী হতে পারে তা মাপতে পারে এবং আমি এটিকে পছন্দসই পদ্ধতির বলে দাবি করি না।

— ব্যবহারকারী495285

@ শুভ - আপনি কেন তাত্ত্বিকভাবে বুঝতে পারেন যে এটি এত ভাল কেন কাজ করে। আমি এটি উদ্ধৃত করা প্রয়োজন।

— কেতন

@ ব্যবহারকারী495285 - এটি কেবল ফ্রিকোয়েন্সি নয়, মানগুলির সাথে সরাসরি কাজ করে বলে মনে হচ্ছে। আপনার অভিজ্ঞতায়, কেবলমাত্র ফ্রিকোয়েন্সি সহ এটি ব্যবহার করা ভাল বা এটি সরাসরি কোনও ভেক্টর ব্যবহার করা ঠিক okay

— কেতন

@ কেতন আমি এই পোস্টটি উদ্ধৃত করার বিরুদ্ধে পরামর্শ দেব, কারণ এটি তাত্ত্বিক এবং তাত্ত্বিকভাবে অসমর্থিত। (কারণ এটি নমুনা পরিবর্তনের কোনও বিবেচনার উপর নির্ভর করে না, আরও বিশ্লেষণ ছাড়া - এটি কোনও ভাল কিনা তা বলার উপায় নেই) এটি ঠিক তাই ঘটেছে, যদিও

আদর্শের সাথে একটি সাধারণ বীজগণিত সংযোগ রয়েছে

ব্যবহৃত পরিসংখ্যাত হইয়া পরীক্ষার ধার্মিকতা: যে কারণে এটি নন-একরূপতা পরিমাপ উপযুক্ত হতে পারে।

L_{2}

$L_2$

χ^{2}

$\chi^2$

— হোবার

0

এটি সম্প্রতি হোঁচট খেয়েছে, এবং @ ইউজার 495285 এর উত্তর যুক্ত করতে, যতদূর আমি বুঝতে পেরেছি:

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

আমি বিশ্বাস করি যে জ্যামিতিক ব্যবস্থাগুলির উপযোগিতা তখন প্রযোজ্য যখন বর্ণিত স্থানের প্রতিটি অবস্থান (মাত্রা) সমমানের স্কেলগুলিতে পরিমাপ করা হয় বলে ধরে নেওয়া হয়, যেমন সম্ভাব্য সমান বন্টনের সমস্ত সংখ্যা। পিসিএ / এসভিডি এর মতো বেসগুলির অন্তর্নিহিত একই অনুমানগুলি সম্ভবত এখানে একই রকম। তবে তারপরে আমি আর গণিতজ্ঞ নই, তাই আমি আরও খোলা থাকব।

— lakinsm
সূত্র

সহায়ক মনে হচ্ছে। আপনি কি দয়া করে আমাকে কিছু উল্লেখ করতে পারেন, যাতে আমি এটি আরও ভালভাবে বুঝতে পারি? আমি আসলে এটি উদ্ধৃত করা প্রয়োজন।

— কেতন

আপনি যে কোনও লিনিয়ার বীজগণিত পাঠ্য উল্লেখ করতে পারেন যা এলপি আদর্শকে কভার করে; এটি জ্যামিতিতে খুব সাধারণ বিষয়: এন-ডাইমেনশনাল স্পেসে দুটি পয়েন্টের মধ্যে কীভাবে দূরত্ব গণনা করা যায়। এমনকি আপনার ক্ষেত্রের উপর নির্ভর করে আপনাকে এটি উদ্ধৃত করতে হবে না।

— lakinsm