ভেরিয়েন্স গণনার জন্য মিডিয়ান ব্যবহার করে


10

আমার কাছে একটি 1-ডি র্যান্ডম ভেরিয়েবল যা অত্যন্ত স্কিউড। এই বিতরণটি স্বাভাবিক করার জন্য, আমি গড়ের চেয়ে মিডিয়ান ব্যবহার করতে চাই। আমার প্রশ্নটি হ'ল: আমি কি সূত্রের মাধ্যমের পরিবর্তে গড়ের পরিবর্তে বিতরণটির বৈচিত্রটি গণনা করতে পারি?

আমি প্রতিস্থাপন করতে পারেন

Var(X)=[(Ximean(X))2]/n

সঙ্গে

Var(X)=[(Ximedian(X))2]/n

এর পিছনে আমার যুক্তিটি হ'ল যেহেতু বৈকল্পিকতা একটি বিতরণের কেন্দ্রীয় প্রবণতা ছড়িয়ে দেওয়ার একটি পরিমাপ, তাই এটি কোনও সমস্যা হওয়া উচিত নয় তবে আমি এই যুক্তিটিকে বৈধতা দেওয়ার জন্য খুঁজছি।



1
আপনার ভেরিয়েবলগুলিকে কেন্দ্র করে এবং তারপরে এমএডি (মিডিয়ান পরম বিচ্যুতি) দ্বারা ভাগ করে আপনি একটি মাঝারি মানক বিতরণ তৈরি করতে পারেন।
মাইক হান্টার

5
তুমি এটি করতে পারো! তবে আমি মনে করি এটি অত্যন্ত নন-স্ট্যান্ডার্ড বলা এবং এটির ব্যাক আপ করার জন্য আপনার তত্ত্ব এবং / বা সিমুলেশনগুলির প্রয়োজন এবং এটি কেবল আপনার স্বজ্ঞাততা নয় suggest আমি সন্দেহ করি যে এটি স্ট্যান্ডার্ড অনুমানের চেয়ে কম প্রতিরোধী হবে । উদাহরণস্বরূপ, একটি সাধারণ ডান স্কিউ ক্ষেত্রে, মিডিয়ান গড় থেকে কম হবে, তাই বৃহত্তম স্কোয়ার বিচ্যুতি (মধ্য থেকে) তাই আরও বড় হবে! প্রধান কথাটি হ'ল যদি বৈকল্পিকটি খুব অবিশ্বাস্য হয় তবে আপনার ভিন্নতার বিভিন্ন সংস্করণ না করে স্প্রেড পরিমাপ করার বিষয়টি ভিন্নভাবে বিবেচনা করার প্রয়োজন হতে পারে।
নিক কক্স

1
অরথোগোনাল পয়েন্ট: "সাধারণকরণ" এর অর্থ কি কোনও উপায়ে স্কেল হয় (যেমন মান অবস্থান) / স্কেল, বা এর অর্থ কি স্বাভাবিক (গাউসিয়ান) এর আরও কাছাকাছি হওয়া?
নিক কক্স

1
এই পদ্ধতিটি সহজাতভাবে অসঙ্গত, কারণ মিডিয়ান দ্বারা গড়টি প্রতিস্থাপন করে যে সমস্যাগুলি সমাধান করা হয়েছে সেগুলি ছড়িয়ে দেওয়ার শক্তিশালী অনুমানের পরিবর্তে বৈকল্পিকতা ব্যবহার করে বৃদ্ধি করা হয়।
শুক্র

উত্তর:


9

গড়টি স্কোয়ার ত্রুটি (বা এল 2 আদর্শ, এখানে বা এখানে দেখুন ) হ্রাস করে , তাই গড় থেকে দূরত্ব পরিমাপের জন্য বৈকল্পিকের জন্য প্রাকৃতিক পছন্দটি স্কোয়ার ত্রুটি ব্যবহার করা হয় ( কেন আমরা এটি বর্গাকার করব তা এখানে দেখুন )। অন্যদিকে, মিডিয়ান সম্পূর্ণ ত্রুটি (এল 1 আদর্শ) হ্রাস করে, অর্থাত এটি আপনার ডেটার "মাঝের" মধ্যে থাকা একটি মান, সুতরাং মধ্যমা থেকে পরম দূরত্ব (তথাকথিত মিডিয়ান পরম বিভাজন বা এমএডি) বলে মনে হয় মিডিয়ান এর চারপাশে পরিবর্তনশীলতার ডিগ্রির আরও ভাল পরিমাপ। আপনি এই থ্রেডে এই সম্পর্কগুলি সম্পর্কে আরও পড়তে পারেন ।

এটি সংক্ষেপে বললে, তারা কীভাবে আপনার ডেটার কেন্দ্রীয় বিন্দুটি সংজ্ঞায়িত করে এবং এর চারপাশে আমরা কীভাবে ডেটাপয়েন্টের ভিন্নতা পরিমাপ করি তা প্রভাবিত করে এমএডি থেকে পৃথক। মানগুলির স্কোয়ারিংয়ের ফলে বহিরাগতদের কেন্দ্রীয় বিন্দুতে (গড়) বেশি প্রভাব থাকে, তবে মধ্যস্থতার ক্ষেত্রে সমস্ত পয়েন্টই এর উপর একই রকম প্রভাব ফেলে, তাই পরম দূরত্ব আরও উপযুক্ত বলে মনে হয়।

এটি সাধারণ সিমুলেশন দ্বারাও প্রদর্শিত হতে পারে। আপনি যদি গড় এবং মাঝারি থেকে স্কোয়ার দূরত্বের মানগুলি তুলনা করেন, তবে মোট বর্গক্ষেত্রের দূরত্বটি মাঝারি থেকে প্রায় সর্বদা গড় থেকে ছোট হয়। অন্যদিকে, মোট নিখুঁত দূরত্ব মাঝারি থেকে ছোট, তারপরে গড় থেকে। সিমুলেশন পরিচালনার জন্য আর কোডটি নীচে পোস্ট করা হয়েছে।

sqtest  <- function(x) sum((x-mean(x))^2)  < sum((x-median(x))^2)
abstest <- function(x) sum(abs(x-mean(x))) > sum(abs(x-median(x)))

mean(replicate(1000, sqtest(rnorm(1000))))
mean(replicate(1000, abstest(rnorm(1000))))

mean(replicate(1000, sqtest(rexp(1000))))
mean(replicate(1000, abstest(rexp(1000))))

mean(replicate(1000, sqtest(runif(1000))))
mean(replicate(1000, abstest(runif(1000))))

এ জাতীয় "বৈকল্পিকতা" অনুমানের পরিবর্তে মিডিয়ান ব্যবহারের ক্ষেত্রে এটি উচ্চতর অনুমানের দিকে নিয়ে যায়, গড় হিসাবে ব্যবহার করার চেয়ে এটি traditionতিহ্যগতভাবে করা হয়।

যাইহোক, এই থ্রেডের মতো এল 1 এবং এল 2 মানদণ্ডের সম্পর্কগুলিও বায়সিয়ান প্রসঙ্গে বিবেচনা করা যেতে পারে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.