ট্রিমিং শতাংশ বনাম ছাঁটাইযুক্ত গড়ের প্লটটি কীভাবে ব্যাখ্যা করব?

12

একটি হোমওয়ার্ক প্রশ্নের অংশ হিসাবে, আমাকে সবচেয়ে ছোট এবং বৃহত্তম পর্যবেক্ষণ মুছে ফেলে একটি ডেটাসেটের জন্য ছাঁটাই করা গড় গণনা করতে এবং ফলাফলটি ব্যাখ্যা করতে বলা হয়েছিল। ছাঁটাই করা গড়টি নিরবচ্ছিন্ন গড়ের চেয়ে কম ছিল।

আমার ব্যাখ্যাটি হ'ল এটি হ'ল কারণ অন্তর্নিহিত বিতরণটি ইতিবাচকভাবে আঁকানো ছিল, তাই বাম লেজটি ডান লেজের চেয়ে স্বল্প। এই তীব্রতার ফলস্বরূপ, একটি উচ্চ ডাতাম অপসারণ নীচের অংশটিকে নীচের দিকে টানিয়ে দেওয়ার চেয়েও কম টেনে নিয়ে যায়, কারণ, অনানুষ্ঠানিকভাবে বলতে গেলে, আরও কম ডেটা রয়েছে "এটির স্থান গ্রহণের অপেক্ষায়।" (এটা কি যুক্তিসঙ্গত?)

তারপরে আমি ভাবতে শুরু করি যে ছাঁটাই শতাংশ কীভাবে এটি প্রভাবিত করে, তাই আমি বিভিন্ন গড় । আমি একটি আকর্ষণীয় প্যারাবোলিক আকার পেয়েছি: $\bar x_{\operatorname{tr}(k)}$ $k = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n$ ট্রিমিং শতাংশ বনাম ট্রিমড গড়ের প্লট; মোটামুটি প্যারাবলিক দেখায় এমন অবতল বাঁক তৈরি করে

আমি কীভাবে এটি ব্যাখ্যা করব তা সম্পর্কে আমি নিশ্চিত নই। Intuitively, মনে গ্রাফ ঢাল মত (সমানুপাতিক) মধ্যে বিতরণের অংশ নেতিবাচক বক্রতা হওয়া উচিত মধ্যমা ডাটা পয়েন্ট। (এই হাইপোথিসিসটি আমার ডেটাগুলি পরীক্ষা করে দেখায় তবে আমার কেবল , তাই আমি খুব আত্মবিশ্বাসী নই।) $k$ $n = 11$

এই ধরণের গ্রাফের কোনও নাম আছে বা এটি সাধারণত ব্যবহৃত হয়? এই গ্রাফ থেকে আমরা কী তথ্য সংগ্রহ করতে পারি? একটি স্ট্যান্ডার্ড ব্যাখ্যা আছে?

রেফারেন্সের জন্য, ডেটাগুলি হ'ল: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80।

— wchargin
সূত্র

11

@ গং এবং @ কেজেটিল বি। হালওয়ারসেন উভয়ই সঠিক।

আমি এই ধরনের গ্রাফ খুঁজে পেয়েছি

রোজনবার্গার, জেএল এবং এম। গ্যাসকো। 1983. অবস্থান অনুমানের তুলনা: ছাঁটাই মানে, মিডিয়ান এবং ট্রিমিয়ান। ইন শক্তসমর্থ এবং অনুসন্ধানমূলক তথ্য বিশ্লেষণ বুঝুন , এড্স। ডিসি হোয়াগলিন, এফ। মোস্টেলার এবং জে ডাব্লু টুকি, 297–338। নিউ ইয়র্ক: উইলে

এবং

ডেভিসন, এসি এবং ডিভি হিঙ্কলি। 1997. বুটস্ট্র্যাপ পদ্ধতি এবং তাদের প্রয়োগ। কেমব্রিজ: কেমব্রিজ বিশ্ববিদ্যালয় প্রেস।

এবং আরও উদাহরণ দিতে

কক্স, এনজে 2013. স্বাদে ছাঁটাই। স্টাটা জার্নাল 13: 640–666। http://www.stata-jorter.com/article.html?article=st0313 [পিডিএফ থেকে বিনামূল্যে অ্যাক্সেস]

যা ছাঁটাই উপায়ের অনেক দিক নিয়ে আলোচনা করেছিল।

যতদূর আমি জানি, গ্রাফটির আলাদা নাম নেই। প্রতিটি সম্ভাব্য প্লটের একটি স্বতন্ত্র নাম আসলে একটি ছোট দুঃস্বপ্ন হবে: গ্রাফিকাল পরিভাষা ইতিমধ্যে একটি ভয়াবহ জগাখিচুড়ি। আমি এটাকে কেবল ছাঁটাইযুক্ত গড় বনাম ছাঁটাই করা সংখ্যা, ভগ্নাংশ বা শতাংশের (এইভাবে অপের শব্দের বিপরীতকরণ) কল্পনা করব।

"বনাম" সম্পর্কে আরও ছোট মন্তব্যের জন্য, আমার উত্তরটি রিগ্রেশন- এ হেটেরোসেসটেস্টিটিটিতে দেখুন

সম্পাদনা: বনাম (শুধুমাত্র ভাষা mavens) উপর আরও জন্য, এখানে দেখুন ।

— নিক কক্স
সূত্র

10

আমি এই গ্রাফটি সম্পর্কে কখনও শুনিনি, তবে আমি মনে করি এটি বেশ ঝরঝরে; সম্ভবত এটি আগে কেউ করেছে। আপনি এটির সাহায্যে কী করতে পারেন তা যদি আপনি নিজের ডেটার আলাদা অনুপাতকে বিদেশী হিসাবে বিবেচনা করেন তবে কীভাবে গড় পরিবর্তন এবং / বা স্থিতিশীল হয় তা দেখুন। প্যারাবোলিক আকৃতিটি পাওয়ার কারণটি হ'ল আপনার (প্রাথমিক) বিতরণটি পুরোভাবে সঠিকভাবে স্কিউড, তবে বিতরণের কেন্দ্রে স্কিউ ডিগ্রি একরকম নয়। তুলনার জন্য, নীচে কার্নেল ঘনত্ব প্লটগুলি বিবেচনা করুন।

এখানে চিত্র বর্ণনা লিখুন

বামদিকে আপনার ডেটা যেমন একে একে ছাঁটা হয়। ডানদিকে এই তথ্যগুলি রয়েছে: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)যা মানগুলির পরিসীমাটিকে একইরূপে করার জন্য সমানভাবে ব্যবধানযুক্ত পার্সেন্টাইল থেকে নেওয়া এবং 20 দ্বারা গুণিত একটি স্ট্যান্ডার্ড লগনরমাল বিতরণের পরিমাণ মাত্রা।

আপনার ডেটা ডান স্কিঙ্ক শুরু হয়, তবে সারি 5 দিয়ে, এগুলি স্কিউড থেকে বামে থাকে, সুতরাং আরও ডেটা ছাঁটাইয়ের ফলে গড়টি ফিরিয়ে আনতে শুরু করে। ডানদিকে থাকা ডেটাগুলি ট্রিমিংটি চালিয়ে যাওয়ার সাথে সাথে একই ধরণের স্কিউ বজায় রাখে।

নীচে লগইনরমাল ডেটা এবং অভিন্ন ডেটা (আপনার z = 1:11কোনও স্কিউ - পুরোপুরি প্রতিসাম্য) এর জন্য প্লট দেওয়া আছে ।

এখানে চিত্র বর্ণনা লিখুন

— gung - মনিকা পুনরায় স্থাপন করুন
সূত্র

4

আমি মনে করি না যে এই ধরণের গ্রাফটির একটি নাম আছে তবে আপনি যা করছেন তা যুক্তিসঙ্গত এবং আপনার ব্যাখ্যাটি আমার কাছে বৈধ বলে মনে হয়। আমি মনে করি আপনি যা করছেন তা হ্যাম্পেলের প্রভাব ফাংশনের সাথে সম্পর্কিত, https://en.wikedia.org/wiki/Robust_statistics#Empirical_influence_function বিশেষত অনুশীলনমূলক প্রভাব ফাংশন সম্পর্কিত বিভাগটি দেখুন। এবং আপনার প্লট অবশ্যই ডেটাগুলির স্কিউনেসের কিছু পরিমাপের সাথে সম্পর্কিত হতে পারে, যেহেতু, যদি আপনার ডেটা নিখুঁতভাবে প্রতিসম হয়, প্লটটি সমতল হত। আপনার তদন্ত করা উচিত!

            EDIT

এই প্লটের একটি এক্সটেনশান হ'ল বাম এবং ডানদিকে বিভিন্ন ট্রিমিং ব্যবহারের প্রভাবটিও দেখানো। যেহেতু এটি আর এ meanযুক্তি সহ সাধারণ ফাংশনে বাস্তবায়িত হয় না trim, তাই আমি নিজের ট্রিমমেড গড় ফাংশনটি লিখেছি। একটি মসৃণ প্লট পেতে আমি লিনিয়ার ইন্টারপোলেশন ব্যবহার করি যখন ট্রিমিং ভগ্নাংশটি ইঙ্গিত দেয় না এমন একটি সংখ্যা নির্ধারণ করে of এটি ফাংশন দেয়:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

তারপরে আমি কিছু ডেটা অনুকরণ করি এবং ফলাফলটি কনট্যুর প্লট হিসাবে দেখায়:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

এই ফলাফল প্রদান:

— কেজেটিল বি হালওয়ারসেন en
সূত্র