ট্রিমিং শতাংশ বনাম ছাঁটাইযুক্ত গড়ের প্লটটি কীভাবে ব্যাখ্যা করব?


12

একটি হোমওয়ার্ক প্রশ্নের অংশ হিসাবে, আমাকে সবচেয়ে ছোট এবং বৃহত্তম পর্যবেক্ষণ মুছে ফেলে একটি ডেটাসেটের জন্য ছাঁটাই করা গড় গণনা করতে এবং ফলাফলটি ব্যাখ্যা করতে বলা হয়েছিল। ছাঁটাই করা গড়টি নিরবচ্ছিন্ন গড়ের চেয়ে কম ছিল।

আমার ব্যাখ্যাটি হ'ল এটি হ'ল কারণ অন্তর্নিহিত বিতরণটি ইতিবাচকভাবে আঁকানো ছিল, তাই বাম লেজটি ডান লেজের চেয়ে স্বল্প। এই তীব্রতার ফলস্বরূপ, একটি উচ্চ ডাতাম অপসারণ নীচের অংশটিকে নীচের দিকে টানিয়ে দেওয়ার চেয়েও কম টেনে নিয়ে যায়, কারণ, অনানুষ্ঠানিকভাবে বলতে গেলে, আরও কম ডেটা রয়েছে "এটির স্থান গ্রহণের অপেক্ষায়।" (এটা কি যুক্তিসঙ্গত?)

তারপরে আমি ভাবতে শুরু করি যে ছাঁটাই শতাংশ কীভাবে এটি প্রভাবিত করে, তাই আমি বিভিন্ন গড় । আমি একটি আকর্ষণীয় প্যারাবোলিক আকার পেয়েছি: x¯tr(k)k=1/n,2/n,,(n21)/nট্রিমিং শতাংশ বনাম ট্রিমড গড়ের প্লট;  মোটামুটি প্যারাবলিক দেখায় এমন অবতল বাঁক তৈরি করে

আমি কীভাবে এটি ব্যাখ্যা করব তা সম্পর্কে আমি নিশ্চিত নই। Intuitively, মনে গ্রাফ ঢাল মত (সমানুপাতিক) মধ্যে বিতরণের অংশ নেতিবাচক বক্রতা হওয়া উচিত মধ্যমা ডাটা পয়েন্ট। (এই হাইপোথিসিসটি আমার ডেটাগুলি পরীক্ষা করে দেখায় তবে আমার কেবল , তাই আমি খুব আত্মবিশ্বাসী নই।)kn=11

এই ধরণের গ্রাফের কোনও নাম আছে বা এটি সাধারণত ব্যবহৃত হয়? এই গ্রাফ থেকে আমরা কী তথ্য সংগ্রহ করতে পারি? একটি স্ট্যান্ডার্ড ব্যাখ্যা আছে?


রেফারেন্সের জন্য, ডেটাগুলি হ'ল: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80।

উত্তর:


11

@ গং এবং @ কেজেটিল বি। হালওয়ারসেন উভয়ই সঠিক।

আমি এই ধরনের গ্রাফ খুঁজে পেয়েছি

রোজনবার্গার, জেএল এবং এম। গ্যাসকো। 1983. অবস্থান অনুমানের তুলনা: ছাঁটাই মানে, মিডিয়ান এবং ট্রিমিয়ান। ইন শক্তসমর্থ এবং অনুসন্ধানমূলক তথ্য বিশ্লেষণ বুঝুন , এড্স। ডিসি হোয়াগলিন, এফ। মোস্টেলার এবং জে ডাব্লু টুকি, 297–338। নিউ ইয়র্ক: উইলে

এবং

ডেভিসন, এসি এবং ডিভি হিঙ্কলি। 1997. বুটস্ট্র্যাপ পদ্ধতি এবং তাদের প্রয়োগ। কেমব্রিজ: কেমব্রিজ বিশ্ববিদ্যালয় প্রেস।

এবং আরও উদাহরণ দিতে

কক্স, এনজে 2013. স্বাদে ছাঁটাই। স্টাটা জার্নাল 13: 640–666। http://www.stata-jorter.com/article.html?article=st0313 [পিডিএফ থেকে বিনামূল্যে অ্যাক্সেস]

যা ছাঁটাই উপায়ের অনেক দিক নিয়ে আলোচনা করেছিল।

যতদূর আমি জানি, গ্রাফটির আলাদা নাম নেই। প্রতিটি সম্ভাব্য প্লটের একটি স্বতন্ত্র নাম আসলে একটি ছোট দুঃস্বপ্ন হবে: গ্রাফিকাল পরিভাষা ইতিমধ্যে একটি ভয়াবহ জগাখিচুড়ি। আমি এটাকে কেবল ছাঁটাইযুক্ত গড় বনাম ছাঁটাই করা সংখ্যা, ভগ্নাংশ বা শতাংশের (এইভাবে অপের শব্দের বিপরীতকরণ) কল্পনা করব।

"বনাম" সম্পর্কে আরও ছোট মন্তব্যের জন্য, আমার উত্তরটি রিগ্রেশন-হেটেরোসেসটেস্টিটিটিতে দেখুন

সম্পাদনা: বনাম (শুধুমাত্র ভাষা mavens) উপর আরও জন্য, এখানে দেখুন


10

আমি এই গ্রাফটি সম্পর্কে কখনও শুনিনি, তবে আমি মনে করি এটি বেশ ঝরঝরে; সম্ভবত এটি আগে কেউ করেছে। আপনি এটির সাহায্যে কী করতে পারেন তা যদি আপনি নিজের ডেটার আলাদা অনুপাতকে বিদেশী হিসাবে বিবেচনা করেন তবে কীভাবে গড় পরিবর্তন এবং / বা স্থিতিশীল হয় তা দেখুন। প্যারাবোলিক আকৃতিটি পাওয়ার কারণটি হ'ল আপনার (প্রাথমিক) বিতরণটি পুরোভাবে সঠিকভাবে স্কিউড, তবে বিতরণের কেন্দ্রে স্কিউ ডিগ্রি একরকম নয়। তুলনার জন্য, নীচে কার্নেল ঘনত্ব প্লটগুলি বিবেচনা করুন।

এখানে চিত্র বর্ণনা লিখুন

বামদিকে আপনার ডেটা যেমন একে একে ছাঁটা হয়। ডানদিকে এই তথ্যগুলি রয়েছে: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)যা মানগুলির পরিসীমাটিকে একইরূপে করার জন্য সমানভাবে ব্যবধানযুক্ত পার্সেন্টাইল থেকে নেওয়া এবং 20 দ্বারা গুণিত একটি স্ট্যান্ডার্ড লগনরমাল বিতরণের পরিমাণ মাত্রা।

আপনার ডেটা ডান স্কিঙ্ক শুরু হয়, তবে সারি 5 দিয়ে, এগুলি স্কিউড থেকে বামে থাকে, সুতরাং আরও ডেটা ছাঁটাইয়ের ফলে গড়টি ফিরিয়ে আনতে শুরু করে। ডানদিকে থাকা ডেটাগুলি ট্রিমিংটি চালিয়ে যাওয়ার সাথে সাথে একই ধরণের স্কিউ বজায় রাখে।

নীচে লগইনরমাল ডেটা এবং অভিন্ন ডেটা (আপনার z = 1:11কোনও স্কিউ - পুরোপুরি প্রতিসাম্য) এর জন্য প্লট দেওয়া আছে ।

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন


4

আমি মনে করি না যে এই ধরণের গ্রাফটির একটি নাম আছে তবে আপনি যা করছেন তা যুক্তিসঙ্গত এবং আপনার ব্যাখ্যাটি আমার কাছে বৈধ বলে মনে হয়। আমি মনে করি আপনি যা করছেন তা হ্যাম্পেলের প্রভাব ফাংশনের সাথে সম্পর্কিত, https://en.wikedia.org/wiki/Robust_statistics#Empirical_influence_function বিশেষত অনুশীলনমূলক প্রভাব ফাংশন সম্পর্কিত বিভাগটি দেখুন। এবং আপনার প্লট অবশ্যই ডেটাগুলির স্কিউনেসের কিছু পরিমাপের সাথে সম্পর্কিত হতে পারে, যেহেতু, যদি আপনার ডেটা নিখুঁতভাবে প্রতিসম হয়, প্লটটি সমতল হত। আপনার তদন্ত করা উচিত!

            EDIT     

এই প্লটের একটি এক্সটেনশান হ'ল বাম এবং ডানদিকে বিভিন্ন ট্রিমিং ব্যবহারের প্রভাবটিও দেখানো। যেহেতু এটি আর এ meanযুক্তি সহ সাধারণ ফাংশনে বাস্তবায়িত হয় না trim, তাই আমি নিজের ট্রিমমেড গড় ফাংশনটি লিখেছি। একটি মসৃণ প্লট পেতে আমি লিনিয়ার ইন্টারপোলেশন ব্যবহার করি যখন ট্রিমিং ভগ্নাংশটি ইঙ্গিত দেয় না এমন একটি সংখ্যা নির্ধারণ করে of এটি ফাংশন দেয়:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

তারপরে আমি কিছু ডেটা অনুকরণ করি এবং ফলাফলটি কনট্যুর প্লট হিসাবে দেখায়:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

এই ফলাফল প্রদান:

ছাঁটাইয়ের প্রভাব দেখানো কনট্যুর প্লট

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.