দুটি নমুনা বিতরণের লেজের তুলনা


13

আমার কাছে দুটি সেট ডেটা রয়েছে যা প্রায় শূন্যের কাছাকাছি কেন্দ্রীভূত হয় তবে আমার সন্দেহ হয় যে তাদের বিভিন্ন লেজ রয়েছে। আমি একটি সাধারণ বিতরণের সাথে বিতরণটির তুলনা করতে কয়েকটি পরীক্ষা জানি তবে আমি দুটি বিতরণকে সরাসরি তুলনা করতে চাই।

2 টি বিতরণের লেজের চর্বি তুলনা করার জন্য কি কোনও সাধারণ পরীক্ষা আছে ?

ধন্যবাদ
রেড


"ফ্যাট-লেজ" ট্যাগটি কি আসলেই অর্থবহ (ভবিষ্যতের প্রশ্নের জন্য)?
chl

@ সিএইচএল আপনি আমাকে বলুন, আমি অবশ্যই পরিসংখ্যানের মতো অভিজ্ঞ নই। তবে আইএমও এটি লেজগুলির গুরুত্বকে অবমূল্যায়ন করার একটি সর্বোত্তম পক্ষপাতিত্ব। আপনি ম্যান্ডেলব্রোট কাজ পড়েছেন? অর্থের জন্য প্রয়োগের পরিসংখ্যানগুলিতে ফ্যাট টেইলগুলি অত্যন্ত গুরুত্বপূর্ণ এবং ২০০৮ সালের creditণ সংকট কিছু দামের মডেল থেকে এসেছে যা কিছুটা স্বাভাবিকতা ধরে নিয়েছিল এবং কিছু সংযোগ বিতরণের ফ্যাট টেইলকে অবমূল্যায়ন করেছিল। আমরা এটি অন্য থ্রেডে আলোচনা করতে পারি :)
রকসায়েন্স

1
এই প্রশ্নটি সম্ভাব্য আকর্ষণীয় তবে কিছু ব্যাখ্যা স্বাগত হবে। আপনি একটি লেজ বা উভয় সম্পর্কে উদ্বিগ্ন? আপনি "মেদ" কীভাবে পরিমাপ করবেন? (উদাহরণস্বরূপ, আপনি তুলনা করতে দুটি বিতরণ স্থানান্তর এবং পুনরুদ্ধার করতে ইচ্ছুক?) আপনি "মেদ" মধ্যে বিচ্যুতি কীভাবে পরিমাপ করবেন? আপনি যদি কোনও হাইপোথিসিস পরীক্ষার বিষয়ে চিন্তা করেন, তবে বিকল্প অনুমানটি কী হবে, অবিকল?
হোবার

@ রকসায়েন্স, আমার দুটি বিতরণ হয়েছে এবং কেবলমাত্র লেজগুলি তুলনা করতে চাই, আপনি কীভাবে এটি পরিচালনা করবেন তা পরিচালনা করেছিলেন? আমি জানি আপনি কুরটোসিস গণনা করতে পারেন তবে আপনি কীভাবে পরীক্ষা করেছিলেন যে দুটি লেজই আলাদা?
ব্যবহারকারী 2380782

উত্তর:


6

এই প্রশ্নের যেমন একই পরিবারের অন্তর্গত বলে মনে হয় পরীক্ষা করিয়া দুটি নমুনা একই স্কিউ আছে এই তার আগে এক , তাই আপনি যে আমার উত্তর পড়তে পছন্দ করতে পারেন । আমি বিশ্বাস করি যে এল-মুহুর্তগুলি এখানেও একই কারণে কার্যকর হবে (বিশেষত এল- স্কিউনেস কুর্তোসিস এই ক্ষেত্রে)।


2

একটি চৌম্বকটি তৈরি করে ল্যাম্বদা বলে, আমরা এই পুচ্ছ অঞ্চলে পড়া দুটি পর্যবেক্ষণের সেটগুলির ভিত্তিতে লেজ অঞ্চলে (\ ল্যাম্বডা, অনন্ত) সীমিত দুটি বিতরণের দুটি উপায়ের বা বৈচিত্রের সমতা পরীক্ষা করতে পারি। অবশ্যই, দুটি নমুনা টি-পরীক্ষা বা এফ-পরীক্ষা ঠিক থাকতে পারে তবে শক্তিশালী হতে পারে না কারণ এই লেজ অঞ্চলটিতে র্যান্ডম ভেরিয়েবলটি সীমাবদ্ধ নয় এমনকি মূলগুলিও স্বাভাবিক নয়।


চূড়ান্ত মান তত্ত্ব এই জাতীয় কাটা বিতরণ অধ্যয়ন: asympototically, লেজ বিতরণ সাধারণত সাধারন পেরেটো পরিবারের অন্তর্গত । বিতরণগুলির এই পরিবারের কাছে ডেটা ফিট করার এবং পরামিতিগুলির তুলনা করার জন্যও কেউ চেষ্টা করতে পারে।
ভিনসেন্ট জুনেকিঙ্ক

@ ভিনসেন্ট একটি লেজের ব্যবহারিকভাবে কোনও বিতরণ থাকতে পারে। চূড়ান্ত মান তত্ত্বটি লেজগুলি সম্পর্কে সামান্যই বলেছে: এটি আইডির নমুনাগুলির ম্যাক্সিমার (বা মিনিমা) বিতরণকে কেন্দ্র করে, যা একেবারেই আলাদা জিনিস।
হোবার

1

তৃতীয় এবং চতুর্থ প্যারামিটারগুলিতে সাধারণ ল্যাম্বডা বিতরণ এবং আস্থাভঙ্গির অন্তরগুলিকে ফিট করার বিষয়ে কীভাবে ?


2
বিতরণকারীদের পরিবার কেন এই সমস্যার জন্য বিশেষভাবে ভাল হবে এবং পিয়ারসন বিতরণের মতো অন্য কোনও পরিবার নয়?
whuber

1

চি স্কোয়ার পরীক্ষা (গুডনেস-অফ-ফিট পরীক্ষা) দুটি বিতরণের লেজের তুলনা করতে খুব ভাল হবে কারণ এটি দুটি বন্টনের সাথে মানের বালতি (গ্রাফিকভাবে একটি হিস্টগ্রাম দ্বারা প্রতিনিধিত্ব করে) দ্বারা দুটি বিতরণকে তুলনা করার জন্য গঠন করা হয়েছে। এবং, লেজগুলি বেশিরভাগ বালতিতে থাকবে।

যদিও এই পরীক্ষাটি পুরো বিতরণকে কেন্দ্র করে, কেবল লেজ নয় আপনি লেজগুলির মেদযুক্ততার পার্থক্যের দ্বারা চি স্কোয়ারের মূল্য বা ডাইভারজেন্সের কতটুকু উত্পন্ন তা সহজেই পর্যবেক্ষণ করতে পারবেন।

দেখুন যে উত্সযুক্ত হিস্টোগ্রামটি আপনাকে পরীক্ষার সাথে সম্পর্কিত কোনও পরিসংখ্যানগত তাত্পর্যের চেয়ে লেজগুলির স্বল্পতা সম্পর্কিত স্বতন্ত্রভাবে আপনাকে আরও অনেক তথ্য দিতে পারে। এটি উল্লেখ করার মতো একটি জিনিস যা লেজগুলির মেদ পরিসংখ্যানগতভাবে আলাদা। এটি চাক্ষুষরূপে পর্যবেক্ষণ করা অন্যটি। হাজার কথার থেকে একটি ছবি অনেক কথা বলে। কখনও কখনও এটি হাজার সংখ্যারও মূল্যবান (গ্রাফগুলি সমস্ত নম্বরকে আবদ্ধ করে তোলে তা বোঝা যায়)।


3
আমার কাছে মনে হচ্ছে চি স্কয়ার পরীক্ষাটি লেজগুলির মধ্যে পার্থক্যগুলি সনাক্ত করতে বিশেষত দুর্বল হবে । যদি লেজগুলি অনেকগুলি আবদ্ধ করে আচ্ছাদিত হয়, তবে - কারণ সেগুলি লেজ! - চি-স্কোয়ারের আনুমানিকতা অবৈধ করে বিনের কোনওটিতে খুব কম ডাটা থাকতে পারে। যদি লেজগুলি কয়েকটি বিন দ্বারা আবৃত থাকে, তবে আপনি তাদের আকারগুলি বৈষম্যের জন্য প্রায় সমস্ত ক্ষমতা হারাবেন এবং আপনি বৈষম্যমূলক আচরণ করার জন্য যা পরিচালনা করেন তা ভয়াবহভাবে প্রাসঙ্গিক বা কার্যকর নাও হতে পারে। (আমরা এখানে যে সমস্যার মুখোমুখি হয়েছি তা হ'ল "লেজের চর্বি" সংজ্ঞায়িত করা হয়নি, সুতরাং প্রশ্নটির উত্তরের পক্ষে উত্তর দেওয়া সত্যই অস্পষ্ট))
হোবার

@ হুবুহু, আমি আপনার মন্তব্যের সাথে একমত হয়েছি কিনা তা বলতে পারি না কারণ আমি আপনার একটি পয়েন্ট পুরোপুরি বুঝতে পারি না। "চি-স্কোয়ার আনুমানিকটি অবৈধ করে" বলতে কী বোঝ?
সিম্পা

চি-স্কোয়ার টেস্টটি চি-স্কোয়ার স্ট্যাটিস্টিকসের সত্য বিতরণে একটি সাধারণ-তত্ত্বের সান্নিধ্যের উপর ভিত্তি করে। সাধারণত এই পড়তা দরিদ্র পায় যখন বিন জনগোষ্ঠী 5. নিচের ড্রপ
whuber

@ শুভ, ব্যাখ্যার জন্য ধন্যবাদ। এর পরিপ্রেক্ষিতে, আমি মনে করি আপনার প্রাথমিক মন্তব্যের প্রথম বাক্যাংশটি আপনি যতটা যত্ন নিয়েছেন ততটা সংক্ষিপ্ত হতে পারে না ("চি স্কয়ার পরীক্ষাটি লেজগুলির মধ্যে পার্থক্য সনাক্তকরণে বিশেষত দুর্বল হবে")। হতে পারে আরও উপযুক্ত বিবৃতিটি "এটি নির্ভর করে ..." এই পরীক্ষার বিভিন্ন ধরণের গুণ রয়েছে যার মধ্যে আপনাকে প্রাসঙ্গিক বিনগুলি সংজ্ঞায়িত করতে বাধ্য করা সহ। এবং, ঠিক তেমনি গুরুত্বপূর্ণভাবে একটি হিস্টগ্রাম তৈরির সুবিধার্থে। মঞ্জুরিপ্রাপ্ত যদি আপনার একটি বিনে 5 টিরও কম পর্যবেক্ষণ রয়েছে, আপনি ভালভাবে ব্যাখ্যা করার সাথে সাথে আপনি নির্ভুলতা হারাবেন।
সিম্পা

@ গেটান আমি অবহেলার প্রতি মনোযোগের প্রশংসা করি, তবে এই ক্ষেত্রে রায় ন্যায়সঙ্গত বলে মনে হয়। বিতরণ তুলনা করার জন্য উপলব্ধ অন্যান্য অনেক পদ্ধতির তুলনায়, চি স্কোয়ার্ড পরীক্ষা ভালভাবে ধরে না। যদি আপনি তাদের নিজের উপর ভিত্তি করে "প্রাসঙ্গিক বিনগুলি সংজ্ঞায়িত করেন" তবে পরীক্ষাটি অবৈধ invalid এছাড়াও, একটি হিস্টগ্রাম সাধারণত বিতরণের লেজগুলি দেখতে কোনও কার্যকর উপায় নয়। যাইহোক, আমি বিকল্প প্রস্তাব করতে নারাজ কারণ সমস্যাটি সংজ্ঞায়িত: কেবলমাত্র দু'টি বিতরণের জন্য "লেজের মেদ" একইরকম কী হতে পারে? কুরটোসিস একটি সম্ভাবনা, তবে এটি একটি অপরিশোধিত পরিমাপ।
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.