কিউকিউ প্লট হিস্টগ্রামের সাথে মেলে না


12

আমার কাছে হিস্টোগ্রাম, কার্নেল ঘনত্ব এবং আর্থিক লগ রিটার্নগুলির একটি উপযুক্ত সাধারণ বিতরণ রয়েছে, যা ক্ষতির মধ্যে রূপান্তরিত হয় (লক্ষণগুলি পরিবর্তিত হয়), এবং এই ডেটার একটি সাধারণ কিউকিউ প্লট রয়েছে:

http://tinypic.com/r/34ocwvr/6

কিউকিউ প্লটটি পরিষ্কারভাবে দেখায় যে লেজগুলি সঠিকভাবে লাগানো হয়নি। তবে আমার যদি হিস্টোগ্রাম এবং লাগানো সাধারণ বিতরণ (নীল) দিকে নজর থাকে তবে 0.0 এর আশেপাশের মানগুলিও সঠিকভাবে ফিট হয় না। সুতরাং কিউকিউ প্লটটি দেখায় যে কেবল লেজগুলি যথাযথভাবে লাগানো হয় না, তবে স্পষ্টভাবে পুরো বিতরণটি সঠিকভাবে লাগানো হয় না। কেন এটি কিউকিউ প্লটে প্রদর্শিত হচ্ছে না?


10
বামদিকে নীল বক্ররেখার ডানদিকে "সেরা ফিট" এর একটি অনুমান লাইনের সাথে মিল রয়েছে। ডান দিকে লাইন না যে ভাল হইয়া লাইন: এটা এক যে ভাল দেখাচ্ছে মধ্যম বিতরণে মান। আপনি যদি পুরো জিনিসের পরিবর্তে হিস্টগ্রামের মাঝামাঝি দুই তৃতীয়াংশ বা তার বেশি অংশের সাথে "ঘন্টার বক্রাকার" মাপসই করেন তবে সেই বক্ররেখাটি শিখর এবং খাড়া opালু দিকগুলির অনুসরণের কাছাকাছি পৌঁছতে পারে তবে এটি খুব দূরে থাকত কাঁধ এবং লেজ এ খুব কম। কিউকিউ প্লটের লাইনটি ঠিক এটিই প্রদর্শিত হচ্ছে: এই প্লটগুলি নিখুঁত চুক্তিতে রয়েছে; এটি ফিট যে পৃথক।
whuber

উত্তর:


11

+1 to @ নিকস্যাবেকে, কারণ 'প্লটটি আপনাকে কেবল "কিছু ভুল" বলে দেয় যা প্রায়শই কিউকিউ প্লট ব্যবহার করার সর্বোত্তম উপায় (কারণ কীভাবে এটি ব্যাখ্যা করতে হবে তা বোঝা মুশকিল)। তবে কীভাবে কীভাবে কীভাবে তৈরি করা যায় তা চিন্তা করে কীভাবে একটি কিউকি প্লটটির ব্যাখ্যা করা যায় তা শেখা সম্ভব।

আপনি আপনার ডেটা বাছাই করে শুরু করবেন, তারপরে আপনি ন্যূনতম মান থেকে সমান শতাংশ হিসাবে গ্রহণের পথটি গণনা করবেন। উদাহরণস্বরূপ, আপনার যদি 20 ডেটা পয়েন্ট থাকে, যখন আপনি প্রথমটি গণনা করেন (সর্বনিম্ন), আপনি নিজেকে বলবেন, 'আমি আমার ডেটা 5% গণনা করেছি'। আপনি শেষ না হওয়া পর্যন্ত আপনি এই প্রক্রিয়াটি অনুসরণ করবেন, যার পর্যায়ে আপনি আপনার 100% ডেটা দিয়ে গেছেন। এই শতাংশের মানগুলি তাত্ত্বিক স্বাভাবিক (যেমন, একই গড় এবং এসডি সহ স্বাভাবিক) থেকে একই শতাংশের মানের সাথে তুলনা করা যেতে পারে।

আপনি যখন এগুলি প্লট করতে যান, আপনি আবিষ্কার করতে পারবেন যে আপনার শেষ মানটি যা 100% এর সাথে সমস্যা রয়েছে কারণ আপনি যখন একটি তাত্ত্বিক স্বাভাবিকের 100% পেরিয়ে গেছেন তখন আপনি 'অনন্ত' হন। শতাংশ গণনা করার আগে আপনার ডাটাতে প্রতিটি বিন্দুতে ডিনোমিনেটরে একটি সামান্য ধ্রুবক যুক্ত করে এই সমস্যাটি মোকাবেলা করা হয়। একটি সাধারণ মান হ'ল ডিনোমিনেটরে 1 যুক্ত করা; উদাহরণস্বরূপ, আপনি আপনার 1 ম (20 এর) ডেটা পয়েন্ট 1 / (20 + 1) = 5% কল করবেন এবং আপনার শেষটি হবে 20 / (20 + 1) = 95%। এখন আপনি যদি এই সম্পর্কিত পয়েন্টগুলি সম্পর্কিত তাত্ত্বিক স্বাভাবিকের তুলনায় প্লট করেন তবে আপনার পিপি প্লট হবে(সম্ভাবনার বিরুদ্ধে সম্ভাব্য পরিকল্পনা করার জন্য)। এই জাতীয় প্লট সম্ভবত আপনার বিতরণ এবং বিতরণের কেন্দ্রে একটি স্বাভাবিকের মধ্যে বিচ্যুতিগুলি দেখায়। এটি কারণ সাধারণ বন্টনের% distribution% + +-- ১ এসডির মধ্যে থাকে, সুতরাং পিপি-প্লটগুলিতে সেখানে চমৎকার রেজোলিউশন থাকে এবং অন্য কোথাও খারাপ রেজোলিউশন থাকে। (এই বিষয়ে আরও তথ্যের জন্য, আমার উত্তরটি এখানে পড়তে সাহায্য করতে পারে: পিপি-প্লট বনাম কিউকিউ-প্লট ।)

প্রায়শই, আমরা আমাদের বিতরণের লেজগুলিতে কী ঘটছে তা নিয়ে আমরা সবচেয়ে উদ্বিগ্ন। সেখানে আরও ভাল রেজোলিউশন পেতে (এবং এর মধ্যে আরও খারাপ রেজোলিউশন) পেতে আমরা এর পরিবর্তে একটি কিউকি প্লট তৈরি করতে পারি। আমরা আমাদের সম্ভাবনার সেটগুলি গ্রহণ করে এবং এটিকে সাধারণ বিতরণের সিডিএফের বিপরীত মাধ্যমে পাস করে করি (এটি একটি স্ট্যাটাস বইয়ের পিছনের দিকে জেড-টেবিলটি পড়ার মতো - আপনি কোনও সম্ভাবনার মধ্যে পড়ে এবং একটি জেড- স্কোর)। এই অপারেশনের ফলাফলটি দুটি সেট কোয়ান্টাইল , যা একে অপরের বিরুদ্ধে একইভাবে চক্রান্ত করা যেতে পারে।

@ হুবহু ঠিক আছে যে রেফারেন্স লাইনটি পরে (সাধারণত) পয়েন্টের মাঝামাঝি 50% (অর্থাৎ প্রথম চৌকোটি থেকে তৃতীয় পর্যন্ত) মধ্য দিয়ে সর্বোত্তম ফিটিং রেখাটি খুঁজে পাওয়ার পরে প্লট করা হয়। প্লটটি পড়া সহজ করার জন্য এটি করা হয়। এই লাইনটি ব্যবহার করে, আপনি এই প্লটটি ব্যাখ্যা করতে পারেন যে আপনি আপনার বন্টনের কোয়ান্টাইলগুলি পুচ্ছের মধ্যে যাওয়ার সময় ক্রমশ সত্যিকারের স্বাভাবিক থেকে সরে যায় কিনা। (দ্রষ্টব্য যে কেন্দ্র থেকে আরও পয়েন্টের অবস্থানটি নিকটবর্তীগুলির তুলনায় সত্যই স্বতন্ত্র নয়; সুতরাং আপনার নির্দিষ্ট হিস্টোগ্রামে, 'কাঁধ' পৃথক হওয়ার পরে লেজগুলি একত্রিত হয়েছিল বলে মনে হয় না) কোয়ান্টাইলগুলি বোঝায় না এখন আবার একই।)

প্রদত্ত প্লটযুক্ত বিন্দুর তুলনায় অক্ষ থেকে পড়া মানগুলি বিবেচনা করে বিশ্লেষণ করে আপনি কিউকি প্লটটির ব্যাখ্যা করতে পারেন। যদি একটি সাধারণ বিতরণ দিয়ে ডেটাগুলি ভালভাবে বর্ণিত হয় তবে মানগুলি একই রকম হওয়া উচিত। উদাহরণস্বরূপ, একেবারে বাম নীচের কোণায় চূড়ান্ত বিন্দুটি : এর মানটি কোথাও অতীত , তবে এর মানটি কেবল সামান্য অতীত , সুতরাং এটি 'হওয়া উচিত' এর চেয়ে অনেক বেশি দূরে out সাধারণভাবে, কিউকিউ-প্লটের ব্যাখ্যা করার জন্য একটি সরল রুব্রিক হ'ল যদি প্রদত্ত লেজটি রেফারেন্স লাইন থেকে ঘড়ির কাঁটার বিপরীতে ঘুরিয়ে দেয় তবে তাত্ত্বিক স্বাভাবিকের চেয়ে আপনার বন্টনের সেই লেজের মধ্যে আরও বেশি ডেটা থাকে এবং যদি কোনও লেজ ঘড়ির কাঁটার দিকে ঘুরিয়ে দেয় তবে হয় কম- 3 y - .2x3y.2তাত্ত্বিক স্বাভাবিকের চেয়ে আপনার বিতরণের সেই লেজের মধ্যে ডেটা। অন্য কথায়:

  • যদি উভয় লেজগুলি ঘড়ির কাঁটার বিপরীতে ঘুরিয়ে দেয় তবে আপনার ভারী লেজ রয়েছে ( লেপটোকার্টসিস ),
  • যদি উভয় লেজগুলি ঘড়ির কাঁটার দিকে মোচড় দেয়, আপনার হালকা লেজ রয়েছে (প্ল্যাটিকুর্টিসিস),
  • যদি আপনার ডান লেজটি ঘড়ির কাঁটার বিপরীতে এবং আপনার বাম লেজটি ঘড়ির কাঁটার বিপরীতে ঘুরিয়ে দেয় তবে আপনার ডান স্কু রয়েছে
  • যদি আপনার বাম লেজটি ঘড়ির কাঁটার বিপরীতে এবং ডান লেজটি ঘড়ির কাঁটার বিপরীতে ঘুরিয়ে দেয় তবে আপনি স্কু বামে রেখেছেন

আমি এই ধরনের রব্রিকগুলি সন্তোষজনক চেয়ে কম পাই। একটি হ'ল চক্রান্তের পিছনের নীতিগুলির সাথে তাদের সরাসরি সংযোগ নেই: তাদের আলাদাভাবে মুখস্থ করতে হবে (এবং ত্রুটিযুক্ত স্মৃতিতে সম্পূর্ণ বিভ্রান্ত হতে পারে)। আরেকটি (এই ক্ষেত্রে) এটি নির্ভরযোগ্যভাবে কার্যকর হওয়া খুব জটিল too তবুও অন্যটি হ'ল এই জাতীয় প্লটগুলি কীভাবে আঁকানো হয় তাতে মানকতার অভাব যখন কোনও ভিন্ন পদ্ধতি দ্বারা তৈরি কোনও কিউকি প্লটে প্রয়োগ করা হয় তখন এই পদ্ধতিটিকে ভুল করতে পারে। তবে কিউকিউ প্লটগুলি ব্যাখ্যা করা সহজ: Quantdec.com/envstats/notes/class_03/probability.htm এর অর্ধেক নীচে ব্যাখ্যাতে আমার প্রচেষ্টা দেখুন ।
whuber

5

সোজা কথায়: কিউকিউ-প্লট প্রত্যাশিত বিতরণের তুলনায় অভিজ্ঞ অভিজ্ঞতাতে র‌্যাঙ্কিং দেখায়। আপনার ক্ষেত্রে (এবং এটি আসলে প্রায়শই প্রায়শই প্রতিসম বিতরণের সাথে থাকে), মাঝের কাছাকাছি র‌্যাঙ্কগুলি প্রত্যাশিত এবং অভিজ্ঞতামূলক মধ্যে সমান হয়, সুতরাং, কিউকিউ-প্লটটি সেখানে লাইনটির খুব কাছাকাছি থাকে is

কোনও কিউকিউ-প্লটে তাদের অবস্থানের ভিত্তিতে "অদ্ভুত" পর্যবেক্ষণগুলি সনাক্ত করা এত সহজ সোজা নয়: প্লটটি আপনাকে কেবল "কিছু ভুল" বলে দেয় এবং যদি আপনি তথ্য / বিতরণ সম্পর্কে আরও কিছু জানেন তবে আপনি খুঁজে পেতে পারেন বিষয়গুলি যেখানে।


1
আমি বিপরীত উপসংহারটি বজায় রাখতে পারি, নিক: কিউকিউ প্লটটি ডেটার বডির তুলনায় "অদ্ভুত" ফলাফলগুলি সনাক্ত করা এবং মূল্যায়ন করা অনেক সহজ করে তোলে, যখন হিস্টোগ্রামটি কিউকিউ প্লটটি প্রকাশ করে যে অনেকটাই অস্পষ্ট করে। এখানে বিষয়টি কিউকিউ প্লটটি কোনও লাইনের নিকটবর্তী কিনা তা নয়: এটি সফ্টওয়্যার দ্বারা প্লটটির রেফারেন্স হিসাবে কোন লাইনটি বেছে নিয়েছে তা উদ্বেগযুক্ত! (আমি সন্দেহ করি যে Rএটি কিছুটা মাঝারি শতাংশের উপর নির্ভর করে যেমন কোয়ার্টাইলস, যদিও হিস্টোগ্রামের সাথে মানানসই মুহুর্তের উপর ভিত্তি করে ফিট ছিল))
হোবার

1
@ ভুবার: ব্যক্তিগতভাবে, আমি সম্ভব হলে উভয়ই দেখতে চাই (বেশিরভাগ ক্ষেত্রে আমি কিউকিউ-প্লটগুলির চেয়ে হিস্টোগ্রামগুলি সহজ "পড়ি")। তবে আপনি ঠিক বলেছেন এবং আমি সংশোধন করছি।
নিক সাব্বে

এবং আপনি বেশ সঠিক যে দুটি কৌশল পরিপূরক হয়। উদাহরণস্বরূপ, দ্বিবিজ্ঞান QQ প্লটের চেয়ে কোনও হিস্টোগ্রামে সনাক্তকরণ (এবং পরিমাণ নির্ধারণ) সহজ হতে থাকে। আমি বিশ্বাস করি যে অনুশীলনের মাধ্যমে হিস্টোগ্রাম এবং কিউকি প্লট উভয়ই পড়া সহজ হয়ে যায়। কিউকিউ প্লটগুলি কেবল শিখতে কিছুটা বেশি সময় নিতে পারে কারণ তাদের কাছে উপস্থাপনার একটি স্ট্যান্ডার্ড রূপ নেই: আপনাকে সর্বদা পরীক্ষা করতে হবে কোন অক্ষটি মান এবং কোয়ান্টাইল, এবং কখনও কখনও কোয়ান্টাইলগুলি "সমমানের মান" রূপান্তরিত হয় (এর পরিবর্তে) প্রমিত করা হচ্ছে)।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.