হিস্টোগ্রামে কিউকিউ-প্লট ব্যবহারের সুবিধা


22

ইন এই মন্তব্যটি নিক কক্সবাজার লিখেছিলেন:

ক্লাসে বিন্যস্ত করা একটি প্রাচীন পদ্ধতি। হিস্টোগ্রামগুলি কার্যকর হতে পারে, তবে আধুনিক পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার এটিকে কাঁচা ডেটাতে বিতরণ মাপসই করার পাশাপাশি সহজ করে তোলে। বিনিং কেবল বিশদটি নিক্ষেপ করে যা কোন বিতরণকে শ্রবণযোগ্য তা নির্ধারণে গুরুত্বপূর্ণ।

এই মন্তব্যের প্রসঙ্গটি ফিট কিউকে মূল্যায়নের বিকল্প উপায় হিসাবে কিউকিউ-প্লটগুলি ব্যবহার করার পরামর্শ দেয়। বিবৃতিটি খুব প্রশংসনীয় মনে হলেও আমি এই বিবৃতিটি সমর্থনকারী একটি নির্ভরযোগ্য রেফারেন্স সম্পর্কে জানতে চাই। একটি সরল "ভাল, এটি সুস্পষ্ট বলে মনে হচ্ছে" এর বাইরেও এমন কিছু কাগজ রয়েছে যা এই সত্যের আরও তদন্ত করে? ফলাফলের কোন বাস্তব পদ্ধতিগত তুলনা বা পছন্দগুলি?

আমি আরও দেখতে চাই হিস্টোগ্রামের চেয়ে কিউকিউ-প্লটের এই সুবিধাটি কতটা প্রসারিত করা যায়, মডেল ফিটিং ব্যতীত অন্য অ্যাপ্লিকেশনগুলিতেও। এই প্রশ্নের উত্তরগুলি একমত যে "একটি কিউকিউ-প্লট […] আপনাকে কেবল" কিছু ভুল "বলে দেয়। আমি এগুলি একটি নাল মডেলের তুলনায় পর্যবেক্ষণ করা ডেটাতে কাঠামো সনাক্ত করার জন্য একটি সরঞ্জাম হিসাবে ব্যবহার করার বিষয়ে ভাবছি এবং কিউকিউ-প্লটগুলি (বা তাদের অন্তর্নিহিত ডেটা) কেবল সনাক্ত করার জন্য নয়, এলোমেলো বর্ণনা করার জন্য কোনও প্রতিষ্ঠিত পদ্ধতি রয়েছে কিনা তা অবাক করেছিলাম পর্যবেক্ষিত তথ্য কাঠামো। এই দিকটি অন্তর্ভুক্ত রেফারেন্সগুলি তাই বিশেষভাবে কার্যকর হবে।


4
stats.stackexchange.com/questions/51718/… ইতিমধ্যে প্রশ্নের অর্ধেক উত্তর দিয়েছে, কেন হিস্টোগ্রামগুলি সর্বোত্তম এড়ানো যায়, আপনি সেগুলি প্রতিস্থাপন করুন তা বিবেচনা করেই নয়।
গালা

উত্তর:


25

এখানে আধ্যাত্মিক কাগজ ছিল

উইলক, এমবি এবং আর জ্ঞানাদেসিকান। 1968. ডেটা বিশ্লেষণের জন্য সম্ভাব্যতা প্লট করার পদ্ধতিগুলি। বায়োমেটিকার 55: 1-17

এবং এটি এখনও ঘনিষ্ঠ এবং পুনরাবৃত্তি পড়ার পুনরাবৃত্তি করে।

অনেক ভাল উদাহরণ সহ একটি সুস্বাদু চিকিত্সা দ্বারা দেওয়া হয়েছিল

ক্লেভল্যান্ড, ডাব্লুএস 1993. ভিজ্যুয়ালাইজিং ডেটা। সামিট, এনজে: হোবার্ট প্রেস।

এবং এটি আরও পরিচিতি উল্লেখযোগ্য

ক্লেভল্যান্ড, ডাব্লুএস 1994. গ্রাফিং ডেটার উপাদানসমূহ। সামিট, এনজে: হোবার্ট প্রেস।

এই পদ্ধতির যুক্তিসঙ্গত এক্সপোজারযুক্ত অন্যান্য পাঠ্যগুলির মধ্যে রয়েছে

ডেভিসন, এসি 2003. পরিসংখ্যানের মডেল। কেমব্রিজ: কেমব্রিজ বিশ্ববিদ্যালয় প্রেস।

চাল, জেএ 2007. গাণিতিক পরিসংখ্যান এবং ডেটা বিশ্লেষণ। বেলমন্ট, সিএ: ডক্সবারি।

এই দিকটি বাদ দিয়ে, আমি এমন কোনও কিছুই জানি না যা আপনি যা চান তা ঠিক। একবার আপনি কোয়ান্টাইল-কোয়ান্টাইল প্লটগুলির বিন্দুটি দেখেছেন, বিশদে দেখিয়েছেন যে হিস্টোগ্রামগুলি দ্বিতীয়-হারের বিকল্প, আকর্ষণীয় বা কার্যকর নয় বলে মনে হচ্ছে খুব বেশি পরিমাণে ব্যারেলে মাছ গুলি করার মতো।

তবে আমি সংক্ষেপে এইভাবে বলব:

  1. বিনিং বিবরণ দমন করে এবং বিবরণগুলি প্রায়শই গুরুত্বপূর্ণ। এটি কেবল লেজগুলিতে কী চলছে তা নয় তবে মাঝখানে কী চলছে তাও প্রয়োগ করতে পারে। উদাহরণস্বরূপ, দানাদারতা বা মাল্টিমোডালটির পাশাপাশি স্কিউনেস বা লেজের ওজন গুরুত্বপূর্ণ be

  2. বিনিংয়ের জন্য বিন উত্স এবং বিন প্রস্থ সম্পর্কে সিদ্ধান্ত নেওয়া দরকার, যা হিস্টোগ্রামগুলির প্রভাবকে শক্তিশালীভাবে প্রভাবিত করতে পারে, তাই বাস্তবটি কী এবং পছন্দগুলির একটি পার্শ্ব-প্রতিক্রিয়া কী তা দেখা শক্ত। আপনার সফ্টওয়্যার যদি আপনার জন্য এই সিদ্ধান্ত নেয়, সমস্যাগুলি রয়ে গেছে। (উদাহরণস্বরূপ, ডিফল্ট বিন পছন্দগুলি প্রায়শই ডিজাইন করা হয় যাতে আপনি "অনেকগুলি বিন" ব্যবহার না করেন, অর্থাত্ কিছুটা মসৃণ করার উদ্দেশ্য নিয়ে of)

  3. দুটি হিস্টোগ্রামের তুলনা করার গ্রাফিকাল এবং সাইকোলজিকাল সমস্যাটি একটি সরলরেখায় পয়েন্টের একটি সেটের উপযুক্ত বিচারের চেয়ে জটিলতর।

[27 সেপ্টেম্বর 2017 যোগ করা হয়েছে] 4. এক বা একাধিক রুপান্তরিত স্কেল বিবেচনা করার সময় কোয়ান্টাইল প্লটগুলি খুব সহজেই পরিবর্তিত হতে পারে। রূপান্তর দ্বারা এখানে আমার অর্থ একটি অ-রৈখিক রূপান্তর, উদাহরণস্বরূপ নয় সর্বাধিক দ্বারা স্কেলিং বা মান দ্বারা মান (মান-গড়) / এসডি কোয়ান্টাইলগুলি যদি কেবল অর্ডার পরিসংখ্যান হয় তবে আপনাকে যা করতে হবে তা হ'ল রূপান্তরটি প্রয়োগ করা, যেমন সর্বাধিকের লোগারিদম একইভাবে লোগারিদমের সর্বোচ্চ এবং আরও অনেক কিছু। (তুচ্ছভাবে, প্রত্যাহার ক্রমকে বিপরীত করে দেয়)) এমনকি আপনি যদি দুটি অর্ডার পরিসংখ্যানের ভিত্তিতে নির্বাচিত কোয়ান্টাইলগুলি প্লট করেন তবে সাধারণত সেগুলি দুটি মূল ডেটা মানগুলির মধ্যে কেবল দ্বিখণ্ডিত হয় এবং ইন্টারপোলেশনের প্রভাব তুচ্ছ হয়। বিপরীতে, লগ বা অন্যান্য রূপান্তরকৃত স্কেলের হিস্টোগ্রামগুলিতে বিনের উত্স এবং প্রস্থ সম্পর্কে একটি নতুন সিদ্ধান্ত নেওয়া দরকার যা বিশেষত কঠিন নয়, তবে এটি তুচ্ছ নয়। বিতরণকে সংক্ষিপ্ত করার উপায় হিসাবে ঘনত্বের প্রাক্কলন সম্পর্কে অনেক একই কথা বলা যেতে পারে।


8

উইলিয়াম এস ক্লিভল্যান্ডের কাজ দেখুন।

ভিজ্যুয়ালাইজিং ডেটা সম্ভবত সেরা একক উত্স, তবে তার ওয়েব পৃষ্ঠা , বিশেষত গ্রন্থপঞ্জি এবং ভিজ্যুয়ালাইজিং ডেটার জন্য পৃষ্ঠাটি (এস ব্যবহারের জন্য অভিযোজ্য এস + কোড সহ R) দেখুন।

ক্লিভল্যান্ডের কিউকিউ প্লট কেন ভাল এবং হিস্টোগ্রামগুলি এত ভাল না কেন তার অনেকগুলি কারণ রয়েছে।



7

একবার আপনি কীভাবে এটি ব্যবহার করবেন তা শিখলে, কিউকিউ প্লটগুলি আপনাকে স্কিউনেস, হেভিটাইলেডনেস, সাধারণ আকৃতি, শিখর ইত্যাদি চিহ্নিত করতে দেয়, একই ধরণের বৈশিষ্ট্যগুলি মানুষ হিস্টোগ্রামগুলি মূল্যায়ন করার চেষ্টা করে।

কার্নেলের ঘনত্বের অনুমান বা লগ-স্প্লাইন ঘনত্বের অনুমানগুলি হিস্টোগ্রামগুলি নিয়ে কিছু সমস্যা এড়াতে পারে যা গালা মন্তব্যে উল্লেখ করেছেন।

এই লিঙ্কটি থেকে এই উদাহরণটি বিবেচনা করুন:

তবে, আপনি যদি খুব ভাগ্যবান না হন তবে সন্দেহজনক বিচ্ছিন্নতা কখনও কখনও হিস্টোগ্রাম এবং এমনকি মসৃণ ঘনত্বের প্রাক্কলনগুলি (কারণ তারা মসৃণ, প্রাকৃতিকভাবে) দিয়ে মুছতে পারে না, তবে প্রায়শই কিউকিউ প্লটগুলিতে স্পষ্ট হবে। মসৃণ ঘনত্বের প্রাক্কলন - বিশেষভাবে চিকিত্সা করা না হলে - সীমাবদ্ধ ভেরিয়েবলগুলির সাথেও সমস্যা হতে পারে।

হিস্টোগ্রাম এবং মসৃণ ঘনত্বের অনুমান উভয়ই ডেটার সংলগ্ন উপর নির্ভর করে - যা কার্যকর হতে পারে - তবে শিল্পকলাগুলি বা কিছুটা ভুল উপস্থাপনের পরিচয়ও দিতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.