বক্সপ্লটের কিছু বিকল্প কী কী?


20

আমি একটি ওয়েবসাইট তৈরির জন্য কাজ করছি, যা ব্যবহারকারী নির্বাচিত বহুভুজদের জন্য আদমশুমারির তথ্য প্রদর্শন করে এবং বিভিন্ন পরামিতিগুলির বিতরণ (প্রতিটি প্যারামিটারের জন্য একটি গ্রাফ) চিত্রক্রমে দেখাতে চাই।

ডেটাতে সাধারণত নিম্নলিখিত বৈশিষ্ট্য থাকে:

  1. নমুনার আকার বড় হতে থাকে (প্রায় 10,000 টি ডাটা পয়েন্ট বলুন)
  2. মানগুলির পরিসীমাটি চূড়ান্ত আকার ধারণ করে (উদাহরণস্বরূপ, সর্বনিম্ন জনসংখ্যা 100 এরও কম হতে পারে এবং সর্বোচ্চ 500,000 এর মতো কিছু হতে পারে)
  3. কিউ 1 সাধারণত সর্বনিম্ন (200 বলুন) এর কাছাকাছি থাকে যখন Q2 এবং Q3 10,000 এর মধ্যে থাকবে
  4. এটি সাধারণ বিতরণের মতো কিছু দেখায় না

আমি কোনও পরিসংখ্যানবিদ নই এবং তাই আমার বিবরণটি সম্ভবত পরিষ্কার নয়।

আমি একটি বিতরণে এই বিতরণটি দেখাতে চাই, যা নাগরিকরা দেখতে পাবেন (সাধারণ মানুষ, যদি আপনি পছন্দ করেন)।

আমি হিস্টোগ্রামটি ব্যবহার করতে পছন্দ করতাম, তবে মানগুলির বিশাল পরিসরের কারণে এটি সম্ভব নয়, যার কারণে বিনগুলি তৈরি করা সত্যিই সহজ এবং সরাসরি এগিয়ে নেই।

পরিসংখ্যান সম্পর্কে আমি যা কিছুটা জানি তা থেকে, একটি বক্স প্লট হ'ল প্রায়শই এই জাতীয় ডেটা দেখানোর জন্য ব্যবহৃত হয় তবে আমি অনুভব করি যে একটি ল্যাপারসনের জন্য, বাক্স প্লটটি বোঝা সহজ নয়।

সহজেই বোঝার জন্য এই ডেটাটি দেখানোর জন্য আমার বিকল্পগুলি কী কী?


আপনি ঠিক কি প্রদর্শিত হয়? আপনার এক ডেটা পয়েন্ট কোন ধরণের ডেটা উপস্থাপন করে তা আমার পক্ষে পরিষ্কার নয়।
এমপিটিকাস

1
কার্নেলের ঘনত্বের প্লট কীভাবে? statmethods.net/ographics/density.html
রোমান Luštrik

@ এমপিক্টাস: আমার ডেটা গ্রামগুলির জন্য আদমশুমারির তথ্য। আমার ওয়েবসাইট ব্যবহারকারীকে মানচিত্রে একটি অঞ্চল নির্বাচন করার অনুমতি দেবে এবং তারপরে সেই অঞ্চলের সমস্ত গ্রাম খুঁজে বের করবে। একটি গ্রামের আদমশুমারির তথ্যে বিভিন্ন মান রয়েছে যেমন: পুরুষ জনসংখ্যা, মহিলা জনসংখ্যা, সেই গ্রামের গড় পারিবারিক উপার্জন ইত্যাদি। আমি আশা করি ব্যবহারকারীর নির্বাচিত অঞ্চলে পড়া সমস্ত গ্রামের জন্য একটি নির্দিষ্ট মান (উদাহরণস্বরূপ: মোট জনসংখ্যা) এর জন্য ডেটা বিতরণ দেখানো হবে।
দেবদত্ত টেংশে

উত্তর:


13

একটি বক্সপ্লট এত জটিল নয়। সর্বোপরি, আপনাকে কেবল তিনটি চতুর্থাংশ এবং কমপক্ষে এবং সর্বাধিক যা পরিসীমাটিকে সংজ্ঞায়িত করে গণনা করতে হবে ; একটি সূক্ষ্মতা দেখা দেয় যখন আমরা হুইস্কারগুলি আঁকতে চাই এবং বিভিন্ন পদ্ধতির প্রস্তাব দেওয়া হয়েছিল। উদাহরণস্বরূপ, প্রথম বা তৃতীয় কোয়ার্টাইলের আন্ত-কোয়ার্টাইলের 1.5 গুনের বাইরে কোনও টুকি বক্সপ্লট মানগুলিকে বহিরাগত হিসাবে বিবেচনা করা হবে এবং সাধারণ পয়েন্ট হিসাবে প্রদর্শিত হবে। পরিসংখ্যান সম্পর্কিত তথ্য উপস্থাপনের পদ্ধতিগুলিও দেখুন : ক্রিস্টিন পটারের দ্বারা একটি ভাল পর্যালোচনার জন্য বক্স প্লটআর সফ্টওয়্যার একটি কিছুটা ভিন্ন নিয়ম প্রয়োগ কিন্তু সোর্স কোড পাওয়া যায় যদি আপনি এটি অধ্যয়ন (দেখুন চান boxplot()এবংboxplot.stats()ফাংশন)। যাইহোক, যখন আগ্রহ খুব খুব স্কিউড ডিস্ট্রিবিউশন থেকে আউটলিয়ারদের সনাক্ত করতে আগ্রহী হয় (তবে দেখুন, হুবার্ট এবং ভান্ডারভিয়েরেন, সিএসডিএ ২০০২ 52 (12)) দ্বারা স্কিউড বিতরণের জন্য একটি অ্যাডজাস্টেড বক্সপ্লট।

যতক্ষণ না অনলাইন ভিজ্যুয়ালাইজেশন সম্পর্কিত, আমি প্রোটোভিসকে একবার দেখে নেওয়ার পরামর্শ দেব যা ইন্টারেক্টিভ ওয়েব ডিসপ্লেগুলির জন্য একটি প্লাগইন-মুক্ত জেএস টুলবক্স। উদাহরণ পৃষ্ঠা কি খুব কয়েক লাইন, এটা সঙ্গে অর্জন করা যেতে পারে খুব কনটেন্ট কপিরাইট আইনে পূর্বানুমতি হয়েছে।


3
আমি জৈবিক গবেষণায় কাজ করি। আমি এমন কয়েকজন সহকর্মীকে জানি (আমি বলতে চাইছি পিএইচডি সহ লোকেরা) যাঁরা সত্যই বক্সপ্লটগুলি ধরতে পারবেন না। আমি তাদের সাধারণ দর্শকদের টার্গেট করতে ব্যবহার করব না।
নিকো

1
@nico এটি একটি সুস্পষ্ট বিষয়। তবে, দক্ষ গ্রাফিকাল সারসংক্ষেপটি ব্যবহার না করার এটি কোনও কারণ নয়। বক্সপ্লট আসলে কী করে তার একটি পরিকল্পনামূলক চিত্র পাঠককে সাহায্য করতে পারে।
chl

1
এটি লক্ষ্যমাত্রা দর্শকদের কী এবং সাইটের লক্ষ্য কী তার উপর নির্ভর করে। বক্সপ্লটগুলি ব্যাখ্যা করা অবশ্যই অবশ্যই সহায়তা করবে তবে এখনও কিছু লোক বিতরণের ধারণাটি নিয়ে অনেক লড়াই করে।
নিকো

হ্যাঁ, আমি রাজি আছি যদিও ভিজ্যুয়ালাইজেশন চিড়িয়াখানার মাধ্যমে এ ট্যুরে বক্সপ্লটের উল্লেখ নেই - তবে এগুলি বড় এবং জটিল ডেটা সেটগুলির জন্য, আমি কেবল এটি পছন্দ করি এবং এটির জন্য দুঃখিত যে এটি পরীক্ষামূলক বিজ্ঞানে খুব বেশি ব্যবহৃত হয় না। কাঁচা ডেটা সুপারিম্পোসিং পাঠককে বিতরণটি কল্পনা করতে সহায়তা করার একটি উপায় way
chl

1
আমি জানি! আমি সর্বদা আমার সহকর্মীদের বক্সপ্লটগুলিতে "রূপান্তর" করার চেষ্টা করি, অন্ততপক্ষে যখন কাগজপত্র লেখার, উপস্থাপনাগুলি ইত্যাদির কথা আসে তবে কখনও কখনও তা হয়!
নিকো


7

আমি আপনাকে হিস্টোগ্রামের সাথে অধ্যবসায়ের পরামর্শ দিই। তারা বিকল্পগুলির তুলনায় অনেক বেশি বোঝা যায়। মানগুলির বৃহত পরিসীমা মোকাবেলায় লগ স্কেল ব্যবহার করুন। স্টাটাতে কয়েক মিনিটের মধ্যে আমি রান্না করেছি এমন একটি উদাহরণ এখানে: মান অক্ষরে লগ স্কেল সহ হিস্টোগ্রাম
আমি স্বীকার করি যে এক্স-অক্ষের সংখ্যাসূচক লেবেলগুলি সম্পূর্ণ সোজা বা স্বয়ংক্রিয় ছিল না, তবে আপনি কোনও ওয়েবসাইট তৈরি করার সময় আমি নিশ্চিত যে আপনার প্রোগ্রামিং দক্ষতাগুলি যথেষ্ট চ্যালেঞ্জ!


ভাল যুক্তি. হিস্টোগ্রামগুলি (বা ব্যান্ডউইথের সাথে পরীক্ষার সাথে ঘনত্বের প্লটগুলি) এখানে দুর্দান্ত সমাধান।
সানকুলসু

আপনি সম্পূর্ণরূপে ঠিক বলেছেন, হিস্টোগ্রাম একটি বন্টন দেখানোর সবচেয়ে বোধগম্য উপায়। আমি লগ স্কেলে দুটি অক্ষ দিয়ে হিস্টোগ্রামগুলি তৈরি করার চেষ্টা করব।
দেবদত্ত টেংশে

2
আমি কেবল এক্স-অক্ষের জন্য লগ স্কেল ব্যবহার করার পরামর্শ দিচ্ছি। আমি মনে করি না ফ্রিকোয়েন্সি অক্ষের জন্য একটি লগ স্কেল একটি ভাল ধারণা হবে, কারণ হিস্টগ্রামের প্রতিটি বারের ছায়াযুক্ত অঞ্চল পর্যবেক্ষণের সংখ্যার সাথে সমানুপাতিক হবে না।
onestop

5

বক্স-প্লটের বিকল্প হিসাবে 2D তে একাধিক হিস্টোগ্রাম পাশাপাশি পাশাপাশি প্লট করার জন্য একটি ম্যাটলব ফাংশন । উপরের ছবিটি দেখুন। এবং এখানে অন্য এক

ঘনত্বের স্ট্রিপ বাক্স-প্লটের অন্য বিকল্প। এটি একটি ছায়াযুক্ত একরঙা স্ট্রিপ যার অন্ধকার একটি বিন্দুতে পরিমাণের সম্ভাবনা ঘনত্বের সাথে সমানুপাতিক। এটি ঘনত্বের স্ট্রিপের একটি আর বাস্তবায়ন


1
(+1) সে সম্পর্কে ভুলে গেছেন। এটা সহজ হতে পারে।
chl

1
ছায়ার সাথে অনিশ্চয়তা প্রদর্শনের একটি অবরুদ্ধ পিডিএফ সংস্করণ সবেমাত্র পাওয়া গেছে ।
chl

@ সিএইচএল: সেই লিঙ্কটি কার্যকর হয় না
কেজেটিল বি হালওয়ারসেন

4

কোয়ান্টাইল ব্যবহার সম্পর্কে কীভাবে? কোনও গ্রাফ উপস্থাপন করার প্রয়োজন হবে না, কেবল একটি টেবিল। গ্রামের আদমশুমারির জন্য আমি মনে করি যে ব্যবহারকারীরা নির্দিষ্ট আকারের কতগুলি গ্রাম রয়েছে তাদের পক্ষে সবচেয়ে বেশি আগ্রহী হবে, সুতরাং উদাহরণস্বরূপ সিদ্ধান্ত গ্রহণের মাধ্যমে তাদের তথ্য যেমন তাদের জানায়এক্স%সমস্ত গ্রাম নির্দিষ্ট সংখ্যার চেয়ে ছোট। ডিক্সিলের জন্যএক্স=0,10,20,,100। আপনি এই টেবিলটি একটি এক্স-অক্ষ এবং পার্শ্ববর্তী y- অক্ষের উপর দিয়ে গ্রাফ করতে পারেন।


3
আমার এক বন্ধুকে উদ্ধৃত করে: আপনি যদি কোনও কাগজে কোনও কিছু "আড়াল" করতে চান তবে লেখায় এটি বরং চিত্রের মধ্যে রাখুন। আপনি যদি নিশ্চিত হন যে কেউ কখনও পড়েন না এটি এটি একটি টেবিলের মধ্যে রাখুন! ;) কেবল হাস্যকর, তবে ব্যবহারকারীদের জন্য ক্লিক করার জন্য ইন্টারেক্টিভ ম্যাপের সাথে একটি ওয়েবসাইট থাকা ইত্যাদি all সবগুলি একটি টেবিল পেতে ... ভাল যে হতাশ হবে!
নিকো

@নিকো, হ্যাঁ তবে কখনও কখনও টেবিলগুলি গ্রাফের তুলনায় অনেক বেশি তথ্যপূর্ণ। আমি উদাহরণস্বরূপ খারাপ গ্রাফের পরিবর্তে টেবিলটি পছন্দ করি। এই ক্ষেত্রে এখনও টেবিলটি গ্রাফ দ্বারা প্রতিনিধিত্ব করা যেতে পারে, এবং আমি কোয়ান্টাইলগুলি পরামর্শ দিয়েছিলাম কারণ তাদের বহিরাগতদের সমস্যা নেই।
এমপিটিকাস

আমি বর্তমানে এটিই করছি (গ্রাফের ডেস্কলগুলি প্রদর্শন করছি) তবে আমাদের লক্ষ্যবস্তু দর্শকদের কিছু দেখানোর পরে আমরা প্রতিক্রিয়া পেয়েছি, গ্রাফগুলি বোঝা সহজ ছিল না।
দেবদত্ত টেঙশে

2

আপনি যদি সাধারণ জনগোষ্ঠীকে লক্ষ্য করে নিচ্ছেন (অর্থাত্ কোনও পরিসংখ্যান-জ্ঞানসম্পন্ন শ্রোতা) আপনার স্ট্যাটিস্টিকাল যথার্থতার চেয়ে চোখের ক্যান্ডির উপর নজর দেওয়া উচিত।

বক্সপ্লটগুলি ভুলে যান, বেহালা প্লটগুলি একা ছেড়ে দিন (ব্যক্তিগতভাবে আমি সেগুলি পড়তে খুব কঠিন মনে করি)! যদি আপনি গড় রাস্তার লোকটিকে কোয়ান্টাইলটি কী তা জিজ্ঞাসা করেন তবে আপনি বেশিরভাগ প্রশস্ত চোখের নীরবতা পেয়ে যাবেন ...

আপনার বারপ্লট, বুদ্বুদ চার্ট, সম্ভবত কিছু পাই চার্ট (brrrr) ব্যবহার করা উচিত। ত্রুটি বারগুলি সম্পর্কে ভুলে যান (যদিও আমি প্রযোজ্য সেখানে কোথাও এসডি রাখব)।

রঙ, আকার, ঘন লাইন, 3 ডি ব্যবহার করুন। সমস্ত কিংবদন্তী / অক্ষগুলি না পড়েও আপনার প্রতিটি লেখচিত্রটি অনন্য এবং তাত্ক্ষণিকভাবে সহজেই বোঝা উচিত maps মানচিত্রগুলিকে রঙ করে একটি স্মার্ট ব্যবহার করুন।

তথ্যগুলি সুন্দর হওয়াই ধারণা পাওয়ার জন্য খুব ভাল একটি উত্স। উদাহরণস্বরূপ এই চার্টটি দেখুন: ক্যাফিন এবং ক্যালোরি : যে কেউ এটি বুঝতে পারে এবং এটি চোখের কাছে আনন্দিত।

এবং অবশ্যই এডওয়ার্ড টুফ্টের কাজটি দেখুন।


দ্রষ্টব্য আমি তার অ্যাপ্লিকেশনগুলির জন্য তিনি বেহালা প্লট ব্যবহার করার পরামর্শ দিচ্ছিলাম না, তবে লোগারিথ্মিকভাবে ব্যবধানযুক্ত বিনগুলি সহ একটি হিস্টোগ্রাম। ভায়োলিন প্লটগুলি শিরোনামের প্রশ্নের উত্তর ছিল (যা পোস্টে থাকা প্রশ্নের চেয়ে আলাদা ছিল)।
ডিকরান মার্শুপিয়াল


2

আমি বরং বেহালা প্লট নিজেকে পছন্দ করি, কারণ এটি বিতরণের আকারের ধারণা দেয়। তবে যদি মানগুলির বৃহত পরিসীমাটি সমস্যা হয়, তবে সম্ভবত কাঁচা মানগুলির চেয়ে ডেটা লগের চক্রান্ত করা ভাল হবে, তবে হিস্টোগ্রামগুলির জন্য বাক্সের আকারগুলি বেছে নেওয়া ইত্যাদি As লগগুলির উল্লেখ না করে এবং অক্ষটি 10, 100, 1000, 10000, 100000, 1000000 ইত্যাদি চিহ্নিত করুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.