দুটি অর্ডিনাল ভেরিয়েবলের মধ্যে সম্পর্কের জন্য গ্রাফ


46

দুটি অর্ডিনাল ভেরিয়েবলের মধ্যে সম্পর্ক চিত্রিত করার জন্য উপযুক্ত গ্রাফটি কী?

আমি কয়েকটি বিকল্পের কথা ভাবতে পারি:

  1. একে অপরের লুকিয়ে থাকা পয়েন্টগুলি থামানোর জন্য যুক্ত র্যান্ডম জিটার সহ স্কেটার প্লট। দৃশ্যত একটি স্ট্যান্ডার্ড গ্রাফিক - মিনিতাব এটিকে একটি "স্বতন্ত্র মানের প্লট" বলে plot আমার মতে এটি বিভ্রান্তিকর হতে পারে কারণ এটি দৃশ্যত অর্ডিনাল স্তরের মধ্যে এক ধরণের লিনিয়ার প্রবৃত্তিকে উত্সাহিত করে, যেন ডেটা কোনও বিরতি স্কেল থেকে।
  2. স্ক্যাটার প্লটটি এমনভাবে অভিযোজিত হয়েছে যাতে পয়েন্টের আকার (অঞ্চল) প্রতিটি স্যাম্পলিং ইউনিটের জন্য একটি পয়েন্ট আঁকার পরিবর্তে স্তরগুলির সংমিশ্রণের ফ্রিকোয়েন্সি উপস্থাপন করে। অনুশীলনে আমি মাঝে মধ্যে এরকম প্লট দেখেছি। এগুলি পড়া শক্ত হতে পারে তবে পয়েন্টগুলি নিয়মিত-ফাঁক করা জালির উপরে থাকে যা কিছুটা বিভ্রান্তিকর ছড়িয়ে ছিটিয়ে থাকা প্লটের সমালোচনাকে কাটিয়ে উঠেছে যে এটি ডেটাটিকে দৃষ্টিভঙ্গি করে "অন্তর্বর্তীকরণ" করে।
  3. বিশেষত যদি কোনও ভেরিয়েবলকে নির্ভরশীল হিসাবে বিবেচনা করা হয় তবে একটি বাক্স প্লটকে স্বাধীন ভেরিয়েবলের স্তর দ্বারা গোষ্ঠীভুক্ত করা হয়। ভয়াবহ লাগার মতো যদি নির্ভরশীল ভেরিয়েবলের মাত্রাগুলি পর্যাপ্ত পরিমাণে না থাকে (খুব "সমতল" অনুপস্থিত হুইস্কার বা আরও খারাপ ধসে পড়া কোয়ার্টিল যা মিডিয়ানের ভিজ্যুয়াল সনাক্তকরণকে অসম্ভব করে তোলে) তবে কমপক্ষে মিডিয়ান এবং কোয়ার্টাইলগুলির দিকে মনোযোগ আকর্ষণ করে একটি সাধারণ ভেরিয়েবলের জন্য প্রাসঙ্গিক বর্ণনামূলক পরিসংখ্যান।
  4. ফ্রিকোয়েন্সি নির্দেশ করতে তাপের মানচিত্র সহ মানগুলির সারণী বা ফাঁকা গ্রিড। দৃষ্টিভঙ্গি পৃথক তবে ধারণা পয়েন্ট ফ্রিকোয়েন্সি সহ স্ক্যাটার প্লটের মতো the

প্লটগুলি অগ্রাধিকারযোগ্য এমন কোন ধারণা বা চিন্তাভাবনা আছে কি? গবেষণার এমন কোন ক্ষেত্র রয়েছে যেখানে নির্দিষ্ট অর্ডিনাল-বনাম-অর্ডিনাল প্লটগুলি মান হিসাবে বিবেচিত হয়? (আমি জিনোমিক্সে ফ্রিকোয়েন্সি হিটম্যাপটি বিস্তৃত মনে করছি তবে সন্দেহ হয় যে এটি নামমাত্র-বনাম-নামমাত্রের জন্য প্রায়শই বেশি।) একটি ভাল মানক রেফারেন্সের পরামর্শগুলিও খুব স্বাগত হবে, আমি এগ্রেস্টির কাছ থেকে কিছু অনুমান করছি।

যদি কেউ কোনও প্লটের সাথে চিত্রিত করতে চান তবে বোগাস নমুনা ডেটার জন্য আর কোড অনুসরণ করে।

"অনুশীলন আপনার পক্ষে কতটা গুরুত্বপূর্ণ?" 1 = মোটেও গুরুত্বপূর্ণ নয়, 2 = কিছুটা গুরুত্বহীন, 3 = গুরুত্বপূর্ণও নয় বা গুরুত্বহীনও নয়, 4 = কিছুটা গুরুত্বপূর্ণ, 5 = খুব গুরুত্বপূর্ণ।

"আপনি 10 মিনিট বা তার চেয়ে বেশি সময় ধরে কতটা নিয়মিত রান গ্রহণ করেন?" 1 = কখনই নয়, 2 = প্রতি পাক্ষিকের চেয়ে একবারে কম, 3 = প্রতি এক বা দুই সপ্তাহে একবার, 4 = দুই বা তিন বার প্রতি সপ্তাহে, প্রতি সপ্তাহে 5 = চার বা তার বেশি বার।

যদি "প্রায়শই" নির্ভরশীল ভেরিয়েবল হিসাবে বিবেচনা করা স্বাভাবিক এবং "গুরুত্ব" স্বতন্ত্র ভেরিয়েবল হিসাবে বিবেচনা করা স্বাভাবিক, যদি কোনও প্লট দুটির মধ্যে পার্থক্য করে।

importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
           rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
           rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
           rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
           rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless

অবিচ্ছিন্ন ভেরিয়েবলগুলির জন্য একটি সম্পর্কিত প্রশ্ন আমি সহায়ক বলে মনে করেছি, সম্ভবত একটি দরকারী সূচনা পয়েন্ট: দুটি সংখ্যার ভেরিয়েবলের মধ্যে সম্পর্ক অধ্যয়ন করার সময় স্ক্যাটারপ্লটগুলির বিকল্পগুলি কী?


1
একটি মেরুদণ্ডের সম্পর্কে কী?
দিমিত্রি ভি। মাস্টারভ

বেশ কয়েকটি গ্রুপে অবিচ্ছিন্ন অর্ডিনাল ডেটা প্রদর্শনের জন্য সম্পর্কিত প্রশ্নটিও প্রাসঙ্গিক হতে পারে: সাধারণ তথ্য প্রদর্শন - অর্থ, মিডিয়ান এবং গড় র‌্যাঙ্কস
সিলভারফিশ

উত্তর:


15

একটি স্পাইনপ্লট (মোজাইক প্লট) এখানে উদাহরণের ডেটাগুলির জন্য ভাল কাজ করে তবে কিছু বিভাগের সংমিশ্রণ বিরল বা উপস্থিত না থাকলে এটি পড়তে বা ব্যাখ্যা করা কঠিন হতে পারে। স্বভাবতই এটি যুক্তিসঙ্গত, এবং প্রত্যাশিত যে একটি কম টার্মিনেশন একটি ছোট টাইল দ্বারা প্রতিনিধিত্ব করা হয়, এবং কোনও টাইলের দ্বারা শূন্য নয়, তবে মানসিক অসুবিধা থেকে যায়। এটাও স্বাভাবিক যে, স্পাইনপ্লটসের প্রতি লোকেদের পছন্দগুলি উদাহরণগুলি বেছে নেয় যা তাদের কাগজপত্র বা উপস্থাপনাগুলির জন্য ভাল কাজ করে তবে আমি প্রায়শই এমন উদাহরণ তৈরি করেছি যা জনসাধারণের কাছে ব্যবহারের পক্ষে খুব অগোছালো ছিল। বিপরীতে, একটি স্পাইনপ্লট উপলব্ধ স্থানটি ভালভাবে ব্যবহার করে।

কিছু বাস্তবায়ন ইন্টারেক্টিভ গ্রাফিক্সকে বোঝায়, ব্যবহারকারী এটি সম্পর্কে আরও জানতে প্রতিটি টাইলকে জিজ্ঞাসাবাদ করতে পারে।

একটি বিকল্প যা বেশ ভালভাবে কাজ করতে পারে তা হ'ল দ্বিমুখী বার চার্ট (আরও অনেক নাম বিদ্যমান)।

উদাহরণস্বরূপ http://www.surveydesign.com.au/tipsuserراف s.html এর tabplotমধ্যে দেখুন

এই ডেটাগুলির জন্য, একটি সম্ভাব্য প্লট ( tabplotস্টাটা ব্যবহার করে উত্পাদিত , তবে কোনও শালীন সফ্টওয়্যারের ক্ষেত্রে সহজ হওয়া উচিত)

এখানে চিত্র বর্ণনা লিখুন

ফর্ম্যাটটির অর্থ পৃথক বারগুলি সারি এবং কলাম শনাক্তকারীদের সাথে সম্পর্কিত করা সহজ এবং আপনি ফ্রিকোয়েন্সি, অনুপাত বা পার্সেন্টস দিয়ে বেনিফিট করতে পারেন (যদি ফলাফলটি খুব ব্যস্ত, স্বাভাবিকভাবেই মনে করেন তবে এটি করবেন না)।

কিছু সম্ভাবনা:

  1. যদি কোনও পরিবর্তনশীলটিকে অন্যটির প্রতিক্রিয়ার হিসাবে কোনও প্রতিক্রিয়ার কথা ভাবা যায়, তবে যথারীতি এটি উল্লম্ব অক্ষের উপরে চক্রান্ত করার চিন্তা করা উপযুক্ত। এখানে আমি একটি মনোভাব পরিমাপ হিসাবে "গুরুত্ব" হিসাবে ভাবি, তারপরে প্রশ্ন এটি আচরণকে প্রভাবিত করে কিনা ("প্রায়শই")। কার্যকরী বিষয়গুলি প্রায়শই এই কাল্পনিক তথ্যের জন্য আরও জটিল হয় তবে পয়েন্টটি রয়ে যায়।

  2. বিপরীতটি আরও ভালভাবে কাজ করে, যার অর্থ, ভাবনা এবং ব্যাখ্যা করা আরও সহজ হলে পরামর্শ # 1 টি সর্বদা ট্রাম্প করা উচিত।

  3. শতাংশ বা সম্ভাবনার বিভাজনগুলি প্রায়শই বোঝায়। কাঁচা ফ্রিকোয়েন্সি প্লট খুব দরকারী হতে পারে। (স্বাভাবিকভাবেই, এই প্লটটিতে একই সাথে উভয় ধরণের তথ্য দেখানোর মোজাইক প্লটের গুণাগুণ নেই cks)

  4. আপনি অবশ্যই গ্রুপযুক্ত বার চার্ট বা স্ট্যাকড বার চার্টের বিকল্পগুলি (বা ডাব্লুএস ক্লিভল্যান্ডের অর্থে মোটামুটি অস্বাভাবিক গ্রুপযুক্ত ডট চার্ট) চেষ্টা করতে পারেন। এই ক্ষেত্রে, আমি মনে করি না যে তারা পাশাপাশি কাজ করে তবে কখনও কখনও তারা আরও ভাল কাজ করে।

  5. কেউ কেউ বিভিন্ন প্রতিক্রিয়ার বিভাগগুলিকে আলাদাভাবে রঙ করতে চায়। আমার কোনও আপত্তি নেই, এবং আপনি যদি চান যে আপনি কোনওভাবেই আপত্তি গুরুত্বের সাথে গ্রহণ করবেন না।

হাইব্রিডাইজিং গ্রাফ এবং টেবিলের কৌশলটি আরও সাধারণভাবে কার্যকর হতে পারে, বা আপনি যা চান তা বাস্তবে নয়। প্রায়শই পুনরাবৃত্তি যুক্তি হ'ল ফিগার এবং টেবিলগুলির বিভাজনটি মুদ্রণের উদ্ভাবন এবং এটি উত্পাদিত শ্রমের বিভাজনের একটি পার্শ্ব প্রতিক্রিয়া ছিল; এটি আরও একবার অপ্রয়োজনীয়, ঠিক যেমন হ'ল পুঁথি লেখকরা ঠিক কীভাবে এবং কোথায় পছন্দ করেছেন তার চিত্র তুলেছিলেন।


গ্রাফিক যোগ করার জন্য ধন্যবাদ। এটি গ্রাফিক্স এবং পাঠ্যগত ডেটা কীভাবে একত্রিত করে তা ইস্যুটি উত্থাপন করে - আমি জানি কিছু লোক বারের শীর্ষে নম্বর স্থাপন করতে পছন্দ করেন না (কারণ এটি বারগুলি সত্যিকারের চেয়ে লম্বা দেখায়; আমার কাছে প্রশংসাপত্র দেওয়ার দরকার নেই) এটি তবে আমি মনে করি এটি একটি সুপরিচিত মতামত)।
সিলভারফিশ

অন্যদিকে, সংখ্যার অবস্থান নির্ধারণ করা দু'টি সমস্যার মধ্যে একটি তৈরি করে বলে মনে হচ্ছে: হয় সংখ্যাটি বারগুলিতে সুপারিম্পোজড হয়ে যেতে পারে, যা তাদেরকে অস্পষ্ট করে দেয়, বা বারের উপরে সংখ্যাগুলি স্থির করে নীচের বারগুলি থেকে তাদের "সংযোগ বিচ্ছিন্ন" করতে পারে নির্দিষ্টভাবে. কোথাও এই বিষয়গুলির একটি ভাল আলোচনা আছে?
সিলভারফিশ

আমার মনে হয় না আপনার রেফারেন্স দরকার; এটি একটি সাধারণ মনোভাব। আমি অন্যান্য রূপগুলি দেখতে পাচ্ছি: (1) প্রদর্শন-নির্দিষ্ট পরামর্শ যে ডিসপ্লেটি কেবল খুব ব্যস্ত, অপ্রয়োজনীয় ইত্যাদি ((2) সংখ্যার পাঠ্যকে অপ্রয়োজনীয় ধারণার প্রতি আবেদন জানানো হয়েছে কারণ একই তথ্য অন্তর্নিহিত (বা কিছু স্পষ্ট অনুসারে) ) গ্রাফটিতে যে কোনও উপায়ে (৩) একটি "ছেলেরা নীল এবং মেয়েরা গোলাপী পরেন" মনোভাব যে চিত্রগুলি পরিসংখ্যান এবং টেবিলগুলি সারণী, এবং দু'জনের দেখা হবে। (3) আমাকে খাঁটি কুসংস্কার হিসাবে আঘাত করে; (২) নীতিগতভাবে সঠিক, তবে তবুও সংখ্যাগুলি সাহায্য করতে পারে; (1) উদাহরণস্বরূপ উদাহরণের মাধ্যমে চিন্তা করতে হবে।
নিক কক্স

আমি নির্দিষ্ট ট্রেড-অফগুলির আলোচনা জানি না। বারটি কালারোল্ট ছেড়ে যাওয়া যাতে নম্বরগুলি তাদের ভিতরে রাখা যায় প্রায়শই ভাল ধারণা a কখনও কখনও বারগুলি এটি করার জন্য খুব ছোট হতে পারে।
নিক কক্স

30

তাপের মানচিত্রে এখানে একটি দ্রুত চেষ্টা করা হয়েছে , আমি কোষগুলি ছিন্ন করতে কালো কক্ষের সীমানা ব্যবহার করেছি, তবে সম্ভবত টাইলসটি আরও বেশি আলাদা করা উচিত গ্লেন_ব এর উত্তরের মতো।

তাপ মানচিত্র

library(ggplot2)
runningcounts.df <- as.data.frame(table(importance, often))
ggplot(runningcounts.df, aes(importance, often)) +
   geom_tile(aes(fill = Freq), colour = "black") +
   scale_fill_gradient(low = "white", high = "steelblue")

এখানে অ্যান্ডি ডব্লিউর পূর্ববর্তী মন্তব্যের ভিত্তিতে একটি ওঠানামার প্লট রয়েছে যেহেতু তিনি তাদের বর্ণনা করেছেন "এগুলি মূলত শ্রেণিবদ্ধ তথ্যগুলির জন্য কেবল বাইনড স্ক্রেটারপ্লট হয় এবং একটি বিন্দুর আকার সেই বাক্সের মধ্যে থাকা পর্যবেক্ষণের সংখ্যার সাথে ম্যাপ করা হয়।" একটি রেফারেন্স জন্য দেখুন

উইকহ্যাম, হ্যাডলি এবং হাইক হফম্যান। 2011. পণ্য প্লটভিজ্যুয়ালাইজেশন এবং কম্পিউটার গ্রাফিক্স সম্পর্কিত আইইইই লেনদেন (প্রকফ ইনফোভিস `11)প্রি-প্রিন্ট পিডিএফ

ওঠানামা প্লট

theme_nogrid <- function (base_size = 12, base_family = "") {
  theme_bw(base_size = base_size, base_family = base_family) %+replace% 
    theme(panel.grid = element_blank())   
}

ggplot(runningcounts.df, aes(importance, often)) +
  geom_point(aes(size = Freq, color = Freq, stat = "identity", position = "identity"), shape = 15) +
  scale_size_continuous(range = c(3,15)) + 
  scale_color_gradient(low = "white", high = "black") +
  theme_nogrid()

1
" সম্ভবত টাইলসটি গ্লেন_বি'র উত্তরের মতো আরও পৃথক করা উচিত " - আমি নিশ্চিত না যে এটি এই ক্ষেত্রে প্রয়োজনীয়, এখানে ধারাবাহিকগুলি ধারাবাহিক হিসাবে দেখার জন্য খুব কম লোভ রয়েছে।
Glen_b

18

এখানে ডেটারের স্পাইনপ্লট কেমন হবে তার একটি উদাহরণ এখানে। আমি স্টাটাতে এটি খুব দ্রুত করেছি, তবে একটি আর বাস্তবায়ন আছে । আমি মনে করি আর এর মধ্যে এটি ঠিক হওয়া উচিত:

spineplot(factor(often)~factor(importance))

আপনি আর স্পষ্টিকর ভেরিয়েবলগুলি দিলে স্পাইনপ্লট আসলে ডিফল্ট বলে মনে হয়:

plot(factor(often)~factor(importance))

প্রতিটি বিভাগের গুরুত্বের জন্য প্রায়শ্রেই বিভাগগুলির ভগ্নাংশের ভাঙ্গন প্রদর্শিত হয়। সজ্জিত বারগুলি উল্লম্ব মাত্রা সহ আঁকানো হয় যা প্রায়শই গুরুত্ব বিভাগে দেওয়া ভগ্নাংশ দেখায়। অনুভূমিক মাত্রা প্রতিটি গুরুত্ব বিভাগে ভগ্নাংশ দেখায়। সুতরাং গঠিত টাইলগুলির ক্ষেত্রগুলি প্রতিটি ক্রসের সংমিশ্রণের জন্য এবং প্রায়শই প্রায়শই ফ্রিকোয়েন্সি বা আরও সাধারণভাবে প্রতিনিধিত্ব করে।

এখানে চিত্র বর্ণনা লিখুন


1
আমি চারপাশে এটি পরিবর্তন।
দিমিত্রি ভি। মাস্টারভ

1
নিক কক্সের উদ্ধৃতি (স্টাতার স্পাইনপ্লট লেখক): দুটি ভেরিয়েবলের সীমাবদ্ধতা বাস্তবের চেয়ে আরও স্পষ্ট। দুটি বা আরও শ্রেণীবদ্ধ ভেরিয়েবলের ক্রস সংমিশ্রণ দ্বারা সংমিশ্রিত ভেরিয়েবলগুলি তৈরি করা যেতে পারে .... একটি প্রতিক্রিয়া ভেরিয়েবল সাধারণত y অক্ষের উপরে আরও ভাল প্রদর্শিত হয়। যদি একটি ভেরিয়েবল বাইনারি হয় তবে প্রায়শই y অক্ষের উপরে এটির পরিকল্পনা করা ভাল। স্বাভাবিকভাবেই, এই পরামর্শগুলির মধ্যে কিছুটা উত্তেজনা থাকতে পারে।
দিমিত্রি ভি। মাস্টারভ

3
আমি বাকিদের সাথে একমত। তবে স্টাটার ডিফল্ট কলো [u] আর স্কিমটি অর্ডিনাল ভেরিয়েবলগুলির জন্য মোটামুটি লম্পট। বেশ কয়েকটি ভাল বিকল্প হ'ল লাল এবং / অথবা নীল রঙের বিভিন্ন শেড, বা কেবল গ্রা আ | ইস্কেল পছন্দ।
নিক কক্স

3
@ দিমিত্রি আমি একই পরিস্থিতিতে রঙের একটি স্বেচ্ছাসেবীর মিশ্রণ ব্যবহার করা খুব অদ্ভুত বলে মনে করি! আমি যথাযথ রঙের দ্বারা বা সঠিক রঙগুলি দ্বারা বা বোঝার কোনও কিছুই দিচ্ছি না। তবে বিন্দুটি হ'ল একটি গ্রেডযুক্ত স্কেল ভাল রঙের একটি গ্রেড ক্রম দ্বারা মেলে। তাপের মানচিত্রের রঙিন করার ক্ষেত্রে কিছুটা স্বেচ্ছাচারিতা রয়েছে এবং প্রকৃতপক্ষে বিভিন্ন ধরণের থিম্যাটিক কার্টোগ্রাফি রয়েছে।
নিক কক্স

2
রঙগুলি স্বতন্ত্র হওয়া পর্যন্ত আমি গ্রেড করা রঙের স্কিমের সাথে সমস্যাটি দেখছি না। কেন কেউ বিভক্ত হওয়ার প্রলোভন পাবে? আমি নির্বিচারে রঙের যুক্তি দেখতে পাচ্ছি না। রংধনু ক্রমগুলি পদার্থবিজ্ঞানের মধ্যে অর্থবোধ করে, তবে লোকেরা কীভাবে রঙ বোঝায় (যেমন হলুদ এবং লাল খুব আলাদা) terms পছন্দের মাধ্যমে অনেক শিক্ষার্থীর সাথে কথা বলার ক্ষেত্রে আমার কাছে প্রমাণ রয়েছে এবং আমি ৮০% আন্তরিকভাবে বলতে চাই যে "তারা আরও ভাল" যখন তারা রেইনবো বা ফলের সালাদের উপর একটি সূক্ষ্ম গ্রেড ক্রম দেখেন। নীল ফ্যাকাশে নীল মাধ্যমে ফ্যাকাশে লাল থেকে লাল পর্যন্ত ভাল কাজ করে। নিশ্চিত করুন যে আপনি এটি পুরুষদের পাশাপাশি মহিলাদেরও ব্যবহার করে দেখছেন।
নিক কক্স

13

আমি যেভাবে এটি করেছি তা হ'ল ফ্যাদ, তবে এটি খুব সহজেই ঠিক করা যেতে পারে।

এটি চটজলদি পদ্ধতির পরিবর্তিত সংস্করণ।

অক্ষগুলি অপসারণ স্কেলটিকে অবিচ্ছিন্ন হিসাবে ব্যাখ্যা করার লোভকে হ্রাস করে; বিভক্ত সংমিশ্রনের চারপাশে আঁকানো বাক্সগুলি "স্কেল ব্রেক" এর মতো কিছু রয়েছে তার উপর জোর দেয় - অন্তরগুলি অগত্যা সমান নয়

আদর্শভাবে, 1..5 লেবেলগুলি বিভাগের নামগুলির সাথে প্রতিস্থাপন করা উচিত, তবে আমি এটি আপাতত কল্পনার জন্য রেখে দেব; আমি মনে করি এটি এর অর্থ উপলব্ধি করে।

 plot(jitter(often)~jitter(importance),data=running.df,bty="n",
    ylim=c(0.5,5.5),xlim=c(0.5,5.5),cex=0.5,pty="s",xaxt="n",yaxt="n") 
 axis(1,tick=TRUE,col=0)
 axis(2,tick=TRUE,col=0)
 rect(rep(seq(0.75,4.75,1),5),rep(seq(0.75,4.75,1),each=5),
       rep(seq(1.25,5.25,1),5),rep(seq(1.25,5.25,1),each=5),
       border=8)

জিট্টার অর্ডিনাল-অর্ডিনাল প্লট


সম্ভাব্য পরিশোধনসমূহ:

i) বিরতিগুলি আরও ছোট করা (আমি এর চেয়ে বড় ব্রেকগুলি ব্যক্তিগতভাবে পছন্দ করি) এবং

ii) বাক্সগুলির মধ্যে আপাত প্যাটার্নের প্রবণতা হ্রাস করার জন্য কোয়েসিরেন্ডম ক্রম ব্যবহারের চেষ্টা করা। যদিও আমার প্রচেষ্টাটি কিছুটা সহায়তা করেছিল, আপনি দেখতে পাচ্ছেন যে অল্প সংখ্যক পয়েন্টের কোষগুলিতে এখনও আরও কম বা কম সংযুক্ত বর্ণের (যেমন, উপরের সারির বাক্সে, ২ য় স্তম্ভের বাক্সে) উপসর্গ রয়েছে। এটি এড়ানোর জন্য, প্রতিটি উপ-বাক্সের জন্য আধা-এলোমেলো ক্রমটি সূচনা করতে হতে পারে । (একটি বিকল্প লাতিন হাইপারকিউব নমুনা হতে পারে)) একবার এটি বাছাই হয়ে গেলে, এটি এমন কোনও ফাংশনে beোকানো যেতে পারে যা হুড়মুড়ের মতো কাজ করে।

আধা-এলোমেলো জিটার এবং আরও বড় বাক্স

library("fOptions")

 hjit <- runif.halton(dim(running.df)[1],2) 
 xjit <- (hjit[,1]-.5)*0.8
 yjit <- (hjit[,2]-.5)*0.8  

 plot(I(often+yjit)~I(importance+xjit),data=running.df,bty="n",
    ylim=c(0.5,5.5),xlim=c(0.5,5.5),cex=0.5,pty="s",xaxt="n",yaxt="n") 
 axis(1,tick=TRUE,col=0)
 axis(2,tick=TRUE,col=0)
 rect(rep(seq(0.55,4.55,1),5),rep(seq(0.55,4.55,1),each=5),
       rep(seq(1.45,5.45,1),5),rep(seq(1.45,5.45,1),each=5),
       border=8)

1
আমি এটি পছন্দ করি, আমার জন্য পৃথকীকরণটি সত্যই তথ্যের অর্ডিনাল প্রকৃতির উপর জোর দেয়! দুর্ভাগ্যক্রমে মানব চোখ বিস্ফোরক প্রকৃতির আপাত নিদর্শনগুলিতে প্রাকৃতিকভাবে টানা থাকে যেমন প্যানেলগুলিতে "wardsর্ধ্বমুখী প্রবণতা" (4,5) এবং (5,3)। প্লাস সাইডে "পয়েন্টগুলি গণনা" আমার কাছে বিন্দুর আকারের দ্বারা ফ্রিকোয়েন্সি বিচার করার চেয়ে অনেক বেশি স্বাভাবিক অনুভব করে। "জিটার ট্রেন্ডস" বিভ্রান্ত করতে এড়াতে এমন কোনও রূপ রয়েছে যেখানে পয়েন্টগুলি সমানভাবে ব্যবধানে রাখা হয়, বা কেন্দ্রগুলিতে নিয়মিত প্যাটার্নগুলিতে আটকে থাকে?
সিলভার ফিশ

1
@ সিলভারফিশ, ভূগোলের একই ধারণা হ'ল বিন্দু-ঘনত্বের মানচিত্র। ভূগোলবিদরা কিছু প্রমাণ পেয়েছেন যে নিয়মিত নিদর্শন বা নিদর্শনগুলি নির্দিষ্ট পরিমাণে সাদা অংশ পূরণ করে (তাই দূরবর্তী স্থানে এবং পরে এলোমেলোভাবে পর্যবেক্ষণ করা) পর্যবেক্ষকদের মধ্যে আরও সঠিক ধারণা তৈরি করার প্রবণতা রয়েছে।
অ্যান্ডি ডব্লিউ

আইএমও এটি একটি সূক্ষ্ম ধারণা, তবে প্যানেলের মধ্যে ব্যবধান এত বড় যে এই উদাহরণে এটি কোনও প্রবণতাটি ভিজ্যুয়ালাইজিংকে খুব কঠিন করে তোলে। নিরাময়টি রোগের চেয়েও খারাপ (তবে প্যানেলগুলি একসাথে আরও ঘনিষ্ঠ করা খুব সহজ হওয়া উচিত)।
অ্যান্ডি ডব্লিউ

1
@silverfish আপাতদৃষ্টিতে র্যান্ডম jittering যে একটি সম্ভাব্য সমাধান হতে পারে। আপনার উদ্বেগ হ'ল আমি নিজেই ছিলাম।
Glen_b

1
খুব সুন্দর! আইএমও এটি এই ক্ষেত্রে মেরুদণ্ডের চেয়ে ভাল বিকল্প (মেরুদণ্ড বা মোজাইক প্লটগুলি যে কোনও বিভাগের জুটির জন্য শর্তযুক্ত বিতরণ মূল্যায়ন করা ভাল - এই জিটটার ডট প্লট প্রবণতাগুলি নির্ধারণ করা সহজ - ডেটাগুলির সাধারণ প্রকৃতির সুবিধা গ্রহণ করে এবং কিছু ধরে নেওয়া একঘেয়ে সম্পর্কের ধরণ)।
অ্যান্ডি ডব্লিউ

7

আর প্যাকেজ রিভারপ্লট ব্যবহার করে:

  data$importance <- factor(data$importance, 
                            labels = c("not at all important",
                                       "somewhat unimportant",
                                       "neither important nor unimportant",
                                       "somewhat important",
                                       "very important"))
  data$often <- factor(data$often, 
                       labels = c("never",
                                  "less than once per fortnight",
                                  "once every one or two weeks",
                                  "two or three times per week",
                                  "four or more times per week"))

  makeRivPlot <- function(data, var1, var2, ...) {

    require(plyr)
    require(riverplot)
    require(RColorBrewer)

    names1 <- levels(data[, var1])
    names2 <- levels(data[, var2])

    var1 <- as.numeric(data[, var1])
    var2 <- as.numeric(data[, var2])

    edges <- data.frame(var1, var2 + max(var1, na.rm = T))
    edges <- count(edges)

    colnames(edges) <- c("N1", "N2", "Value")

    nodes <- data.frame(ID     = c(1:(max(var1, na.rm = T) +
                                      max(var2, na.rm = T))),
                        x      = c(rep(1, times = max(var1, na.rm = T)),
                                   rep(2, times = max(var2, na.rm = T))),
                        labels = c(names1, names2) ,
                        col    = c(brewer.pal(max(var1, na.rm = T), "Set1"),
                                   brewer.pal(max(var2, na.rm = T), "Set1")),
                        stringsAsFactors = FALSE)

    nodes$col <- paste(nodes$col, 95, sep = "")

    return(makeRiver(nodes, edges))

  }

a <- makeRivPlot(data, "importance", "often")

riverplot(a, srt = 45)

এখানে চিত্র বর্ণনা লিখুন


1
(+1) আমি এর জন্য সমান্তরাল স্থানাঙ্ক ব্যবহার করার ধারণাটি পছন্দ করি ! আমি মনে করি ডায়াগ্রামের মধ্য দিয়ে পাথগুলি সন্ধান করা আরও সহজ হবে এবং রংগুলি বাম থেকে ডানে প্রবাহিত হলে "প্রায়শই" উত্তরগুলি কীভাবে পচে যায় তা দেখুন (এমন একটি স্কিম যা কার্যকরভাবে "প্রায়শই" নির্ভরশীল পরিবর্তনশীল হিসাবে প্রদর্শিত হবে এবং " বর্ণনামূলক পরিবর্তনশীল হিসাবে "গুরুত্ব") এই জাতীয় প্লটের কিছু ইন্টারেক্টিভ বাস্তবায়নের উপর আপনি সেই পরিবর্তনশীল দ্বারা রঙ করতে একটি অক্ষকে ক্লিক করতে পারেন, যা দরকারী।
সিলভারফিশ

1
তুলনার জন্য, রবার্ট কোসারার "সমান্তরাল সেট" ভিজ্যুয়ালাইজেশন , যা শ্রেণিবদ্ধ তথ্যগুলির জন্য ডিজাইন করা হয়েছে, সেই চিত্রগুলি চিত্রের মধ্য দিয়ে প্রবাহিত হয়েছে।
সিলভার ফিশ

6

একটি ভিন্ন ধারণা যা আমি মূলত ভাবি নি একটি চালনী চক্রান্ত ছিল

এখানে চিত্র বর্ণনা লিখুন

প্রতিটি টাইলের আকার প্রত্যাশিত ফ্রিকোয়েন্সি সমানুপাতিক; আয়তক্ষেত্রগুলির অভ্যন্তরের সামান্য স্কোয়ারগুলি প্রকৃত ফ্রিকোয়েন্সি উপস্থাপন করে। সুতরাং স্কোয়ারগুলির বৃহত্তর ঘনত্ব প্রত্যাশিত ফ্রিকোয়েন্সি (এবং নীল শেডযুক্ত) এর চেয়ে বেশি নির্দেশ করে; স্কোয়ারের কম ঘনত্ব (লাল) প্রত্যাশিত ফ্রিকোয়েন্সি থেকে কমের জন্য।

আমি মনে করি যে রঙটি যদি অবশিষ্ট অবধি কেবল সই না করে আকারটিকে উপস্থাপন করে তবে আমি এটিকে পছন্দ করব। এটি বিশেষত প্রান্তের ক্ষেত্রে সত্য যেখানে প্রত্যাশিত এবং পর্যবেক্ষিত ফ্রিকোয়েন্সিগুলি একই রকম এবং অবশিষ্টগুলি শূন্যের কাছাকাছি; একটি দ্বিধায়িত লাল / নীল স্কিমটি ছোট ছোট বিচ্যুতিকে অত্যধিক পরিমাণে দেখায়।

আর তে বাস্তবায়ন:

library(vcd)
runningcounts.df <- as.data.frame(table(importance, often))
sieve(Freq ~ often + importance, data=runningcounts.df, shade= TRUE)

1
আপনার পছন্দ সম্পর্কে যে রঙটি আকারের পাশাপাশি সাইনকে প্রতিনিধিত্ব করে, প্রত্যাশার থেকে পার্থক্য তুলনামূলকভাবে কম হলে রংগুলি আরও ধূসর করে তোলা সম্ভব।
Glen_b

6

আর এর একটি মুখযুক্ত বার চার্ট এটি "গুরুত্বের" প্রতিটি স্তরে "প্রায়শই" বিতরণটি খুব স্পষ্টভাবে দেখায়। তবে এটি এত ভাল কাজ করতে পারত না যদি সর্বাধিক গণনাটি "গুরুত্ব" এর স্তরের মধ্যে আরও আলাদা হয়ে থাকে; প্রচুর খালি জায়গা এড়াতে scales="free_y"জিপিপ্লট ( এখানে দেখুন ) সেট করা যথেষ্ট সহজ , তবে বারগুলি এত কম হওয়ায় বিতরণটির আকারটি "গুরুত্ব" এর কম-ফ্রিকোয়েন্সি স্তরে সনাক্ত করা শক্ত হবে। সম্ভবত এই পরিস্থিতিতে উল্লিখিত অক্ষের পরিবর্তে আপেক্ষিক ফ্রিকোয়েন্সি (শর্তাধীন সম্ভাবনা) ব্যবহার করা ভাল।

মুখযুক্ত বার চার্ট

এটা তোলে tabplot তাই "পরিষ্কার" নয় Stata মধ্যে যে নিক কক্সবাজার লিঙ্ক কিন্তু conveys অনুরূপ তথ্য।

আর কোড:

library(ggplot)
running2.df <- data.frame(often = factor(often, labels = c("never", "less than once per fortnight", "once every one or two weeks", "two or three times per week", "four or more times per week")), importance = factor(importance, labels = c("not at all important", "somewhat unimportant", "neither important nor unimportant", "somewhat important", "very important")))
ggplot(running2.df, aes(often)) + geom_bar() +
  facet_wrap(~ importance, ncol = 1) +
  theme(axis.text.x=element_text(angle = -45, hjust = 0)) +
  theme(axis.title.x = element_blank())
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.