অবিচ্ছিন্ন পূর্বাভাসের বিপরীতে আপনি কীভাবে বাইনারি ফলাফলগুলি কল্পনা করতে পারেন?


10

আমার ভিজ্যুয়ালাইজ করার জন্য আমার কিছু ডেটা রয়েছে এবং কীভাবে এটি করা যায় তা নিশ্চিত নয়। আমার কাছে বেস আইটেমগুলির কিছু সেট আছে respective সম্পর্কিত ফ্রিকোয়েন্সি এবং । এখন আমাকে আমার পদ্ধতিটি কীভাবে খুব কম ফ্রিকোয়েন্সি আইটেমগুলি "সন্ধান করে" (অর্থাত্ 1-ফলাফল) ভালভাবে প্লট করতে হবে। আমার প্রথমদিকে পয়েন্ট-প্লটগুলির সাথে ফ্রিকোয়েন্সিটির এক্স অক্ষ এবং 0-1 এর অক্ষ ছিল, তবে এটি ভয়ঙ্কর লাগছিল (বিশেষত দুটি পদ্ধতির ডেটার সাথে তুলনা করার সময়)। অর্থাৎ প্রতিটি আইটেম ফলাফল (0/1) থাকে এবং এর ফ্রিকোয়েন্সি অনুসারে অর্ডার করা হয়।এফ = { 1 , , এন } হে { 0 , 1 } এন কুই প্রশ্নQ={q1,,qn}F={f1,,fn}O{0,1}nqQ

একটি একক পদ্ধতির ফলাফলের সাথে এখানে উদাহরণ রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

আমার পরবর্তী ধারণাটি ছিল অন্তরগুলিতে ডেটা বিভক্ত করা এবং অন্তরগুলির সাথে স্থানীয় সংবেদনশীলতা গণনা করা, তবে এই ধারণার সমস্যাটি হ'ল ফ্রিকোয়েন্সি বিতরণ অগত্যা অভিন্ন নয়। তাহলে আমি কীভাবে সেরা অন্তরগুলি বাছাই করব?

বিরল (যেমন, খুব কম-ফ্রিকোয়েন্সি) আইটেমগুলি খুঁজে পাওয়ার কার্যকারিতা চিত্রিত করতে এই ধরণের ডেটা ভিজ্যুয়ালাইজ করার আরও ভাল / আরও কার্যকর উপায় সম্পর্কে কি কেউ জানেন?

সম্পাদনা: আরও কংক্রিট হতে, আমি একটি নির্দিষ্ট জনগোষ্ঠীর জৈবিক ক্রম পুনর্গঠন করার জন্য কিছু পদ্ধতির সক্ষমতা প্রদর্শন করছি। সিমুলেটেড ডেটা ব্যবহার করে যাচাইয়ের জন্য, এর প্রাচুর্য (ফ্রিকোয়েন্সি) নির্বিশেষে আমাকে বৈকল্পিকগুলির পুনর্গঠন করার দক্ষতা দেখাতে হবে। সুতরাং এই ক্ষেত্রে আমি মিস করেছি এবং খুঁজে পাওয়া আইটেমগুলি তাদের ফ্রিকোয়েন্সি অনুসারে ভিজ্যুয়ালাইজ করছি। এই প্লটটিতে পুনর্গঠিত রূপগুলি অন্তর্ভুক্ত করবে না যা ।Q


1
আমি সম্পূর্ণ বুঝতে পারি না। "ফলাফল" কিছু খুঁজে পাচ্ছেন? "বিরল আইটেম" কি?
পিটার ফ্লুম

1
আপনি যে গ্রাফটি ভয়ঙ্কর দেখছেন তাতে আপনার অন্তর্ভুক্ত হওয়া উচিত আইএমও - এটি প্রত্যেককে আপনি যে ডেটা প্রদর্শন করার চেষ্টা করছেন তার আরও ভাল ধারণা দেবে।
অ্যান্ডি ডব্লু

@ পিটারফ্লোম, আমি এটিকে আরও পরিষ্কার করার জন্য সম্পাদনা করেছি। প্রতিটি আইটেমের 0-1 ফলাফলগুলি "পাওয়া যায়নি" এবং "পাওয়া যায় না" নির্দেশ করে। একটি বিরল আইটেম খুব কম ফ্রিকোয়েন্সি আইটেম সহজ।
নিকোলাস মানকুসো

চিত্র অন্তর্ভুক্ত করার জন্য সম্পাদিত @ অ্যান্ডডাব্লু Y-axis এর মানগুলি দেওয়া সত্যই খুঁজে পাওয়া এবং পাওয়া যায় না এর ধারণাটি প্রতিফলিত করে না, তবে অন্তত আমি যা উপস্থাপন করতে চাই তা জানাতে (এই প্রশ্নগুলির উদ্দেশ্যগুলির জন্য), আপনি ধারণাটি পেয়েছেন ...
নিকোলাস মানকুসো

1
ঠিক আছে, দেখে মনে হচ্ছে আপনি ডেটাতে একটি স্ক্র্যাটারপ্লট চেষ্টা করেছিলেন যেখানে y মানটি কেবল 0 বা 1 হতে পারে that এটি কি ঠিক? এবং আপনি একই ধরণের একাধিক পদ্ধতি জুড়ে এই ধরণের প্লটগুলি তুলনা করতে চান? কিন্তু প্রতিটি পদ্ধতি এক বা দুটি উপায়ে সঠিক বা ভুল হতে পারে? অর্থাৎ প্রতিটি পয়েন্ট হয় হয় না হয় (যাই হোক না কেন)। সুতরাং একটি পদ্ধতি বলতে পারে যে একটি বিন্দু (যাই হোক না কেন) বা না (যাই হোক না কেন) এবং উভয়ই পছন্দ সঠিক বা ভুল হতে পারে?
পিটার ফ্লুম

উত্তর:


10

আমি কি অতীতে কাজ করেছেন মূলত আপনি একটি যোগে সঙ্গে সম্পন্ন করেছি ধুসর - হরিদ্রাভ রঙের মিহি মাটির স্তর যা রাইন । পয়েন্টগুলির ঘনত্বের উপর নির্ভর করে, ওভারল্যাপটি হ্রাস করার জন্য আমি নীচে দেখানো হিসাবে স্বচ্ছ পয়েন্ট (আলফা) এবং / অথবা পাইপ চিহ্নগুলি ("|") ব্যবহার করব।

library(ggplot2) # plotting package for R

N=100
data=data.frame(Q=seq(N), Freq=runif(N,0,1), Success=sample(seq(0,1), 
size=N, replace=TRUE))

ggplot(data, aes(x=Freq, y=Success))+geom_point(size=2, alpha=0.4)+
  stat_smooth(method="loess", colour="blue", size=1.5)+
  xlab("Frequency")+
  ylab("Probability of Detection")+
  theme_bw()

এখানে চিত্র বর্ণনা লিখুন

(আমি মনে করি না যে ত্রুটি বারগুলি এখানে প্রান্তগুলিতে প্রসারিত হওয়া উচিত, তবে ggplot এর অভ্যন্তরীণ স্ট্যাট_স্মোথ ফাংশন সহ এটি করার সহজ উপায় আমার জানা নেই you আপনি যদি আরে বাস্তবের জন্য এই পদ্ধতিটি ব্যবহার করেন তবে আমরা এটি করতে পারতাম ষড়যন্ত্রের আগে লোস এবং এর ত্রুটি বারটি অনুমান করে)

( সম্পাদনা করুন: এবং ডেটার ঘনত্ব যদি এটি দরকারী করে তোলে এবং যথাযথ আত্মবিশ্বাসের বিরতি সম্পর্কে মিমশট থেকে লম্বালম্বী ঘিঞ্জি চেষ্টা করার বিষয়ে অ্যান্ডি ডাব্লু এর মন্তব্যের জন্য প্লাস-পিসস))


3
+1 - আমি বিন্দুগুলির জন্য জিটারটি ব্যবহার করার পরামর্শ দিচ্ছি (স্বচ্ছতা ছাড়াও)। এই উদাহরণে আমি প্রতিস্থাপন geom_point(size=2, alpha=0.4)করতে হবে geom_jitter(size=2, alpha=0.4, position = position_jitter(height = .02))
অ্যান্ডি ডব্লু

3
+1 তবে আপনি গাউসিয়ান আওয়াজকে বোঝানোর চেয়ে দ্বি-দ্বি বিতরণের বিপরীত থেকে আত্মবিশ্বাসের সীমা ব্যবহার করা উচিত।
মিমশট

@ মিমশট আপনি কীভাবে আত্মবিশ্বাসের ব্যবধানগুলি সঠিকভাবে গণনা করতে পারেন?
মৌমাছি লোক

1
@ মিমশটটি ggplot2সঠিক সিআই সরবরাহ করার কোনও উপায় সম্পর্কে আপনি কি জানেন ? আমি সিআই-এর সাথে একটি প্লট পেয়েছি [0,1]যার মধ্যে পরিষ্কারভাবে ভুল গণনা থেকে আসছে
মাইকেলচিরিকো

এটি একটি ভাল উত্তর (+1), তবে প্লটের (এবং সিআই) বিস্তৃতভাবে অবশ্যই বিরতিতে মধ্যে সীমাবদ্ধ করা উচিত । এটি প্লটের চেহারা উন্নত করবে এবং অনুমোদিত সম্ভাব্য মানের সমর্থনকেও সম্মান করবে। [0,1]
বেন - মনিকা পুনরায়

2

আপনার ব্যবহারের ক্ষেত্রে কোন স্কেল সবচেয়ে উপযুক্ত তা বিবেচনা করুন। বলুন যে আপনি লজিস্টিক রিগ্রেশন মডেলিংয়ের উদ্দেশ্যে ভিজ্যুয়াল ইন্সপেকশন করছেন এবং আপনার মডেলটিতে কোনও স্প্লাইন বা বহুবর্ষীয় পদ যুক্ত করতে হবে কিনা তা নির্ধারণ করার জন্য একটি অবিচ্ছিন্ন ভবিষ্যদ্বাণীকে কল্পনা করতে চান। এই ক্ষেত্রে, আপনি সম্ভাবনা / অনুপাতের চেয়ে লগ-প্রতিক্রিয়ায় একটি স্কেল চান।

নীচের সংক্ষেপে ফাংশনটি অবিচ্ছিন্ন ভবিষ্যদ্বাণীকে বিনকে বিভক্ত করতে, গড় অনুপাত গণনা করতে, লগ-প্রতিক্রিয়াগুলিতে রূপান্তর করতে geom_smoothএবং এই সমষ্টিগত পয়েন্টগুলিতে প্লট করার জন্য কিছু সীমিত হিউরিস্টিক্স ব্যবহার করে ।

কোনও বাইনারি টার্গেটের লগ-প্রতিক্রিয়া সহ কোনও কোভারিয়েটের একটি চতুর্ভুজীয় সম্পর্ক (+ শব্দ) থাকলে এই চার্টটি দেখতে কেমন তা উদাহরণ:

devtools::source_gist("https://gist.github.com/brshallo/3ccb8e12a3519b05ec41ca93500aa4b3")

# simulated dataset with quadratic relationship between x and y
set.seed(12)
samp_size <- 1000
simulated_df <- tibble(x = rlogis(samp_size), 
                       y_odds = 0.2*x^2,
                       y_probs = exp(y_odds)/(1 + exp(y_odds))) %>% 
  mutate(y = rbinom(samp_size, 1, prob = y_probs)) 

# looking at on balanced dataset
simulated_df_balanced <- simulated_df %>% 
  group_by(y) %>% 
  sample_n(table(simulated_df$y) %>% min())


ggplot_continuous_binary(df = simulated_df,
                         covariate = x, 
                         response = y,
                         snip_scales = TRUE)
#> [1] "bin size: 18"
#> `geom_smooth()` using method = 'loess' and formula 'y ~ x'

2019-02-06 এ ডিপেক্স প্যাকেজ (v0.2.1) দ্বারা তৈরি

তুলনা করার জন্য, এই চতুর্ভুজ সম্পর্কটি দেখতে দেখতে যদি আপনি স্রেফ 1/0 এর পরিকল্পনা করেছিলেন এবং একটি যুক্ত করেছেন geom_smooth:

simulated_df %>% 
  ggplot(aes(x, y))+
  geom_smooth()+
  geom_jitter(height = 0.01, width = 0)+
  coord_cartesian(ylim = c(0, 1), xlim = c(-3.76, 3.59))
# set xlim to be generally consistent with prior chart
#> `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'

2019-02-25 তারিখে ডিপেক্স প্যাকেজ (v0.2.1) দ্বারা তৈরি

লগিটে সম্পর্ক কম পরিষ্কার এবং ব্যবহারে geom_smoothকিছু সমস্যা আছে has


0

আমি সম্মত হলাম যে মাত্র কয়েক লাইন নমুনা ডেটা পোস্ট করা অনেক বেশি এগিয়ে যাবে। যদি আমি প্রশ্নটি বুঝতে পারি তবে আমার মনে হয় যে অনুপাতটি পাওয়া গেছে তার দ্বারা ফ্রিকোয়েন্সি প্লট করা সবচেয়ে সহজ হবে।

প্রথমে আমি আর-তে কিছু নমুনা ডেটা উত্পন্ন করব; আমি আপনাকে সঠিকভাবে বুঝতে না পারলে দয়া করে আমাকে সংশোধন করুন।

# Create some sample data
data=data.frame(Q=1:20,F=seq(5,100,by=5))
set.seed(1)
data$found<-round(sapply(data$F,function(x) runif(1,1,x)))
data$prop<-data$found/data$F
# Looks like:
Q   F found      prop
1   1   5     2 0.4000000
2   2  10     4 0.4000000
3   3  15     9 0.6000000
4   4  20    18 0.9000000
5   5  25     6 0.2400000
6   6  30    27 0.9000000
7   7  35    33 0.9428571
8   8  40    27 0.6750000
9   9  45    29 0.6444444
10 10  50     4 0.0800000
11 11  55    12 0.2181818
12 12  60    11 0.1833333
13 13  65    45 0.6923077
14 14  70    28 0.4000000
15 15  75    58 0.7733333
16 16  80    40 0.5000000
17 17  85    61 0.7176471
18 18  90    89 0.9888889
19 19  95    37 0.3894737
20 20 100    78 0.7800000

এবং এখন কেবল প্লট ফ্রিকোয়েন্সি ( F) দ্বারা proportion:

# Plot frequency by proportion found.
plot(data$F,data$prop,xlab='Frequency',ylab='Proportion Found',type='l',col='red',lwd=2)

এখানে চিত্র বর্ণনা লিখুন


4
সেই চক্রান্ত ভয়াবহ! কিছু স্মুথিং, যেমন পূর্বের উত্তরগুলির মতো, প্রয়োজনীয়।
কেজেটিল বি হালওয়ারসেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.