পইসন রিগ্রেশনগুলির জন্য ভাল ভিজুয়ালাইজেশন কী?


11

আমি কোডের ত্রুটিগুলি ঘনিষ্ঠতার মতো কোড জটিলতার মেট্রিকগুলির সাথে সংযুক্ত করতে চাই। একটি সাধারণ মডেল এটি একটি পয়সন প্রক্রিয়া হিসাবে দেখা, যেখানে সময়কাল হ'ল কোডিংয়ে কত সময় ব্যয় হয় এবং ঘনত্বটি কোড জটিলতার ফাংশন। আমি একটি রিগ্রেশন করতে সক্ষম হয়েছি এবং তাৎপর্যগুলির মানগুলি পেতে পারি get

তবে, ফলাফলগুলি কল্পনা করা আমার পক্ষে কঠিন (এবং আমার কম গাণিতিক ঝুঁকির সহকর্মীদের পক্ষে আরও কঠিন)। বিদেশী ব্যক্তির মতো জিনিসগুলি দেখার জন্য কি এটি দেখার ভাল উপায় আছে, যদি এটি লিনিয়ার প্রবণতা ইত্যাদি হয়? (আর প্যাকেজগুলির লিঙ্কগুলি প্রশংসা করা হয়।)

উদাহরণস্বরূপ, আমি কেবল চক্রান্ত করতে পারলাম Defects / Time ~ Complexityতবে এটি মোটামুটি গোলমাল এবং যেহেতু Defectsবিচক্ষণ এবং খুব ছোট, তাই প্রবণতাটি দেখা শক্ত। একটি জিনিস যা আমি ভাবছিলাম তা হ'ল আমি কোয়ান্টাইলগুলিতে ডেটাগুলি টুকরো টুকরো করে ফেলতে পারি এবং তারপরে কোয়ান্টাইল প্রতি একটি রিগ্রেশন করতে পারি এবং ফলস্বরূপ ঘনত্বগুলি প্লট করতে পারি - তবে আমি নিশ্চিত নই যে এটি কতটা বৈধ, বিশেষত যেহেতু আমার ডেটা সাধারণত বিতরণ করা হয়নি তাই এটি হতে পারে কোয়ান্টাইলটি কী তা সম্পর্কে মানুষকে বিভ্রান্ত করুন।

উত্তর:


6

আপনি মডেলটি ফিট করার পরে, ভবিষ্যদ্বাণীযুক্ত ত্রুটিগুলি যেমন কোনও মানক কৌশলগুলি অর্থবোধক হয় তা ব্যবহার করে অন্যের সাথে তুলনা করার জন্য কেন পরিবর্তনশীল হিসাবে ব্যবহার করবেন না? এটি অবিচ্ছিন্ন পরিবর্তনশীল হওয়ার সুবিধা রয়েছে যাতে আপনি এমনকি ছোট পার্থক্যও দেখতে পান। উদাহরণস্বরূপ, লোকেরা 1.4 এবং 0.6 এর প্রত্যাশিত সংখ্যার মধ্যে পার্থক্য বুঝতে পারবে যদিও তারা উভয়ই এক হয়ে গেছে।

পূর্বাভাসকৃত মানটি কীভাবে দুটি ভেরিয়েবলের উপর নির্ভর করে তার উদাহরণের জন্য আপনি দুটি অক্ষ এবং বর্ণ হিসাবে জটিলতার সময়ের কনট্যুর প্লট করতে পারেন এবং পূর্বাভাসিত ত্রুটিগুলি দেখানোর জন্য সংশ্লেষ; এবং উপরে প্রকৃত ডেটা পয়েন্টগুলি সুপারমোজ করুন।

নীচের প্লটটির জন্য কিছু মসৃণতা এবং কিংবদন্তি প্রয়োজন তবে এটি একটি সূচনা পয়েন্ট হতে পারে।

এখানে চিত্র বর্ণনা লিখুন

একটি বিকল্প হ'ল সংযুক্ত ভেরিয়েবল প্লট বা আংশিক রিগ্রেশন প্লট, traditionalতিহ্যবাহী গাউসিয়ান প্রতিক্রিয়া রিগ্রেশন থেকে আরও পরিচিত। এগুলি গাড়ির লাইব্রেরিতে প্রয়োগ করা হয়। কার্যকরভাবে প্রতিক্রিয়াটির বাকী কী রয়েছে এবং ব্যাখ্যাযোগ্য ভেরিয়েবলগুলির মধ্যে একটির কী রয়েছে তার মধ্যে সম্পর্কটি প্রদর্শন করুন, বিশ্লেষণাত্মক ভেরিয়েবলগুলি বাদ দেওয়ার পরে এবং প্রতিক্রিয়াশীল ভেরিয়েবল উভয় ক্ষেত্রেই তাদের অবদান রয়েছে। আমার অভিজ্ঞতার মধ্যে বেশিরভাগ অ-পরিসংখ্যানক শ্রোতাদের এগুলি প্রশংসা করা কিছুটা কঠিন বলে মনে হয় (অবশ্যই আমার দুর্বল ব্যাখ্যা দিয়ে পারে)।

এখানে চিত্র বর্ণনা লিখুন

#--------------------------------------------------------------------
# Simulate some data
n<-200
time <- rexp(n,.01)
complexity <- sample(1:5, n, prob=c(.1,.25,.35,.2,.1), replace=TRUE)
trueMod <- exp(-1 + time*.005 + complexity*.1 + complexity^2*.05)
defects <- rpois(n, trueMod)
cbind(trueMod, defects)


#----------------------------------------------------------------------
# Fit model
model <- glm(defects~time + poly(complexity,2), family=poisson)
# all sorts of diagnostic checks should be done here - not shown


#---------------------------------------------------------------------
# Two variables at once in a contour plot

# create grid
gridded <- data.frame(
    time=seq(from=0, to=max(time)*1.1, length.out=100),
    complexity=seq(from=0, to=max(complexity)*1.1, length.out=100))

# create predicted values (on the original scale)
yhat <- predict(model, newdata=expand.grid(gridded), type="response")

# draw plot
image(gridded$time, gridded$complexity, matrix(yhat,nrow=100, byrow=FALSE),
    xlab="Time", ylab="Complexity", main="Predicted average number of defects shown as colour and contours\n(actual data shown as circles)")
contour(gridded$time, gridded$complexity, matrix(yhat,nrow=100, byrow=FALSE), add=TRUE, levels=c(1,2,4,8,15,20,30,40,50,60,70,80,100))

# Add the original data
symbols(time, complexity, circles=sqrt(defects), add=T, inches=.5)

#--------------------------------------------------------------------
# added variable plots

library(car)
avPlots(model, layout=c(1,3))

2

সুতরাং আপনি গণনা ডেটা ভেরিয়েবল "ত্রুটিগুলি" নিয়ে একটি পোয়েসন রিগ্রেশন চালান এবং উল্লেখযোগ্য পার্থক্যটি কল্পনা করতে চান। আপনি যখন রিগ্রেশন অনুমান করে শর্তসাপেক্ষ মানে , যেখানে ত্রুটিযুক্ত এবং হ'ল কোড জটিলতার মতো আপনার প্রতিবন্ধক।y i x iE[yi|xi]yixi

এটি দেখার সহজতম উপায় হ'ল জন্য দুটি পৃথক মান যেমন, উচ্চতর জটিলতা এবং কম জটিলতা নেওয়া এবং তারপরে উভয় জটিলতার স্তরের জন্য ইত্যাদির পূর্বাভাস ফ্রিকোয়েন্সি প্লট করা । ফলে হিস্টোগ্রাম মত দেখাবে এই পার্থক্য শক্তিশালী থাকলে, সেই ফ্রিকোয়েন্সি histrograms ভিন্ন (যেমন, কম জটিলতা এবং উচ্চ জটিলতা জন্য অনেক উচ্চ অপূর্ণতা জন্য অনেক শূন্য) দেখবে স্লাইড 3. উপর। এই দুটি হিস্টোগ্রামগুলি ওভারলে করা আপনার দেখতে দেখতে দুর্দান্ত লাগবে বা আপনি ভবিষ্যদ্বাণী করা ত্রুটিগুলির পার্থক্যটি ষড়যন্ত্র করেছেন।y i = 0 , y i = 1xiyi=0,yi=1

আপনি যদি মনে করেন যে আপনার কে 2 বিভাগে হ্রাস করা আপনি যে কোনও বিচ্ছিন্ন জন্যও একই কাজ করতে পারেন তবে আপনি যদি আপনার দর্শকদের কাছে একবারে 4 টি গ্রাফের চেয়ে বেশি ফেলে দেন তবে এটি একটি ভাল ভিজ্যুয়াল উপস্থাপনা তৈরি করে না doesn't ।x ixixi

বিকল্পভাবে, যদি আপনার অবিচ্ছিন্ন থাকে তবে আপনি সেই উপর নির্ভর করে একটি পূর্বাভাস গণনা (যেমন, ত্রুটিগুলি = 0) প্লট করতে পারেন । হতে পারে এটি আপনার ফলাফলের সাথে সঙ্গতিপূর্ণ একটি সুন্দর একঘেয়ে ফাংশনে ফলাফল।x ixixi

বিটিডব্লিউ: আপনারা কি আপনার ডেটাতে নেতিবাচক দ্বিপদী রিগ্রেশন চালিয়েছেন? ফলাফলগুলি কি খুব আলাদা? যদি তা হয় তবে আপনার পয়সন অনুমান (শর্তসাপেক্ষ শর্তসাপেক্ষ শর্তসাপেক্ষ বৈচিত্রের সমান) খুব সীমাবদ্ধ হতে পারে ("ওভারডিস্পেরেশন" দেখুন)। এটি ক্ষেত্রে হতে পারে, উদাহরণস্বরূপ, যদি আপনার পরিবর্তনশীল "ত্রুটি" এর অনেক জিরো থাকে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.