আমার একটি স্কেটার প্লট রয়েছে যার নমুনা আকার রয়েছে যা এক্স অক্ষের লোক সংখ্যা এবং y অক্ষের মধ্যম বেতনের সমান, আমি অনুসন্ধানের চেষ্টা করছি যে নমুনার আকারের মধ্যম বেতনের কোনও প্রভাব আছে কিনা।
এটি চক্রান্ত:
আমি এই প্লটটি কীভাবে ব্যাখ্যা করব?
আমার একটি স্কেটার প্লট রয়েছে যার নমুনা আকার রয়েছে যা এক্স অক্ষের লোক সংখ্যা এবং y অক্ষের মধ্যম বেতনের সমান, আমি অনুসন্ধানের চেষ্টা করছি যে নমুনার আকারের মধ্যম বেতনের কোনও প্রভাব আছে কিনা।
এটি চক্রান্ত:
আমি এই প্লটটি কীভাবে ব্যাখ্যা করব?
উত্তর:
" অনুসন্ধান করুন " নির্দেশ করে যে আপনি ডেটা অন্বেষণ করছেন। সাধারণ পরীক্ষাগুলি অতিরিক্ত ও সন্দেহজনক হবে suspect পরিবর্তে, ডেটাতে কী থাকতে পারে তা প্রকাশ করার জন্য স্ট্যান্ডার্ড এক্সপ্লোরারি ডেটা অ্যানালাইসিস (EDA) কৌশল প্রয়োগ করুন।
এই মান কৌশল অন্তর্ভুক্ত পুনরায় অভিব্যক্তি , অবশিষ্ট বিশ্লেষণ , শক্তসমর্থ কৌশল ( "তিনটি আর এর" EDA) এবং মসৃণকরণ হিসাবে তার সর্বোত্তম বইয়ে জন Tukey দ্বারা বর্ণিত তথ্য EDA (1977)। এগুলির কিছু পরিচালনা করার জন্য কীভাবে আমার পোস্ট -বক্সে কক্সবাজারে স্বতন্ত্র ভেরিয়েবলের রূপান্তরকরণের মতো রূপরেখা দেওয়া হয়েছে ? এবং লিনিয়ার রিগ্রেশন-এ, প্রকৃত মানগুলির পরিবর্তে স্বতন্ত্র ভেরিয়েবলের লগটি ব্যবহার করা কখন উপযুক্ত? , ইন্টার আলিয়া ।
ফলশ্রুতিটি হ'ল লগ-লগ অক্ষগুলিতে পরিবর্তন করে (কার্যকরভাবে উভয় ভেরিয়েবলগুলি পুনরায় প্রকাশ করা), খুব আক্রমণাত্মকভাবে ডেটা মসৃণ করা এবং এটি কী মিস করেছে তা যাচাই করার জন্য মসৃণতার অবশিষ্টাংশগুলি পরীক্ষা করে দেখা যায়, যা আমি বর্ণনা করব।
এখানে একটি মসৃণ ডেটা দেখানো হয়েছে যা - ডেটাতে বিশ্বস্ততার বিভিন্ন ডিগ্রী সহ বেশ কয়েকটি স্মুথ পরীক্ষা করার পরে - খুব বেশি এবং খুব সামান্য স্মুথ করার মধ্যে একটি ভাল আপস বলে মনে হয়। এটি লোয়েস, একটি সুপরিচিত শক্তিশালী পদ্ধতি ব্যবহার করে (এটি ভার্চুয়ালি বহির্মুখী পয়েন্টগুলি দ্বারা প্রভাবিত হয় না)।
উল্লম্ব গ্রিড 10,000 এর পদক্ষেপে রয়েছে। মসৃণ করে কিছু ভেরিয়েশন সুপারিশ Grad_median
নমুনা আকার সঙ্গে: - বিশেষ করে ছোট নমুনা, যেখানে স্যাম্পলিং ত্রুটি অপেক্ষাকৃত বড় হবে বলে আশা করা হয় - এটা ড্রপ নমুনা মাপ কাছে যেমন 1000. (প্রান্ত মসৃণ বিশ্বস্ত নয় বলে মনে হয় তাই ডন এগুলির মধ্যে খুব বেশি পড়বেন না)) সত্যিকারের ড্রপের এই ধারণাটি সহজেই চারপাশে সফ্টওয়্যার দ্বারা আঁকা (খুব রুক্ষ) আত্মবিশ্বাস ব্যান্ড দ্বারা সমর্থিত: এর "উইগলস" ব্যান্ডগুলির প্রস্থের চেয়ে বেশি are
এই বিশ্লেষণটি কী মিস করেছে তা দেখতে, পরবর্তী চিত্রটি অবশিষ্টাংশগুলিকে দেখবে। (এগুলি প্রাকৃতিক লোগারিদমের ভিন্নতা, সরাসরি পূর্ববর্তী মসৃণ তথ্যের মধ্যে উল্লম্ব বিভেদগুলি পরিমাপ করে Because কারণ এগুলি সংখ্যার তুলনায় সমানুপাতিক পার্থক্য হিসাবে ব্যাখ্যা করা যায়; উদাহরণস্বরূপ, একটি ডেটা মান প্রতিফলিত করে যা সম্পর্কিত স্মুথডের চেয়ে প্রায় কম হয়) মান।)২০ %
আমরা (ক) নমুনা আকারের পরিবর্তনের হিসাবে পরিবর্তনের অতিরিক্ত নিদর্শন রয়েছে কিনা তা নিয়ে আগ্রহী এবং (খ) প্রতিক্রিয়াটির শর্তাধীন বিতরণ - পয়েন্ট পজিশনের উল্লম্ব বিতরণ - নমুনা আকারের সমস্ত মানগুলির মধ্যে যথাযথভাবে একই রকম, বা তাদের কিছু দিক (যেমন তাদের স্প্রেড বা প্রতিসাম্য) পরিবর্তন হতে পারে।
এই মসৃণটি আগের চেয়ে আরও ঘনিষ্ঠভাবে ডেটাপয়েন্টগুলি অনুসরণ করার চেষ্টা করে। তবুও এটি মূলত অনুভূমিক (আত্মবিশ্বাস ব্যান্ডগুলির স্কোপের মধ্যে যা সর্বদা y- মানকে আবরণ করে ) প্রস্তাবিত হয় যে আরও কোনও প্রকারের বৈকল্পিকতা সনাক্ত করা যায় না। আনুষ্ঠানিকভাবে পরীক্ষা করা হলে মাঝের কাছাকাছি (2000 থেকে 3000 আকারের নমুনা আকারের) উল্লম্ব স্প্রেডের সামান্য বৃদ্ধি তাত্পর্যপূর্ণ হবে না এবং তাই এটি অনুসন্ধানী পর্যায়ে অবশ্যই এটি অবিস্মরণীয়। পৃথক বিভাগগুলির মধ্যে কোনওটিতে এই সামগ্রিক আচরণ থেকে স্পষ্ট, নিয়মতান্ত্রিক বিচ্যুতি নেই (আলাদা, খুব ভাল নয়, রঙ অনুসারে - আমি এগুলি এখানে দেখানো হয়নি এমন চিত্রগুলিতে পৃথকভাবে বিশ্লেষণ করেছি)।
ফলস্বরূপ, এই সাধারণ সারসংক্ষেপ:
মধ্যম বেতন 1000 এর কাছাকাছি নমুনা আকারের জন্য কম 10,000
ডেটাতে উপস্থিত সম্পর্কের পর্যাপ্ত পরিমাণে ক্যাপচার করে এবং সমস্ত বড় বিভাগগুলিতে সমানভাবে ধারণ করে বলে মনে হয়। এটি তাত্পর্যপূর্ণ কিনা - তা হ'ল, অতিরিক্ত ডেটার মুখোমুখি হওয়ার সময় এটি উঠে দাঁড়ায় কিনা - কেবলমাত্র সেই অতিরিক্ত ডেটা সংগ্রহ করেই মূল্যায়ন করা যেতে পারে।
যারা এই কাজটি যাচাই করতে বা এটি আরও এগিয়ে নিতে চান তাদের জন্য এখানে R
কোড।
library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual :=
residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) +
ggtitle("EDA of Median Salary vs. Sample Size",
paste("Span of smooth is", signif(span, 2)))
print(g)
span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) +
geom_smooth(span=span) +
geom_point(aes(fill=Major_category), alpha=1/2, shape=21) +
scale_x_log10() +
ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
paste("Span of smooth is", signif(span, 2)))
print(g.r)
গ্লেন_বি আপনাকে পরামর্শ দিচ্ছে যে আপনি নমুনা_ আকার এবং মধ্যম বেতনের লগারিদম নেবেন তা দেখার জন্য ডেটা পুনরুদ্ধার করা কোনও অর্থবোধ করে কিনা।
আমি জানি না যে নমুনার আকার এক হাজারের উপরে উঠলে মধ্যম বেতন হ্রাস পাবে আপনার বিশ্বাসের সাথে আমি একমত হব। আমি বলতে চাই যে আরও কোনও সম্পর্ক নেই more আপনার তত্ত্ব কি ভবিষ্যদ্বাণী করে যে একটি সম্পর্ক থাকা উচিত?
সম্ভাব্য সম্পর্কের মূল্যায়ন করতে পারার আরেকটি উপায় হ'ল ডেটাতে রিগ্রেশন লাইনের সাথে মানানসই। বিকল্পভাবে, আপনি একটি নিম্ন বক্ররেখা ব্যবহার করতে পারেন could আপনার ডেটাতে উভয় লাইন প্লট করুন এবং দেখুন যে কোনও কিছুর বাইরে বেরিয়ে আসা যায় কিনা (তবে সন্দেহ আছে যে অত্যধিক সংক্ষিপ্ত কিছু আছে)।
আমিও একমত যে কোনও সম্পর্ক নেই। আমি আপনার আসল স্ক্যাটার প্লট (বাম) পুনরুত্পাদন করেছি এবং glen_b (ডান) দ্বারা প্রস্তাবিত লগ-লগ স্ক্র্যাটার প্লট তৈরি করেছি।
দেখে মনে হচ্ছে এর সাথে কোনও সম্পর্ক নেই। লগ-ট্রান্সফর্মড ডেটার মধ্যে সম্পর্কের বিষয়টি দুর্বল (পিয়ারসন আর = -.13) এবং তুচ্ছ (পি = .09)। কত অতিরিক্ত তথ্য উপর নির্ভর করে আপনি সেখানে থাকে হয়তো কিছু দুর্বল নেতিবাচক পারস্পরিক সম্পর্ক দেখতে একটি কারণ, কিন্তু যে একটি প্রসারিত মত মনে হয়। আমি অনুমান করতে পারি যে কোনও আপাত প্যাটার্ন আপনি দেখতে পাচ্ছেন এখানে একই প্রভাব রয়েছে ।
সম্পাদনা: @ ফামরগার প্লটগুলি দেখার পরে আমি বুঝতে পারি যে আমি গ্রেড নমুনা আকার বনাম নন- গ্রেড মিডিয়ান বেতনের প্লট করেছি । আমি বিশ্বাস করি যে সামিদ নমুনার আকার বনাম গ্রেড- মিডিয়ান বেতন চেয়েছিল , যদিও এটি সম্পূর্ণ পরিষ্কার নয়। পরবর্তীকালের জন্য আমি @ ফামারগার সংখ্যাগুলি পুনরুত্পাদন করি, অর্থাত্ ( ) এবং আমাদের প্লটগুলি অভিন্ন দেখায়।পি = 0.98
লিনিয়ার রিগ্রেশন চেষ্টা করা আপনাকে এই সম্পর্কের বিষয়ে কিছু শিখিয়ে দেবে, যেমন প্রথম উত্তরে পরামর্শ দেওয়া হয়েছিল। যেহেতু দেখে মনে হচ্ছে আপনি এই প্লটের জন্য পাইথন প্লাস ম্যাটপ্লোটিলিব ব্যবহার করছেন তাই আপনি সমাধানের থেকে দূরে কোডের এক লাইন।
আপনি সমুদ্র সৈকত জয়েন্টপ্লট ব্যবহার করতে পারেন, এটি লিনিয়ার রিগ্রেশন লাইন, পিয়ারসন সম্পর্ক সম্পর্কিত সহকারী এবং এর পি-মানও প্রদর্শন করবে:
sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")
যেমন আপনি দেখতে পাচ্ছেন যে কোনও সম্পর্ক নেই। এই শেষ প্লটটি দেখে মনে হচ্ছে এক্স-ভেরিয়েবলটি লগ-রূপান্তর করা কার্যকর হবে। চল এটা চেষ্টা করি:
df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")
আপনি পরিষ্কারভাবে দেখতে পারেন যে - লগ-রূপান্তর বা না - পারস্পরিক সম্পর্ক ছোট, এবং পি-মান এবং আত্মবিশ্বাসের অন্তর উভয়ই বলে যে এটি পরিসংখ্যানগতভাবে অর্থবহ নয়।
এই প্লটটি কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যের প্রদর্শন হিসাবে কাজ করে, যেখানে নমুনার আকার বাড়ার সাথে নমুনার মধ্যে পরিবর্তনশীলতা হ্রাস পায়। এটি এমন আকৃতি যা আপনি বেতনের মতো দৃ strongly়ভাবে স্কেলযুক্ত ভেরিয়েবলের সাথে প্রত্যাশা করবেন।