এই স্ক্যাটার প্লটটি কীভাবে ব্যাখ্যা করব?


12

আমার একটি স্কেটার প্লট রয়েছে যার নমুনা আকার রয়েছে যা এক্স অক্ষের লোক সংখ্যা এবং y অক্ষের মধ্যম বেতনের সমান, আমি অনুসন্ধানের চেষ্টা করছি যে নমুনার আকারের মধ্যম বেতনের কোনও প্রভাব আছে কিনা।

এটি চক্রান্ত:

এখানে চিত্র বর্ণনা লিখুন

আমি এই প্লটটি কীভাবে ব্যাখ্যা করব?


3
যদি আপনি পারেন তবে আমি উভয় ভেরিয়েবলের রূপান্তর নিয়ে কাজ করার পরামর্শ দেব। যদি কোনও ভেরিয়েবলের সঠিক জিরো না থাকে তবে লগ-লগ স্কেলের দিকে
একবার নজর দিন

@ গ্লেন_বি দুঃখিত, আপনি যে শর্তগুলি বলেছেন তার সাথে আমি পরিচিত নই, কেবল প্লটটি দেখে আপনি কি দুটি ভেরিয়েবলের মধ্যে সম্পর্ক তৈরি করতে পারবেন? আমি অনুমান করতে পারি যে নমুনা আকারের জন্য 1000 অবধি একই স্যাম্পেল আকারের মানগুলির সাথে একাধিক মাঝারি মান রয়েছে বলে কোনও সম্পর্ক নেই। 1000 এরও বেশি মানের জন্য, মধ্যম বেতন হ্রাসমান বলে মনে হচ্ছে। আপনি কি মনে করেন ?
সমেমে

আমি এর পক্ষে সুস্পষ্ট প্রমাণ দেখতে পাচ্ছি না, এটি আমার কাছে বেশ সমতল দেখাচ্ছে; যদি স্পষ্ট পরিবর্তন হয় তবে এটি সম্ভবত নমুনার আকারের নীচের অংশে চলছে। আপনার কাছে কি ডেটা আছে, না কেবল প্লটের চিত্র?
গ্লেন_বি -রিনস্টেট মনিকা

4
আপনি যদি মিডিয়ানটিকে এন এলোমেলো ভেরিয়েবলের মিডিয়ান হিসাবে দেখেন তবে তা বোঝা যায় যে নমুনার আকার বাড়ার সাথে সাথে মধ্যকের প্রকরণ হ্রাস পায়। এটি প্লটের বাম দিকে বৃহত স্প্রেডকে ব্যাখ্যা করবে।
জেএডি

2
আপনার বক্তব্য "স্যাম্পল আকারের জন্য 1000 অবধি সেখানে কোনও নমুনা আকারের মানগুলির সাথে কোনও সম্পর্ক নেই যেমন একাধিক মধ্যমানের মান রয়েছে" ভুল।
পিটার ফ্লুম - মনিকা পুনরায়

উত্তর:


9

" অনুসন্ধান করুন " নির্দেশ করে যে আপনি ডেটা অন্বেষণ করছেন। সাধারণ পরীক্ষাগুলি অতিরিক্ত ও সন্দেহজনক হবে suspect পরিবর্তে, ডেটাতে কী থাকতে পারে তা প্রকাশ করার জন্য স্ট্যান্ডার্ড এক্সপ্লোরারি ডেটা অ্যানালাইসিস (EDA) কৌশল প্রয়োগ করুন।

এই মান কৌশল অন্তর্ভুক্ত পুনরায় অভিব্যক্তি , অবশিষ্ট বিশ্লেষণ , শক্তসমর্থ কৌশল ( "তিনটি আর এর" EDA) এবং মসৃণকরণ হিসাবে তার সর্বোত্তম বইয়ে জন Tukey দ্বারা বর্ণিত তথ্য EDA (1977)। এগুলির কিছু পরিচালনা করার জন্য কীভাবে আমার পোস্ট -বক্সে কক্সবাজারে স্বতন্ত্র ভেরিয়েবলের রূপান্তরকরণের মতো রূপরেখা দেওয়া হয়েছে ? এবং লিনিয়ার রিগ্রেশন-এ, প্রকৃত মানগুলির পরিবর্তে স্বতন্ত্র ভেরিয়েবলের লগটি ব্যবহার করা কখন উপযুক্ত? , ইন্টার আলিয়া

ফলশ্রুতিটি হ'ল লগ-লগ অক্ষগুলিতে পরিবর্তন করে (কার্যকরভাবে উভয় ভেরিয়েবলগুলি পুনরায় প্রকাশ করা), খুব আক্রমণাত্মকভাবে ডেটা মসৃণ করা এবং এটি কী মিস করেছে তা যাচাই করার জন্য মসৃণতার অবশিষ্টাংশগুলি পরীক্ষা করে দেখা যায়, যা আমি বর্ণনা করব।

এখানে একটি মসৃণ ডেটা দেখানো হয়েছে যা - ডেটাতে বিশ্বস্ততার বিভিন্ন ডিগ্রী সহ বেশ কয়েকটি স্মুথ পরীক্ষা করার পরে - খুব বেশি এবং খুব সামান্য স্মুথ করার মধ্যে একটি ভাল আপস বলে মনে হয়। এটি লোয়েস, একটি সুপরিচিত শক্তিশালী পদ্ধতি ব্যবহার করে (এটি ভার্চুয়ালি বহির্মুখী পয়েন্টগুলি দ্বারা প্রভাবিত হয় না)।

লগ-লগ স্ক্যাটারপ্ল্লট

উল্লম্ব গ্রিড 10,000 এর পদক্ষেপে রয়েছে। মসৃণ করে কিছু ভেরিয়েশন সুপারিশ Grad_medianনমুনা আকার সঙ্গে: - বিশেষ করে ছোট নমুনা, যেখানে স্যাম্পলিং ত্রুটি অপেক্ষাকৃত বড় হবে বলে আশা করা হয় - এটা ড্রপ নমুনা মাপ কাছে যেমন 1000. (প্রান্ত মসৃণ বিশ্বস্ত নয় বলে মনে হয় তাই ডন এগুলির মধ্যে খুব বেশি পড়বেন না)) সত্যিকারের ড্রপের এই ধারণাটি সহজেই চারপাশে সফ্টওয়্যার দ্বারা আঁকা (খুব রুক্ষ) আত্মবিশ্বাস ব্যান্ড দ্বারা সমর্থিত: এর "উইগলস" ব্যান্ডগুলির প্রস্থের চেয়ে বেশি are

এই বিশ্লেষণটি কী মিস করেছে তা দেখতে, পরবর্তী চিত্রটি অবশিষ্টাংশগুলিকে দেখবে। (এগুলি প্রাকৃতিক লোগারিদমের ভিন্নতা, সরাসরি পূর্ববর্তী মসৃণ তথ্যের মধ্যে উল্লম্ব বিভেদগুলি পরিমাপ করে Because কারণ এগুলি সংখ্যার তুলনায় সমানুপাতিক পার্থক্য হিসাবে ব্যাখ্যা করা যায়; উদাহরণস্বরূপ, একটি ডেটা মান প্রতিফলিত করে যা সম্পর্কিত স্মুথডের চেয়ে প্রায় কম হয়) মান।)২০ %0.220%

আমরা (ক) নমুনা আকারের পরিবর্তনের হিসাবে পরিবর্তনের অতিরিক্ত নিদর্শন রয়েছে কিনা তা নিয়ে আগ্রহী এবং (খ) প্রতিক্রিয়াটির শর্তাধীন বিতরণ - পয়েন্ট পজিশনের উল্লম্ব বিতরণ - নমুনা আকারের সমস্ত মানগুলির মধ্যে যথাযথভাবে একই রকম, বা তাদের কিছু দিক (যেমন তাদের স্প্রেড বা প্রতিসাম্য) পরিবর্তন হতে পারে।

[চিত্র 2 অবশিষ্টাংশের প্লট

এই মসৃণটি আগের চেয়ে আরও ঘনিষ্ঠভাবে ডেটাপয়েন্টগুলি অনুসরণ করার চেষ্টা করে। তবুও এটি মূলত অনুভূমিক (আত্মবিশ্বাস ব্যান্ডগুলির স্কোপের মধ্যে যা সর্বদা y- মানকে আবরণ করে ) প্রস্তাবিত হয় যে আরও কোনও প্রকারের বৈকল্পিকতা সনাক্ত করা যায় না। আনুষ্ঠানিকভাবে পরীক্ষা করা হলে মাঝের কাছাকাছি (2000 থেকে 3000 আকারের নমুনা আকারের) উল্লম্ব স্প্রেডের সামান্য বৃদ্ধি তাত্পর্যপূর্ণ হবে না এবং তাই এটি অনুসন্ধানী পর্যায়ে অবশ্যই এটি অবিস্মরণীয়। পৃথক বিভাগগুলির মধ্যে কোনওটিতে এই সামগ্রিক আচরণ থেকে স্পষ্ট, নিয়মতান্ত্রিক বিচ্যুতি নেই (আলাদা, খুব ভাল নয়, রঙ অনুসারে - আমি এগুলি এখানে দেখানো হয়নি এমন চিত্রগুলিতে পৃথকভাবে বিশ্লেষণ করেছি)।0.0

ফলস্বরূপ, এই সাধারণ সারসংক্ষেপ:

মধ্যম বেতন 1000 এর কাছাকাছি নমুনা আকারের জন্য কম 10,000

ডেটাতে উপস্থিত সম্পর্কের পর্যাপ্ত পরিমাণে ক্যাপচার করে এবং সমস্ত বড় বিভাগগুলিতে সমানভাবে ধারণ করে বলে মনে হয়। এটি তাত্পর্যপূর্ণ কিনা - তা হ'ল, অতিরিক্ত ডেটার মুখোমুখি হওয়ার সময় এটি উঠে দাঁড়ায় কিনা - কেবলমাত্র সেই অতিরিক্ত ডেটা সংগ্রহ করেই মূল্যায়ন করা যেতে পারে।


যারা এই কাজটি যাচাই করতে বা এটি আরও এগিয়ে নিতে চান তাদের জন্য এখানে Rকোড।

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)

7

গ্লেন_বি আপনাকে পরামর্শ দিচ্ছে যে আপনি নমুনা_ আকার এবং মধ্যম বেতনের লগারিদম নেবেন তা দেখার জন্য ডেটা পুনরুদ্ধার করা কোনও অর্থবোধ করে কিনা।

আমি জানি না যে নমুনার আকার এক হাজারের উপরে উঠলে মধ্যম বেতন হ্রাস পাবে আপনার বিশ্বাসের সাথে আমি একমত হব। আমি বলতে চাই যে আরও কোনও সম্পর্ক নেই more আপনার তত্ত্ব কি ভবিষ্যদ্বাণী করে যে একটি সম্পর্ক থাকা উচিত?

সম্ভাব্য সম্পর্কের মূল্যায়ন করতে পারার আরেকটি উপায় হ'ল ডেটাতে রিগ্রেশন লাইনের সাথে মানানসই। বিকল্পভাবে, আপনি একটি নিম্ন বক্ররেখা ব্যবহার করতে পারেন could আপনার ডেটাতে উভয় লাইন প্লট করুন এবং দেখুন যে কোনও কিছুর বাইরে বেরিয়ে আসা যায় কিনা (তবে সন্দেহ আছে যে অত্যধিক সংক্ষিপ্ত কিছু আছে)।


3
স্ক্যাটারপ্লট মেটা-বিশ্লেষণে ব্যবহৃত ফানেলের প্লটের সাথে খুব মিল। একটি অনুরূপ উদাহরণ দেখুন । কোনও সম্পর্ক থাকলে ফানেল ব্যান্ডগুলি প্লট করা আরও স্পষ্টভাবে দেখায়, এই উদাহরণে কিছুটা ইতিবাচক থাকতে পারে।
অ্যান্ডি ডাব্লু

6

আমিও একমত যে কোনও সম্পর্ক নেই। আমি আপনার আসল স্ক্যাটার প্লট (বাম) পুনরুত্পাদন করেছি এবং glen_b (ডান) দ্বারা প্রস্তাবিত লগ-লগ স্ক্র্যাটার প্লট তৈরি করেছি।

এখানে চিত্র বর্ণনা লিখুন

দেখে মনে হচ্ছে এর সাথে কোনও সম্পর্ক নেই। লগ-ট্রান্সফর্মড ডেটার মধ্যে সম্পর্কের বিষয়টি দুর্বল (পিয়ারসন আর = -.13) এবং তুচ্ছ (পি = .09)। কত অতিরিক্ত তথ্য উপর নির্ভর করে আপনি সেখানে থাকে হয়তো কিছু দুর্বল নেতিবাচক পারস্পরিক সম্পর্ক দেখতে একটি কারণ, কিন্তু যে একটি প্রসারিত মত মনে হয়। আমি অনুমান করতে পারি যে কোনও আপাত প্যাটার্ন আপনি দেখতে পাচ্ছেন এখানে একই প্রভাব রয়েছে

সম্পাদনা: @ ফামরগার প্লটগুলি দেখার পরে আমি বুঝতে পারি যে আমি গ্রেড নমুনা আকার বনাম নন- গ্রেড মিডিয়ান বেতনের প্লট করেছি । আমি বিশ্বাস করি যে সামিদ নমুনার আকার বনাম গ্রেড- মিডিয়ান বেতন চেয়েছিল , যদিও এটি সম্পূর্ণ পরিষ্কার নয়। পরবর্তীকালের জন্য আমি @ ফামারগার সংখ্যাগুলি পুনরুত্পাদন করি, অর্থাত্ ( ) এবং আমাদের প্লটগুলি অভিন্ন দেখায়।পি = 0.98R=0.0022p=0.98


গ্রেড-মিডিয়ান এবং গ্রেড-নমুনা-আকারের মধ্যে পারস্পরিক সম্পর্ক দেখার জন্য ধন্যবাদ; আমি সংখ্যার পার্থক্য দেখে গভীরভাবে আশ্চর্য হয়ে গেলাম!
ফামারগার

0

লিনিয়ার রিগ্রেশন চেষ্টা করা আপনাকে এই সম্পর্কের বিষয়ে কিছু শিখিয়ে দেবে, যেমন প্রথম উত্তরে পরামর্শ দেওয়া হয়েছিল। যেহেতু দেখে মনে হচ্ছে আপনি এই প্লটের জন্য পাইথন প্লাস ম্যাটপ্লোটিলিব ব্যবহার করছেন তাই আপনি সমাধানের থেকে দূরে কোডের এক লাইন।

আপনি সমুদ্র সৈকত জয়েন্টপ্লট ব্যবহার করতে পারেন, এটি লিনিয়ার রিগ্রেশন লাইন, পিয়ারসন সম্পর্ক সম্পর্কিত সহকারী এবং এর পি-মানও প্রদর্শন করবে:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

এখানে চিত্র বর্ণনা লিখুন

যেমন আপনি দেখতে পাচ্ছেন যে কোনও সম্পর্ক নেই। এই শেষ প্লটটি দেখে মনে হচ্ছে এক্স-ভেরিয়েবলটি লগ-রূপান্তর করা কার্যকর হবে। চল এটা চেষ্টা করি:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

এখানে চিত্র বর্ণনা লিখুন

আপনি পরিষ্কারভাবে দেখতে পারেন যে - লগ-রূপান্তর বা না - পারস্পরিক সম্পর্ক ছোট, এবং পি-মান এবং আত্মবিশ্বাসের অন্তর উভয়ই বলে যে এটি পরিসংখ্যানগতভাবে অর্থবহ নয়।


3
দৃ strongly়ভাবে স্কিউড শর্তাধীন বিতরণগুলির ইঙ্গিতগুলি বোঝায় যে এটি একটি ভাল পদ্ধতির নয়। আপনি যখন পর্যবেক্ষণ করেছেন যে নমুনা আকার বিতরণের সঙ্কোচিত কারণে কয়েকটি বৃহত্তম নমুনা আকারগুলি রিগ্রেশনটিতে একটি প্রবণতার উপস্থিতি নিয়ন্ত্রণ করতে পারে, আপনি অন্যরা কেন ডেটা প্রাথমিক রূপান্তরের প্রস্তাব দিচ্ছেন তা দেখবেন।
whuber

1
আমি অনুমান বা অনুমান করছি না: প্রশ্নের প্লট পরিষ্কারভাবে এই বৈশিষ্ট্যগুলি দেখায়। আর গ্রেগ স্টেসির তৈরি প্লটগুলিও দেখুন , যা - প্রস্তাবিত লগ-লগ রূপান্তরগুলি প্রয়োগ করে - তারা কী সম্পাদন করে তা প্রদর্শন করে।
whuber

আমি কেবল ডেটা খুঁজে পেয়েছি এবং নিজেই অধ্যয়ন করেছি - দয়া করে আপডেট উত্তর দেখুন।
ফামারগার

আপনার অধ্যয়ন দুটি সমস্যার সমাধান করেছে যে আমি উল্লেখ করেছি: "নো পারস্পরিক সম্পর্ক" এর উপস্থিতি হ'ল তীব্র শর্তাধীন প্রতিক্রিয়া এবং উচ্চ রেজিস্ট্রার মানগুলির জন্য উত্সাহের কোনও সামান্য অংশই নয়। বিশেষত, লাগানো লাইন বা ত্রুটি ব্যান্ড দুটিই বিশ্বাসযোগ্য নয়।
whuber

আমি স্রেফ যুক্ত প্লটটি দয়া করে দেখুন; আমি আশা করি এই শেষ পুনরাবৃত্তির মধ্যে আমি কিছু মিস করছি না।
ফামারগার

-1

এই প্লটটি কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যের প্রদর্শন হিসাবে কাজ করে, যেখানে নমুনার আকার বাড়ার সাথে নমুনার মধ্যে পরিবর্তনশীলতা হ্রাস পায়। এটি এমন আকৃতি যা আপনি বেতনের মতো দৃ strongly়ভাবে স্কেলযুক্ত ভেরিয়েবলের সাথে প্রত্যাশা করবেন।


3
এগুলি কোনও সাধারণ জনগণের স্বাধীন নমুনা নয়। এটি সিএলটির প্রাসঙ্গিকতাটিকে বরং সমস্যাযুক্ত করে তোলে।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.