যখন আপনার কাছে বড় এন, বিযুক্ত ডেটা এবং অনেকগুলি ভেরিয়েবল থাকে তখন কীভাবে স্ক্যাটারপ্ল্লট ম্যাট্রিক্স থেকে তথ্য বের করবেন?


10

আমি স্তন ক্যান্সার ডেটাসেটের সাথে ঘুরে বেড়াচ্ছি এবং সমস্ত বৈশিষ্ট্যের একটি স্ক্র্যাপপ্লট তৈরি করেছি যার ধারণা পেতে কোনগুলি (লাল) malignantএর benign( নীল) শ্রেণীর পূর্বাভাস দেওয়ার ক্ষেত্রে সবচেয়ে বেশি প্রভাব ফেলে ।

আমি বুঝতে পারি যে সারিটি X অক্ষকে উপস্থাপন করে এবং কলামটি y অক্ষকে উপস্থাপন করে তবে আমি এই স্ক্রটারপ্লট থেকে ডেটা বা বৈশিষ্ট্যগুলি সম্পর্কে কী পর্যবেক্ষণ করতে পারি তা দেখতে পাচ্ছি না।

আমি এই স্ক্র্যাটারপ্লট থেকে ডেটা সম্পর্কে ব্যাখ্যা / পর্যবেক্ষণ করতে কিছু সহায়তা খুঁজছি বা যদি এই ডেটাটি ভিজ্যুয়ালাইজ করার জন্য আমার অন্য কোনও ভিজ্যুয়ালাইজেশন ব্যবহার করা উচিত।

এখানে চিত্র বর্ণনা লিখুন

আর কোড আমি ব্যবহার করেছি

link   <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols   <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)

আপনি ঠিক বলেছেন: এতে অনেক কিছু দেখা শক্ত। যেহেতু আপনার সমস্ত ভেরিয়েবলগুলি অপেক্ষাকৃত কম সংখ্যার বিভাগের সাথে পৃথক পৃথক বলে মনে হচ্ছে, প্রতিটি স্বতন্ত্র দৃশ্যমান প্রতীক গঠনের জন্য কতটি চিহ্ন স্তুপীকৃত রয়েছে তা নির্ধারণ করা অসম্ভব। যা কিছু মূল্যায়নের ক্ষেত্রে এই বিশেষ চিত্রটিকে অল্প মূল্য দেয়।
whuber

1
আমি যা ভেবেছিলাম তা এটাই। আমি একটি বক্সযুক্ত বারপ্লট প্লট করার চেষ্টা করেছি কিন্তু কোন বৈশিষ্ট্যটি শ্রেণীর উপর সবচেয়ে বেশি প্রভাব ফেলেছে তা দেখার ক্ষেত্রে এটি কার্যকর হবে না ...? কী ধরণের ভিজ্যুয়ালাইজেশন কিছু অর্থবহ তথ্য দেবে সে সম্পর্কে সহায়তা অনুসন্ধান করা।
পাখিটি

2
আপনার পয়েন্টগুলির গাদা ঝাঁকুনি দিলে (শব্দ যোগ করলে) আপনার দ্বি-রঙের বিচ্ছুরণ সূক্ষ্ম ধারণা তৈরি করতে পারে।
ttnphns

@ttnphns আপনি "পয়েন্টস পাইলস পিকচার" দ্বারা আপনি কী বোঝাতে চেয়েছেন তা আমি বুঝতে পারি না
পাখি

1
জিটার মানে আপনার প্লটটি সম্পাদনা করা, যাতে ওভারলাইং পয়েন্টগুলি একে অপরের উপরের একটি ডেটাপয়েন্টের দৃষ্টিভঙ্গিটিকে অস্পষ্ট না করার জন্য প্রত্যেকের পাশে রাখা হয়। এটি প্রায়শই আর প্লট করার জন্য ব্যবহৃত হয়।
অফিশ

উত্তর:


3

এটি আপনার পক্ষে কোনও সাহায্যের কিনা তা আমি নিশ্চিত নই, তবে প্রাথমিক ইডিএর জন্য আমি সত্যিই tabplotপ্যাকেজটি পছন্দ করি । আপনার ডেটাগুলির মধ্যে কী কী সম্ভাব্য পারস্পরিক সম্পর্ক থাকতে পারে সে সম্পর্কে আপনাকে একটি ভাল ধারণা দেয়।

install.packages("tabplot")
tableplot(breast) # gives you the unsorted image below
tableplot(breast, sortCol="class") # gives you a sorted image according to class

আনর্ডার্ড প্লট অর্ডার করা প্লট


কেউ এই ট্যাবল্লটকে কীভাবে ব্যাখ্যা করবে? দ্বিতীয় ট্যাবল্লট থেকে এটি দেখতে 2, 3, 4 এবং 7 কলামগুলি একে অপরের সাথে খুব মিল দেখায়?
পাখিটি

এটি কি কোনও ধরণের নিয়োগ / হোম ওয়ার্কের জন্য? যদি তা হয় তবে অনুগ্রহ করে সহায়তার বিষয়ে নিয়ম ইত্যাদির জন্য মেটাগুলি দেখুন to আমার সংক্ষিপ্ত জবাব: ক) কলামগুলিতে সমস্ত বিভিন্ন মানগুলির অর্থ কী তা সম্পর্কে আমার কোনও ধারণা নেই কারণ আমি ডেটাসেটের বিবরণ অধ্যয়ন করি নি, খ) আমি যা দেখি তা বর্ণনা করার জন্য যদি আমি কেবল বলতাম: আমি বলব: ক্লাস 4 বলে মনে হচ্ছে প্রতিটি কলাম / ভেরিয়েবল এবং তদ্বিপরীত এর উচ্চ মানের সাথে যুক্ত।
অফিশ

6

এমন অনেকগুলি সমস্যা রয়েছে যা আপনার স্ক্র্যাটারপ্লোট ম্যাট্রিক্স থেকে কোনও ব্যবহারযোগ্য তথ্য বের করা কঠিন বা অসম্ভব করে তুলেছে।

আপনার একসাথে প্রদর্শিত অনেকগুলি ভেরিয়েবল রয়েছে। যখন আপনার স্ক্র্যাপরপ্লট ম্যাট্রিক্সে প্রচুর ভেরিয়েবল থাকে, প্রতিটি প্লট দরকারী হওয়ার জন্য খুব ছোট হয়ে যায়। লক্ষ্য করার বিষয়টি হ'ল অনেক প্লট নকল, যা স্থান অপচয় করে। এছাড়াও, আপনি প্রতিটি সংমিশ্রণটি দেখতে চাইলেও আপনাকে সেগুলি একসাথে চক্রান্ত করতে হবে না। লক্ষ্য করুন যে আপনি স্ক্র্যাপরপ্লট ম্যাট্রিক্সকে চার বা পাঁচটি ছোট ব্লকে বিভক্ত করতে পারেন (এমন একটি সংখ্যা যা কার্যকরীভাবে দর্শনীয়)। আপনার কেবলমাত্র একাধিক প্লট তৈরি করতে হবে, প্রতিটি ব্লকের জন্য একটি।

এখানে চিত্র বর্ণনা লিখুন

যেহেতু আপনার কাছে স্পেসের বিচ্ছিন্ন পয়েন্টগুলিতে প্রচুর ডেটা রয়েছে তাই তারা একে অপরের শীর্ষে স্ট্যাকিং রাখে। সুতরাং, আপনি প্রতিটি অবস্থানে কত পয়েন্ট দেখতে পারবেন না। এটি মোকাবেলায় আপনাকে সহায়তা করার জন্য বেশ কয়েকটি কৌশল রয়েছে।

  1. .5
  2. এত বেশি ডেটা সহ, এমনকি বিড়বিড় করা প্যাটারগুলি সনাক্ত করা শক্ত করে তুলবে। আপনি উচ্চতর স্যাচুরেটেড রঙগুলি ব্যবহার করতে পারেন তবে এর জন্য অ্যাকাউন্টটি বেশিরভাগ স্বচ্ছ । যেখানে একে অপরের উপরে প্রচুর ডেটা সজ্জিত রয়েছে, রঙটি আরও গাer় হবে, এবং যেখানে সামান্য ঘনত্ব রয়েছে, রঙ হালকা হবে।
  3. স্বচ্ছতার কাজ করার জন্য আপনার ডেটা প্রদর্শন করার জন্য আপনার শক্ত প্রতীক প্রয়োজন হবে , অন্যদিকে ডি ডিফল্টভাবে ফাঁকা চেনাশোনা ব্যবহার করে।

এই কৌশলগুলি ব্যবহার করে এখানে কয়েকটি উদাহরণ আর কোড এবং তৈরি করা প্লটগুলি রয়েছে:

# the alpha argument in rgb() lets you set the transparency
cols2 = c(rgb(red=255, green=0, blue=0,   alpha=50, maxColorValue=255),
          rgb(red=0,   green=0, blue=255, alpha=50, maxColorValue=255) )
cols2 = ifelse(breast$class==2, cols2[1], cols2[2])
# here we jitter the data
set.seed(6141)  # this makes the example exactly reproducible
jbreast = apply(breast[,1:9], 2, FUN=function(x){ jitter(x, amount=.5) })
jbreast = cbind(jbreast, class=breast[,10])  # the class variable is not jittered

windows()  # the 1st 5 variables, using pch=16
  pairs(jbreast[,1:5], col=cols2, pch=16)

এখানে চিত্র বর্ণনা লিখুন

windows()  # the 2nd 5 variables
  pairs(jbreast[,6:10], col=cols2, pch=16)

এখানে চিত্র বর্ণনা লিখুন

windows()  # to match up the 1st & 2nd sets requires more coding
  layout(matrix(1:25, nrow=5, byrow=T))
  par(mar=c(.5,.5,.5,.5), oma=c(2,2,2,2))
  for(i in 1:5){
    for(j in 6:10){
      plot(jbreast[,j], jbreast[,i], col=cols2, pch=16, 
           axes=F, main="", xlab="", ylab="")
      box()
      if(j==6 ){ mtext(colnames(jbreast)[i], side=2, cex=.7, line=1) }
      if(i==5 ){ mtext(colnames(jbreast)[j], side=1, cex=.7, line=1) }
      if(j==10){ axis(side=4, seq(2,10,2), cex.axis=.8) }
      if(i==1 ){ axis(side=3, seq(2,10,2), cex.axis=.8) }
    }
  }

এখানে চিত্র বর্ণনা লিখুন


5

একক প্লটে 3-4 টির বেশি মাত্রা কল্পনা করা কঠিন। একটি বিকল্প হ'ল মূল উপাদানগুলিতে বিশ্লেষণের জন্য প্রধান উপাদানগুলির বিশ্লেষণ (পিসিএ) ব্যবহার করা হবে এবং তারপরে এটি মূল মাত্রায় ভিজ্যুয়ালাইজ করা হবে। আর এ বিভিন্ন বিবিধ প্যাকেজ রয়েছে (পাশাপাশি বেস prcompফাংশন) যা এই সিনট্যাক্টিক্যালি সহজ করে তোলে ( সিআরএএন দেখুন ); প্লট, লোডিংয়ের ব্যাখ্যা করা অন্য গল্প, তবে আমি 10 ভেরিয়েবল অর্ডিনাল স্ক্রেটারপ্লট ম্যাট্রিক্সের চেয়ে সহজ মনে করি।

এখানে চিত্র বর্ণনা লিখুন


পিসিএ পরামর্শের জন্য ধন্যবাদ। আমি এটি সম্পর্কে জানতাম না। আপনার পোস্ট করা চিত্রটি আমি কীভাবে ব্যাখ্যা করব? এর অর্থ কি এই যে সমস্ত গ্রুপগুলিতে একসাথে আটকে থাকা সমস্ত গুণাবলীর কিছুটা গুরুত্ব থাকবে?
পাখিটি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.