আর-টি ব্যবহার করে ডাইমেনশনাল হ্রাসের জন্য টি-এসএনই বনাম পিসিএতে কী সমস্যা?


27

আমার কাছে 336x256 ভাসমান পয়েন্ট সংখ্যা (336 ব্যাকটিরিয়াল জিনোম (কলাম) x 256 নরমালাইজড টেট্রেনোক্লাইটাইড ফ্রিকোয়েন্সি (সারি) এর ম্যাট্রিক্স রয়েছে, যেমন প্রতিটি কলামে 1 টি যোগ হয়)।

আমি যখন নীতি উপাদান উপাদান বিশ্লেষণ ব্যবহার করে আমার বিশ্লেষণ চালাই তখন আমি ভাল ফলাফল পাই। প্রথমে আমি ডেটাতে কমেন্স ক্লাস্টারগুলি গণনা করি, তারপরে একটি পিসিএ চালাব এবং 2 ডি এবং 3 ডি-তে ক্লিমারিংয়ের প্রাথমিক ক্লিন্সের উপর ভিত্তি করে ডেটা পয়েন্টগুলি রঙিন করুন:

library(tsne)
library(rgl)
library(FactoMineR)
library(vegan)
# read input data
mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1))
# Kmeans Cluster with 5 centers and iterations =10000
km <- kmeans(mydata,5,10000)
# run principle component analysis
pc<-prcomp(mydata)
# plot dots
plot(pc$x[,1], pc$x[,2],col=km$cluster,pch=16)
# plot spiderweb and connect outliners with dotted line
pc<-cbind(pc$x[,1], pc$x[,2])
ordispider(pc, factor(km$cluster), label = TRUE)
ordihull(pc, factor(km$cluster), lty = "dotted")

এখানে চিত্র বর্ণনা লিখুন

# plot the third dimension
pc3d<-cbind(pc$x[,1], pc$x[,2], pc$x[,3])
plot3d(pc3d, col = km$cluster,type="s",size=1,scale=0.2)

এখানে চিত্র বর্ণনা লিখুন

তবে আমি যখন টি-এসএনই পদ্ধতিতে পিসিএ পরিবর্তন করার চেষ্টা করি, ফলাফলগুলি খুব অপ্রত্যাশিত দেখায়:

tsne_data <- tsne(mydata, k=3, max_iter=500, epoch=500)
plot(tsne_data[,1], tsne_data[,2], col=km$cluster, pch=16)
ordispider(tsne_data, factor(km$cluster), label = TRUE)
ordihull(tsne_data, factor(km$cluster), lty = "dotted")

এখানে চিত্র বর্ণনা লিখুন

plot3d(tsne_data, main="T-SNE", col = km$cluster,type="s",size=1,scale=0.2)

এখানে চিত্র বর্ণনা লিখুন

আমার প্রশ্ন এখানে কেন টিউ-এসএনই গণনা করে কুমেন ক্লাস্টারিং এত আলাদা। আমি পিসিএ যা করি তার চেয়ে ক্লাস্টারগুলির মধ্যে আরও ভাল বিচ্ছেদ আশা করতাম তবে এটি আমার কাছে প্রায় এলোমেলো মনে হচ্ছে। তুমি জানো কেন এটা? আমি কি কোনও স্কেলিং পদক্ষেপ বা কোনও ধরণের সাধারণীকরণ অনুপস্থিত?


4
দয়া করে নোট করুন যে পিসিএ সহ, আপনি প্রায়শই যেমন খুশি হন তত ভাল "ফলাফল" পাবেন না। অনেকগুলি বৈশিষ্ট্যগুলিতে ক্লাস্টারিং এবং তারপরে কেবল কয়েকটি প্রথম পিসির উপস্থানে ক্লাস্টারগুলি প্রজেক্ট করা টি-এসএনই-র জন্য এখানে প্রাপ্ত মতো একটি ছবি দেখাতে পারে - যদি না পিসিগুলি প্রায় সমস্ত পরিবর্তনশীলতা গ্রহন করে। আপনি কি তুলনা করেছেন - পরিবর্তনশীলতার কোন অংশটি আপনার প্রথম 3 পিসি এবং আপনার প্রথম 3 টি-এসএনই-মাত্রা দ্বারা ক্যাপচার করা হয়েছে?
ttnphns

2
আরও তুচ্ছভাবে, আপনি কি আরও পুনরাবৃত্তি চেষ্টা করেছেন?
জুন

2
আমি ২০০০ অবধি পুনরাবৃত্তির সাথে খেলেছি এবং বিভিন্ন বিভ্রান্তি সেটিংসের সাথেও খেলেছি, তবে পিসিএ প্রদর্শিত পারফরম্যান্সের কাছাকাছি কিছু দেখিনি।
লোদিদি

1
আপনি কি উদ্বেগ টুইট করার চেষ্টা করেছেন?

1
tSNE এর একটি তাত্ত্বিক সর্বোত্তম বিভ্রান্তি রয়েছে যা আপনার মূল এবং অভিক্ষিপ্ত মাত্রায় আপনার ডেটার মধ্যে কেএল ডাইভারজেন্সকে হ্রাস করে। বিড়ম্বনার জন্য আপনি কি প্রথমে গ্রিড অনুসন্ধান করার চেষ্টা করেছেন? যেমন 10,20,30,40, ইত্যাদি
অ্যালেক্স আর

উত্তর:


10

TSNEএটি ব্যবহার করার আগে আপনাকে কী করতে হবে তা আপনাকে বুঝতে হবে।

এটি দূরত্বের উপর ভিত্তি করে বৈশিষ্ট্য ভেক্টরগুলির মধ্যে একটি হিংগারবুরহুড গ্রাফ তৈরি করে শুরু হয় ।

গ্রাফটি কোনও নোড (বৈশিষ্ট্য ভেক্টর )টিকে তার nনিকটতম নোডগুলির সাথে সংযুক্ত করে (বৈশিষ্ট্যের জায়গার দূরত্বের ক্ষেত্রে)। এই nবলা হয় perplexityপ্যারামিটার।

এই গ্রাফটি তৈরির উদ্দেশ্যটি মূলত নমুনা দেওয়ার ধরণে রয়েছে TSNE আপনার বৈশিষ্ট্য ভেক্টরগুলির নতুন উপস্থাপনা তৈরি করতে নির্ভর করে।

random walkআপনার টিএসএনই বৈশিষ্ট্য গ্রাফটিতে টিএসএনই মডেল বিল্ডিংয়ের জন্য একটি ক্রম তৈরি করা হয়েছে ।

আমার অভিজ্ঞতায় ... বৈশিষ্ট্যটির উপস্থাপনা কীভাবে এই গ্রাফের বিল্ডিংকে প্রভাবিত করে সে সম্পর্কে যুক্তি দিয়ে আমার কয়েকটি সমস্যা এসেছে। আমি perplexityপ্যারামিটারটি নিয়েও খেলি , কারণ এটি আমার নমুনাটি কীভাবে মনোনিবেশ করে তার উপর প্রভাব ফেলে।


9

এই পদ্ধতির তুলনা করা শক্ত।

পিসিএ প্যারামিটার মুক্ত। ডেটা দেওয়া, আপনি কেবল প্রধান উপাদানগুলি তাকান আছে।

অন্যদিকে, টি-এসএনই গুরুতর পরামিতিগুলির উপর নির্ভর করে: উদ্বেগ, প্রারম্ভিক অতিরঞ্জিতকরণ, শেখার হার, পুনরাবৃত্তির সংখ্যা - যদিও ডিফল্ট মানগুলি সাধারণত ভাল ফলাফল দেয়।

সুতরাং আপনি কেবল তাদের তুলনা করতে পারবেন না, আপনাকে পিসিএকে তুলনামূলকভাবে সেরা ফলাফলের সাথে তুলনা করতে হবে যা আপনি টি-এসএনই (বা টি-এসএনইর বেশ কয়েকটি প্রচেষ্টা অর্জন করে সেরা ফলাফল) দিয়ে অর্জন করতে পারেন। অন্যথায়, এটি জিজ্ঞাসা করার সমতুল্য হবে "কেন আমার লিনিয়ার মডেলটি আমার (টিউন করা হয়নি) গ্রেডিয়েন্ট বুস্টিং মডেলের চেয়ে ভাল সম্পাদন করে?"।


3

আমি পিসিএ প্রতিস্থাপন করতে একটি ডেটাসেটে টি-স্নে দৌড়েছি এবং (বাগ ওয়ে যে লক্ষ্য করেও সত্ত্বেও) আরও ভাল ফলাফল পেয়েছে। আমার আবেদনের ক্ষেত্রে রুক্ষ টি-স্নে আমাকে এলোমেলোভাবে ফলাফল দেওয়ার সময় রুক্ষ পিসিএ ভাল কাজ করেছিল worked এটি পিসিএতে অন্তর্ভুক্ত স্কেলিং / সেন্টারিং পদক্ষেপের কারণে হয়েছিল (বেশিরভাগ প্যাকেজগুলিতে ডিফল্টরূপে) তবে টি-সনে ব্যবহৃত হয়নি।
আমার পয়েন্টগুলি ক্ষেত্রগুলি ছিল এবং পূর্ববর্তী স্কেলিং ছাড়াই তাদের মধ্যে দূরত্বটি সামান্য বোঝায় it এটি আমাকে "এলোমেলো চেহারা" থেকে "বোঝাতে" পেল।

RUser4512 যেমন বলেছে, আপনি নিজের পরামিতিগুলিও পরীক্ষা করতে চাইতে পারেন। তার ওয়েবসাইটে , লেখক 5 থেকে 50 এর মধ্যে বিভ্রান্তির পরামর্শ দিয়েছেন (আপনার বিষয়টি বেশ ছোট বলে মনে হচ্ছে), তিনি হুঁশিয়ারিও দিয়েছিলেন যে খুব বড় একটি বিভ্রান্তি আপনাকে পয়েন্টগুলির প্রায় একজাতীয় গোলকটি দেবে (যা জানতে ভাল)।

ডিস্টিলের কিছু ইন্টারেক্টিভ ভিজুয়ালাইজেশন সহ একটি খুব সুন্দর নিবন্ধ রয়েছে যা প্যারামিটারগুলির প্রভাব বুঝতে সত্যই সহায়তা করে।


0

TSNE সহ পিসিএ এবং এসভিডির মতো পদ্ধতির মধ্যে একটি গুরুত্বপূর্ণ পার্থক্যটি হল যে টিএসএনই একটি অ-লিনিয়ার স্কেল ব্যবহার করছে। এটি প্রায়শই এমন প্লট তৈরি করে যা আরও চাক্ষুষভাবে ভারসাম্যযুক্ত তবে আপনি পিসিএর মতোই সেভাবে ব্যাখ্যা করতে সাবধান হন। এই পার্থক্যটি সম্ভবত উপরে প্রদর্শিত প্লটগুলির মধ্যে পার্থক্যের জন্য অ্যাকাউন্ট করে।

TSNE এর অ-লিনিয়ার স্কেলটি ব্যাখ্যা করার জন্য আরও তথ্যের জন্য নিম্নলিখিত নিবন্ধটি দেখুন: https://distill.pub/2016/misread-tsne/ (ওয়াটেনবার্গ, ইত্যাদি আল।, "কীভাবে টি-এসএনই কার্যকরভাবে ব্যবহার করবেন", ডিস্টিল, 2016. http://doi.org/10.23915/distill.00002 )

এটি অপ্রত্যাশিত নয় যে টিএসএনই ডেটা "ক্লাস্টারগুলি" মিশ্রণ করবে কারণ তারা পিসিএ ডেটাতে আলাদা নয়। ক্লাস্টার 2 এবং 4 এর মধ্যে কিছু পয়েন্ট উদাহরণস্বরূপ ক্লাস্টারগুলির মধ্যে পার্থক্যের চেয়ে ক্লাস্টার সেন্ট্রয়েড থেকে বেশি দূরে। আপনি একটি ভিন্ন কে-প্যারামিটারের সাথে খুব আলাদা ক্লাস্টারিং ফলাফল পাবেন। 5 টি ক্লাস্টার ব্যবহারের জন্য আপনার কাছে নির্দিষ্ট জৈবিক যুক্তি না থাকলে আমি গ্রাফ ভিত্তিক বা আনসারভিজড হায়ারার্কিকাল ক্লাস্টারিং এপ্রোচ ব্যবহার করার পরামর্শ দেব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.