টি-এসএনই: সমান ডেটা মানগুলি কেন দৃষ্টিভঙ্গিতে বন্ধ হয় না?


9

আমার 200 টি ডাটা পয়েন্ট রয়েছে যা সমস্ত বৈশিষ্ট্যে একই মান ।

টি-এসএনই মাত্রা হ্রাসের পরে তারা আর এত সমান দেখায় না, ঠিক এর মতো: এখানে চিত্র বর্ণনা লিখুন

কেন তারা ভিজ্যুয়ালাইজেশনে একই পয়েন্টে নেই এবং এমনকি দুটি পৃথক ক্লাস্টারে বিতরণ বলে মনে হচ্ছে?


4
নিশ্চিত পড়া হতে distill.pub/2016/misread-tsne
Emre

আপনি যে নির্ভুলতা (ডাবল / ফ্লোট) ব্যবহার করছেন তার কারণে এটি হতে পারে?
এল বুরো

বেশিরভাগ মান হল পূর্ণসংখ্যা। এবং এটি খুব বিরল, বেশিরভাগ জিরো সহ প্রায় 500 টি বৈশিষ্ট্য। আমি জানি না এটি নির্ভুলতার কারণে হতে পারে কিনা। তবে এই ক্লাস্টারগুলির মধ্যে এবং এই ডেটা পয়েন্টগুলির মধ্যে দূরত্ব অপেক্ষাকৃত বড়।
সায়েন্টিএইটভিটিটাস

কোন গুচ্ছ? আমি ভেবেছিলাম সব একই- বা আপনি প্লটটি বোঝাচ্ছেন?
এল বুরো

হ্যাঁ, আমি প্লটটির ক্লাস্টারগুলি বোঝাতে চাইছি।
সায়েন্টিয়াটভিটিটাস

উত্তর:


3

আপনি সঠিক যে টি-এসএনইতে একই মানগুলি বিভিন্ন পয়েন্টে বিতরণ করা যেতে পারে, আপনি যদি টি-এসএনই জুড়ে চলেছেন সেই অ্যালগরিদমটি একবার খেয়াল করেন তবে এটি হওয়ার কারণ স্পষ্ট।

অ্যালগরিদম ডেটাसेटে প্রয়োগ করার পরে পয়েন্টগুলি সম্পর্কে আপনার প্রথম উদ্বেগের সমাধান করার জন্য। এটি নিজের জন্য যাচাই করার জন্য আমি আপনাকে একটি মহড়া দিয়ে রেখে দেব, একটি সাধারণ অ্যারে এবং এবং এর বিরুদ্ধে প্রকৃত অ্যালগরিদম চালান এবং নিজের জন্য দেখুন যে ফলাফল পয়েন্টগুলি আসলে অভিন্ন নয় .এর বিরুদ্ধে আপনি আপনার উত্তরটি ক্রস করতে পারেন।x1=[0,1]x2=[0,1]

import numpy as np from sklearn.manifold import TSNE m = TSNE(n_components=2, random_state=0) m.fit_transform(np.array([[0,1],[0,1]]))

আপনি আরও দেখতে পাবেন যে random_stateপ্রকৃতপক্ষে পরিবর্তনটি মডেলটির আউটপুট সহ-আদেশকে পরিবর্তন করে। প্রকৃত সমন্বয় এবং তাদের আউটপুট মধ্যে কোন বাস্তব সম্পর্ক নেই। যেহেতু টিএসএনইর প্রথম পদক্ষেপটি শর্তাধীন সম্ভাবনা গণনা করে।

আসুন আমরা এই মুহূর্তের জন্য অ্যালগরিদমকে যে কারণে ঘটে তার কারণটি ব্যবহার করে যুক্তিযুক্ত করার চেষ্টা করি, কেবলমাত্র কোনও গণিত ব্যবহার না করে কোনও মুহূর্তের জন্য u দ্রষ্টব্য, যে এবং এই পরিস্থিতিতে উভয় ভেক্টর। । এখন, আমরা যদি গণনা করি , আমরা দেখতে পাচ্ছি যে মানটি 1। কেএল ডাইভারজেন্স প্রয়োগ করার পরে, আমরা উপরে বর্ণিত মানগুলি পাই। এখন আসুন আমরা এর জন্য কিছু স্বজ্ঞাত প্রয়োগ করি। , অনানুষ্ঠানিকভাবে, শর্তাধীন সম্ভাবনা যা বেছে নেবেxixjpj|i=exp(||xjxi||22σ2)kiexp(||xjxi||22σ2)pij=pi|j+pj|i2Npijxixjযেমন এটি প্রতিবেশী এটি ফলাফলকে ন্যায়সঙ্গত করে, 1, দুটি কারণে। প্রথমটি, যেহেতু অন্য কোনও প্রতিবেশী নেই, সুতরাং এটি অবশ্যই সহ-আদেশের তালিকায় কেবলমাত্র অন্য ভেক্টরকেই বেছে নিতে হবে। তদতিরিক্ত, পয়েন্টগুলি অভিন্ন এবং অন্য প্রতিবেশী হিসাবে সেগুলি বেছে নেওয়ার সম্ভাবনাগুলি উচ্চতর হওয়া উচিত , যেমনটি আমরা দেখছি।

এখন আসছি এ পরম কোনও তাত্পর্য আছে কিনা । তারা আসলে না। এলোমেলোতা পয়েন্টগুলি যেখানে যেতে চান সেখানে পুনরায় বিতরণ করতে পারে। যাইহোক, সবচেয়ে মজার বিষয় হ'ল পয়েন্টগুলির মধ্যে দূরত্বগুলির অনুপাত এবং এটি আপেক্ষিক এবং এমনকি এটি যখন আমরা এটি উচ্চ মাত্রার দিকে প্রজেক্ট করি তখনও এটি আকর্ষণীয়।R2

সুতরাং, সত্যটি হ'ল দুটি গুচ্ছের দিকে তাকানোর চেয়ে তাদের মধ্যবর্তী দূরত্বগুলি দেখুন, কারণ এটি নিজের সমন্বয়কারীদের চেয়ে বেশি তথ্য পৌঁছে দেয়।

আশা করি এটি আপনার প্রশ্নের জবাব দিয়েছে :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.