আমার 200 টি ডাটা পয়েন্ট রয়েছে যা সমস্ত বৈশিষ্ট্যে একই মান ।
টি-এসএনই মাত্রা হ্রাসের পরে তারা আর এত সমান দেখায় না, ঠিক এর মতো:
কেন তারা ভিজ্যুয়ালাইজেশনে একই পয়েন্টে নেই এবং এমনকি দুটি পৃথক ক্লাস্টারে বিতরণ বলে মনে হচ্ছে?
আমার 200 টি ডাটা পয়েন্ট রয়েছে যা সমস্ত বৈশিষ্ট্যে একই মান ।
টি-এসএনই মাত্রা হ্রাসের পরে তারা আর এত সমান দেখায় না, ঠিক এর মতো:
কেন তারা ভিজ্যুয়ালাইজেশনে একই পয়েন্টে নেই এবং এমনকি দুটি পৃথক ক্লাস্টারে বিতরণ বলে মনে হচ্ছে?
উত্তর:
আপনি সঠিক যে টি-এসএনইতে একই মানগুলি বিভিন্ন পয়েন্টে বিতরণ করা যেতে পারে, আপনি যদি টি-এসএনই জুড়ে চলেছেন সেই অ্যালগরিদমটি একবার খেয়াল করেন তবে এটি হওয়ার কারণ স্পষ্ট।
অ্যালগরিদম ডেটাसेटে প্রয়োগ করার পরে পয়েন্টগুলি সম্পর্কে আপনার প্রথম উদ্বেগের সমাধান করার জন্য। এটি নিজের জন্য যাচাই করার জন্য আমি আপনাকে একটি মহড়া দিয়ে রেখে দেব, একটি সাধারণ অ্যারে এবং এবং এর বিরুদ্ধে প্রকৃত অ্যালগরিদম চালান এবং নিজের জন্য দেখুন যে ফলাফল পয়েন্টগুলি আসলে অভিন্ন নয় .এর বিরুদ্ধে আপনি আপনার উত্তরটি ক্রস করতে পারেন।
import numpy as np
from sklearn.manifold import TSNE
m = TSNE(n_components=2, random_state=0)
m.fit_transform(np.array([[0,1],[0,1]]))
আপনি আরও দেখতে পাবেন যে random_state
প্রকৃতপক্ষে পরিবর্তনটি মডেলটির আউটপুট সহ-আদেশকে পরিবর্তন করে। প্রকৃত সমন্বয় এবং তাদের আউটপুট মধ্যে কোন বাস্তব সম্পর্ক নেই। যেহেতু টিএসএনইর প্রথম পদক্ষেপটি শর্তাধীন সম্ভাবনা গণনা করে।
আসুন আমরা এই মুহূর্তের জন্য অ্যালগরিদমকে যে কারণে ঘটে তার কারণটি ব্যবহার করে যুক্তিযুক্ত করার চেষ্টা করি, কেবলমাত্র কোনও গণিত ব্যবহার না করে কোনও মুহূর্তের জন্য u দ্রষ্টব্য, যে এবং এই পরিস্থিতিতে উভয় ভেক্টর। । এখন, আমরা যদি গণনা করি , আমরা দেখতে পাচ্ছি যে মানটি 1। কেএল ডাইভারজেন্স প্রয়োগ করার পরে, আমরা উপরে বর্ণিত মানগুলি পাই। এখন আসুন আমরা এর জন্য কিছু স্বজ্ঞাত প্রয়োগ করি। , অনানুষ্ঠানিকভাবে, শর্তাধীন সম্ভাবনা যা বেছে নেবেযেমন এটি প্রতিবেশী এটি ফলাফলকে ন্যায়সঙ্গত করে, 1, দুটি কারণে। প্রথমটি, যেহেতু অন্য কোনও প্রতিবেশী নেই, সুতরাং এটি অবশ্যই সহ-আদেশের তালিকায় কেবলমাত্র অন্য ভেক্টরকেই বেছে নিতে হবে। তদতিরিক্ত, পয়েন্টগুলি অভিন্ন এবং অন্য প্রতিবেশী হিসাবে সেগুলি বেছে নেওয়ার সম্ভাবনাগুলি উচ্চতর হওয়া উচিত , যেমনটি আমরা দেখছি।
এখন আসছি এ পরম কোনও তাত্পর্য আছে কিনা । তারা আসলে না। এলোমেলোতা পয়েন্টগুলি যেখানে যেতে চান সেখানে পুনরায় বিতরণ করতে পারে। যাইহোক, সবচেয়ে মজার বিষয় হ'ল পয়েন্টগুলির মধ্যে দূরত্বগুলির অনুপাত এবং এটি আপেক্ষিক এবং এমনকি এটি যখন আমরা এটি উচ্চ মাত্রার দিকে প্রজেক্ট করি তখনও এটি আকর্ষণীয়।
সুতরাং, সত্যটি হ'ল দুটি গুচ্ছের দিকে তাকানোর চেয়ে তাদের মধ্যবর্তী দূরত্বগুলি দেখুন, কারণ এটি নিজের সমন্বয়কারীদের চেয়ে বেশি তথ্য পৌঁছে দেয়।
আশা করি এটি আপনার প্রশ্নের জবাব দিয়েছে :)