আমি হিন্টনের কাগজ থেকে বুঝতে পারি যে টি-এসএনই স্থানীয় সাদৃশ্য রাখতে এবং বিশ্বব্যাপী কাঠামো (গুচ্ছবদ্ধকরণ) সংরক্ষণে একটি শালীন কাজ করে।
তবে আমি স্পষ্ট নই যে 2D টি-স্নি ভিজুয়ালাইজেশনে পয়েন্টগুলি আরও নিকটে উপস্থিত হবে যদি "আরও অনুরূপ" ডেটা-পয়েন্ট হিসাবে ধরে নেওয়া যায়। আমি 25 টি বৈশিষ্ট্য সহ ডেটা ব্যবহার করছি।
উদাহরণ হিসাবে, নীচের চিত্রটি পর্যবেক্ষণ করে, আমি কি ধরে নিতে পারি যে নীল ডেটাপপয়েন্টগুলি সবুজ রঙের সাথে বিশেষত সবচেয়ে বড় সবুজ-পয়েন্ট ক্লাস্টারের অনুরূপ ?. অথবা, অন্যভাবে জিজ্ঞাসা করছেন, এটি কি ঠিক ধরে নেওয়া যায় যে নীল পয়েন্টগুলি অন্য ক্লাস্টারের লাল রঙের তুলনায় নিকটতম ক্লাস্টারের সবুজ রঙের তুলনায় আরও বেশি মিলে যায়? (লাল-ইশ ক্লাস্টারে সবুজ পয়েন্ট উপেক্ষা করে)
অন্যান্য উদাহরণ পর্যবেক্ষণ করার সময়, যেমন বিজ্ঞান-কিটটিতে উপস্থাপিতগুলি ম্যানিফোল্ড শেখা এটি অনুমান করা ঠিক বলে মনে হয়, তবে আমি নিশ্চিত নই যে পরিসংখ্যানগতভাবে বলতে হয় কিনা।
সম্পাদনা
আমি মূল ডেটাसेट থেকে ম্যানুয়ালি দূরত্ব গণনা করেছি (অর্থাত্ জোড় জোড় ইউক্লিডিয়ান দূরত্ব) এবং ভিজ্যুয়ালাইজেশন আসলে ডেটাসেট সম্পর্কিত একটি আনুপাতিক স্থানিক দূরত্বকে উপস্থাপন করে। তবে, আমি জানতে চাই যে এটি টি-স্নের মূল গাণিতিক গঠনের কাছ থেকে প্রত্যাশা করা মোটামুটি গ্রহণযোগ্য কিনা এবং এটি কেবল কাকতালীয় নয়।