নিকটস্থ পয়েন্টগুলি টি-এসএনই ভিজ্যুয়ালাইজেশনে আরও অনুরূপ বিবেচনা করা যেতে পারে?


14

আমি হিন্টনের কাগজ থেকে বুঝতে পারি যে টি-এসএনই স্থানীয় সাদৃশ্য রাখতে এবং বিশ্বব্যাপী কাঠামো (গুচ্ছবদ্ধকরণ) সংরক্ষণে একটি শালীন কাজ করে।

তবে আমি স্পষ্ট নই যে 2D টি-স্নি ভিজুয়ালাইজেশনে পয়েন্টগুলি আরও নিকটে উপস্থিত হবে যদি "আরও অনুরূপ" ডেটা-পয়েন্ট হিসাবে ধরে নেওয়া যায়। আমি 25 টি বৈশিষ্ট্য সহ ডেটা ব্যবহার করছি।

উদাহরণ হিসাবে, নীচের চিত্রটি পর্যবেক্ষণ করে, আমি কি ধরে নিতে পারি যে নীল ডেটাপপয়েন্টগুলি সবুজ রঙের সাথে বিশেষত সবচেয়ে বড় সবুজ-পয়েন্ট ক্লাস্টারের অনুরূপ ?. অথবা, অন্যভাবে জিজ্ঞাসা করছেন, এটি কি ঠিক ধরে নেওয়া যায় যে নীল পয়েন্টগুলি অন্য ক্লাস্টারের লাল রঙের তুলনায় নিকটতম ক্লাস্টারের সবুজ রঙের তুলনায় আরও বেশি মিলে যায়? (লাল-ইশ ক্লাস্টারে সবুজ পয়েন্ট উপেক্ষা করে)

এখানে চিত্র বর্ণনা লিখুন

অন্যান্য উদাহরণ পর্যবেক্ষণ করার সময়, যেমন বিজ্ঞান-কিটটিতে উপস্থাপিতগুলি ম্যানিফোল্ড শেখা এটি অনুমান করা ঠিক বলে মনে হয়, তবে আমি নিশ্চিত নই যে পরিসংখ্যানগতভাবে বলতে হয় কিনা।

এখানে চিত্র বর্ণনা লিখুন

সম্পাদনা

আমি মূল ডেটাसेट থেকে ম্যানুয়ালি দূরত্ব গণনা করেছি (অর্থাত্ জোড় জোড় ইউক্লিডিয়ান দূরত্ব) এবং ভিজ্যুয়ালাইজেশন আসলে ডেটাসেট সম্পর্কিত একটি আনুপাতিক স্থানিক দূরত্বকে উপস্থাপন করে। তবে, আমি জানতে চাই যে এটি টি-স্নের মূল গাণিতিক গঠনের কাছ থেকে প্রত্যাশা করা মোটামুটি গ্রহণযোগ্য কিনা এবং এটি কেবল কাকতালীয় নয়।


1
নীল পয়েন্টগুলি তাদের নিজ প্রতিবেশী সবুজ পয়েন্টগুলির নিকটতম, এমবেডিংটি এভাবেই সম্পাদিত হয়েছিল। আলগাভাবে কথা বলার মিল (বা দূরত্ব) সংরক্ষণ করা উচিত। 25 টি মাত্রা থেকে কেবলমাত্র 2 এ যাওয়ার ফলে তথ্য হারাতে খুব সম্ভব হয়, তবে 2D উপস্থাপনাটি সবচেয়ে কাছের যা স্ক্রিনে প্রদর্শিত হতে পারে।
ভ্লাদিস্লাভস ডভগ্লেলেকস

উত্তর:


5

আমি স্থানীয়ভাবে-রৈখিক এম্বেডিংয়ের একটি স্মার্ট সম্ভাব্য অভিযোজন হিসাবে টি এসএনই উপস্থাপন করব। উভয় ক্ষেত্রেই আমরা একটি উচ্চ মাত্রিক স্থান থেকে ছোট একটিতে পয়েন্টগুলি প্রজেক্ট করার চেষ্টা করি। স্থানীয় দূরত্ব সংরক্ষণ (সরাসরি এলএলএর সাথে, সম্ভাব্য বন্টনকে প্রস্তুত করে এবং টি-এসএনই দিয়ে কেএল-ডাইভারজেনটি অনুকূল করে) এই প্রক্ষেপণটি সম্পন্ন করা হয়। তারপরে যদি আপনার প্রশ্নটি হয়, এটি কী বিশ্বব্যাপী দূরত্ব রাখে, উত্তরটি হ'ল না। এটি আপনার ডেটার "আকৃতি" এর উপর নির্ভর করবে (যদি বিতরণটি মসৃণ হয় তবে দূরত্বগুলি কোনওভাবে সংরক্ষণ করা উচিত)।

টি-এসএনই আসলে সুইস রোলটিতে (আপনার "এস" থ্রিডি চিত্র) ভাল কাজ করে না এবং আপনি দেখতে পাচ্ছেন যে 2 ডি ফলাফলের মধ্যে খুব মাঝারি হলুদ পয়েন্টগুলি সাধারণত নীল রঙের চেয়ে লাল রঙের আরও নিকটে থাকে (তারা পুরোপুরি 3D চিত্রকে কেন্দ্র করে)।

টি-এসএনই কী করে তার অন্য একটি ভাল উদাহরণ হস্তাক্ষর অঙ্কগুলির ক্লাস্টারিং। এই লিঙ্কে উদাহরণগুলি দেখুন: https://lvdmaaten.github.io/tsne/


2
আমি যা বলতে চাইছি তা হ'ল আপনি কেবল নীচের জায়গাতেই একটি মিলের মানদণ্ড হিসাবে দূরত্ব ব্যবহার করতে পারবেন না। t-SNE বিশ্বব্যাপী কাঠামো যেমন ক্লাস্টার রাখবে তবে প্রয়োজনীয় দূরত্ব বজায় রাখবে না। এটি উচ্চ মাত্রিক ডেটার আকার এবং আপনি যে বিভ্রান্তি ব্যবহার করেন তার উপর নির্ভর করবে।
রবিন

1
আচ্ছা আমি দেখি. স্পষ্ট করার জন্য ধন্যবাদ। হ্যাঁ আমি একমত যে নিম্ন স্থানের দূরত্বগুলি সঠিক হবে না। এখন, যেহেতু টি-স্নি দৃশ্যধারণের জন্য বাস্তব, আমি কি নিম্নতর মাত্রার প্লটে ধারণামূলকভাবে দূরত্ব ব্যবহার করতে পারি? উদাহরণস্বরূপ আমার প্লটটিতে আমি দৃ with়তার সাথে বলতে পারি যে 2 ডি স্পেসের তিনটি গ্রুপের সুস্পষ্ট বিভাজনকে কেন্দ্র করে নীল পয়েন্টগুলি লাল বর্ণের চেয়ে সবুজ বর্ণের সাথে আরও বেশি বা আরও বেশি মিল রয়েছে। নাকি তা বলাও শক্ত হবে?
জাভিয়েরফ্ডার

1
এটা বলা শক্ত। নিম্ন মাত্রিক স্থানের পয়েন্টগুলি উত্সকে কেন্দ্র করে গাউসীয় বিতরণ দিয়ে শুরু করা হয়। তারপরে কেএল-ডাইভারজেন্সকে অনুকূল করে পুনরাবৃত্তভাবে প্রতিস্থাপন করা হয়। সুতরাং আমি বলব যে আপনার ক্ষেত্রে নীল পয়েন্টগুলি সবুজ গুচ্ছের সাথে আরও বেশি মিল রয়েছে তবে এখন লাল ক্লাস্টারের তুলনায় এগুলি কতটা নিকটে রয়েছে তা মূল্যায়নের উপায় রয়েছে। টি-Sne।
রবিন

1
একসাথে নেওয়া, টি-এসএনই (1) বড় জোড়-ভিত্তিক দূরত্বের মাধ্যমে ভিন্ন ভিন্ন ডেটাপয়েন্টগুলিকে মডেলিংয়ের উপর জোর দেয় এবং (2) ছোট জোড়যুক্ত দূরত্বের মাধ্যমে অনুরূপ ডেটাপয়েন্টগুলিকে মডেলিং করে। বিশেষত, টি-এসএনই নিম্ন-মাত্রিক মানচিত্রে দীর্ঘ-পরিসরের বাহিনী প্রবর্তন করে যা অপটিমাইজেশনের প্রথম দিকে পৃথক হয়ে যাওয়া দুটি একই ধরণের পয়েন্টগুলিকে আবার একসাথে টানতে পারে।
রবিন

1
খুব সুন্দর ব্যাখ্যা। আপনার প্রচেষ্টার জন্য আপনাকে অনেক ধন্যবাদ। আমি মনে করি আপনি বিভিন্ন মন্তব্য একসাথে একটি সম্পূর্ণ উত্তর রাখবেন।
জাভিয়েরফিডার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.