টি-এসএনইর সমস্যাটি হ'ল এটি দূরত্ব বা ঘনত্ব সংরক্ষণ করে না। এটি কেবল কিছুটা নিকটবর্তী-প্রতিবেশীদের সংরক্ষণ করে। পার্থক্যটি সূক্ষ্ম তবে কোনও ঘনত্ব- বা দূরত্ব ভিত্তিক অ্যালগরিদমকে প্রভাবিত করে।
এই প্রভাবটি দেখতে, কেবল একটি মাল্টিভিয়ারেট গাউসীয় বিতরণ তৈরি করুন। আপনি যদি এটি কল্পনা করেন, আপনার কাছে এমন একটি বল থাকবে যা ঘন এবং বাইরে থেকে অনেক কম ঘন হয়ে উঠবে, এমন কিছু বিদেশী যা সত্যিই অনেক দূরে থাকতে পারে।
এখন এই ডেটাতে টি-এসএনই চালান। আপনি সাধারণত অভিন্ন ঘনত্বের একটি বৃত্ত পাবেন। যদি আপনি একটি কম বিভ্রান্তি ব্যবহার করেন তবে এটিতে কিছু বিজোড় নিদর্শনও থাকতে পারে। তবে আপনি প্রকৃতপক্ষে বিদেশী বিদেশীদের আর বলতে পারবেন না।
এখন জিনিসগুলিকে আরও জটিল করে তুলুন। আসুন (-2,0) এ সাধারণ বিতরণে 250 পয়েন্ট এবং (+2,0) এ সাধারণ বিতরণে 750 পয়েন্ট ব্যবহার করি।
এটি একটি সহজ ডেটা সেট বলে মনে করা হয়, উদাহরণস্বরূপ EM সহ:
যদি আমরা 40-এর ডিফল্ট বিভ্রান্তি দিয়ে টি-এসএনই চালাই তবে আমরা একটি অদ্ভুত আকারের প্যাটার্নটি পাই:
খারাপ না, তবে ক্লাস্টার করাও এত সহজ নয়, তাই না? আপনার কাছে একটি ক্লাস্টারিং অ্যালগরিদম খুঁজে পেতে খুব কঠিন সময় আসবে যা এখানে যথাযথভাবে কাজ করে। এমনকি আপনি যদি মানুষের এই ডেটা ক্লাস্টার করতে বলতেন তবে সম্ভবত তারা এখানে 2 টিরও বেশি ক্লাস্টার খুঁজে পাবেন।
যদি আমরা 20-এর মতো খুব ক্ষুদ্রতর জটিলতায় টি-এসএনই চালাই তবে আমরা এই নিদর্শনগুলির আরও বেশি পাই যা বিদ্যমান নেই:
এটি ক্লাস্টার যেমন ডিবিএসসিএএন সহ, তবে এটি চারটি ক্লাস্টার দেবে। তাই সাবধান, টি-এসএনই "জাল" নিদর্শন তৈরি করতে পারে!
সর্বোত্তম উদ্বেগ এই ডেটা সেটটির জন্য প্রায় 80 এর কাছাকাছি বলে মনে হচ্ছে; তবে আমি মনে করি না এই প্যারামিটারটি প্রতিটি অন্যান্য ডেটা সেটের জন্য কাজ করা উচিত।
এখন এটি দৃশ্যত আনন্দদায়ক, তবে বিশ্লেষণের চেয়ে ভাল নয় । একটি মানব টীকা সম্ভবত একটি কাটা নির্বাচন করতে পারে এবং একটি ভাল ফলাফল পেতে পারে; কে-মানে তবে এটি খুব খুব সহজ পরিস্থিতিতে এমনকি ব্যর্থ হবে ! আপনি ইতিমধ্যে দেখতে পাচ্ছেন যে ঘনত্বের তথ্য হারিয়ে গেছে , সমস্ত ডেটা প্রায় একই ঘনত্বের অঞ্চলে বাস করে বলে মনে হচ্ছে। পরিবর্তে আমরা যদি আরও বিভ্রান্তি বাড়িয়ে তুলি তবে অভিন্নতা বাড়বে এবং বিচ্ছেদটি আবার হ্রাস পাবে।
উপসংহারে, ভিজুয়ালাইজেশনের জন্য টি-এসএনই ব্যবহার করুন (এবং দৃষ্টিভঙ্গি কিছু উপভোগ করার জন্য বিভিন্ন পরামিতিগুলি চেষ্টা করুন!) তবে পরে ক্লাস্টারিং চালাবেন না , বিশেষত দূরত্ব- বা ঘনত্ব ভিত্তিক অ্যালগোরিদম ব্যবহার করবেন না, কারণ এই তথ্যটি ইচ্ছাকৃতভাবে ছিল (!) নিখোঁজ. নেবারহুড-গ্রাফ ভিত্তিক পদ্ধতিগুলি ভাল হতে পারে তবে এর আগে আপনাকে প্রথমে টি-এসএনই চালানোর দরকার নেই, কেবল অবিলম্বে প্রতিবেশীদের ব্যবহার করুন (কারণ টি-এসএনই এই এনএন-গ্রাফটি মূলত অক্ষত রাখার চেষ্টা করে)।
আরও উদাহরণ
এই উদাহরণগুলি জন্য প্রস্তুত রাখা হয়েছিল উপস্থাপনা কাগজ (কিন্তু পাওয়া যাবে না এ এখনো কাগজ, হিসাবে আমি এই গবেষণা পরবর্তী করেনি)
এরিক শুবার্ট, এবং মাইকেল গার্টজ।
ভিজ্যুয়ালাইজেশন এবং আউটলেট সনাক্তকরণের জন্য অন্তর্নিহিত টি-স্টোকাস্টিক নেবার এম্বেডিং - মাত্রাটির অভিশাপের বিরুদ্ধে প্রতিকার?
ইন: মিউনিখ, জার্মানি, সাদৃশ্য অনুসন্ধান এবং অ্যাপ্লিকেশনগুলির উপর দশম আন্তর্জাতিক সম্মেলনের কার্যক্রম (এসআইএসএপি)। 2017
প্রথমত, আমাদের কাছে এই ইনপুট ডেটা রয়েছে:
আপনি যেমন অনুমান করতে পারেন, এটি বাচ্চাদের জন্য "কালার মি" ইমেজ থেকে উদ্ভূত।
যদি আমরা এটি এসএনই ( টি-এসএনই নয় , তবে পূর্বসূরি) দিয়ে চালাই :
বাহ, আমাদের মাছ বেশ সমুদ্রের দৈত্য হয়ে গেছে! কার্নেলের আকার স্থানীয়ভাবে নির্বাচিত হওয়ায় আমরা ঘনত্বের অনেক তথ্য হারাতে পারি।
তবে আপনি টি-এসএনই আউটপুট দ্বারা সত্যিই অবাক হবেন:
আমি আসলে দুটি বাস্তবায়ন চেষ্টা করেছি (ELKI, এবং sklearn বাস্তবায়ন), এবং উভয়ই এরকম একটি ফলাফল উত্পন্ন করেছে। কিছু সংযোগ বিচ্ছিন্ন টুকরো, তবে এটি প্রতিটি মূল ডেটার সাথে কিছুটা সামঞ্জস্যপূর্ণ দেখায়।
এটি ব্যাখ্যা করার জন্য দুটি গুরুত্বপূর্ণ বিষয়:
এসজিডি একটি পুনরাবৃত্তি পরিশোধন পদ্ধতিতে নির্ভর করে এবং স্থানীয় অপটিমায় আটকে যেতে পারে। বিশেষত, এটি অ্যালগরিদমের পক্ষে যে আয়াতটি মিরর করা হয়েছে তার একটি অংশ "ফ্লিপ" করা শক্ত করে তোলে, কারণ এটির জন্য পৃথক হওয়ার মতো অন্যদের মাধ্যমে চলন্ত পয়েন্টগুলির প্রয়োজন হবে। সুতরাং যদি মাছের কিছু অংশ মিরর করা হয় এবং অন্যান্য অংশগুলি মিরর করা না থাকে তবে এটি এটি ঠিক করতে অক্ষম হতে পারে।
t-SNE অভিক্ষিপ্ত স্থানে টি-বিতরণ ব্যবহার করে। নিয়মিত এসএনই দ্বারা ব্যবহৃত গাউসীয় বিতরণের বিপরীতে, এর অর্থ বেশিরভাগ পয়েন্ট একে অপরকে পিছনে ফেলে দেবে, কারণ ইনপুট ডোমেনে তাদের 0 সখ্যতা রয়েছে (গাউসিয়ান দ্রুত শূন্য হয়ে যায়), তবে> আউটপুট ডোমেনে 0 আত্মীয়তা রয়েছে। কখনও কখনও (এমএনআইএসটি হিসাবে) এটি সুন্দর ভিজ্যুয়ালাইজেশন করে। বিশেষত, এটি ইনপুট ডোমেনের চেয়ে কিছু উপাত্ত সেট করে "বিভক্ত" করতে সহায়তা করে । এই অতিরিক্ত বিকর্ষণও প্রায়শই পয়েন্টগুলিকে আরও সমানভাবে অঞ্চলটি ব্যবহার করার কারণ হয়ে দাঁড়ায়, এটিও আকাঙ্ক্ষিত হতে পারে। তবে এখানে এই উদাহরণে, প্রতিরোধের প্রভাবগুলি আসলে মাছের টুকরোগুলি পৃথক করে দেয়।
র্যান্ডম স্থানাঙ্কের (মূলত টি-এসএনই দিয়ে সাধারণত ব্যবহৃত হয়) পরিবর্তে মূল স্থানাঙ্কগুলি প্রাথমিক প্লেসমেন্ট হিসাবে ব্যবহার করে আমরা প্রথম এই সমস্যাটিতে (এই খেলনা ডেটা সেটটিতে) সহায়তা করতে পারি । এবার চিত্রটি ইএলকেআই-এর পরিবর্তে স্কলারিন, কারণ স্ক্লার্ন সংস্করণে ইতিমধ্যে প্রাথমিক সমন্বয়গুলি পাস করার জন্য একটি প্যারামিটার ছিল:
আপনি দেখতে পাচ্ছেন, এমনকি "নিখুঁত" প্রাথমিক বসানো সত্ত্বেও, টি-এসএনই মূলত সংযুক্ত কয়েকটি স্থানে মাছটিকে "বিরতি" দেবে কারণ আউটপুট ডোমেনে স্টুডেন্ট-টি বিকর্ষণ ইনপুটটিতে গাউসীয় সম্পর্কের চেয়ে শক্তিশালী is স্থান।
আপনি দেখতে পাচ্ছেন, টি-এসএনই (এবং এসএনই, এছাড়াও!) আকর্ষণীয় ভিজ্যুয়ালাইজেশন কৌশল, তবে সেগুলি সাবধানতার সাথে পরিচালনা করা দরকার। আমি পরিবর্তে কে-মানে প্রয়োগ করব না! কারণ ফলাফলটি অত্যন্ত বিকৃত হবে এবং দূরত্ব বা ঘনত্ব দুটিই ভালভাবে সংরক্ষণ করা যায় না। পরিবর্তে এটি দেখার জন্য ব্যবহার করুন।