নিকটতম প্রতিবেশী কি টি-এসএনই দিয়ে কোনও ধারণা রাখে?


10

এখানে উত্তরগুলি বলেছে যে টি-এসএনই-র মাত্রাগুলি অর্থহীন এবং পয়েন্টগুলির মধ্যে দূরত্বগুলি মিলের পরিমাপ নয়

তবে, আমরা টি-এসএনই স্থানের নিকটতম প্রতিবেশীদের ভিত্তিতে একটি পয়েন্ট সম্পর্কে কিছু বলতে পারি? যে পয়েন্টগুলি হুবহু একইরূপে ক্লাস্টার করা হয় না তার এই উত্তরটি নির্দেশ করে যে পয়েন্টগুলির মধ্যে দূরত্বের অনুপাতটি নিম্ন এবং উচ্চতর মাত্রিক উপস্থাপনার মধ্যে সমান।

উদাহরণস্বরূপ, নীচের চিত্রটি আমার একটি ডেটাসেটের (15 ক্লাস) টি-এসএনই দেখায়।

আমি কি বলতে পারি যে cro 479(উপরের ডানদিকে) একটি আউটলেটর? Is fra 1353(নিচে বামদিকে) আরো অনুরূপ cir 375অন্যান্য ইমেজ চেয়ে fraবর্গ, ইত্যাদি? অথবা এগুলি কি কেবল প্রত্নতত্ত্ব হতে পারে, যেমন fra 1353কয়েকটি ক্লাস্টারের অন্য দিকে আটকে গিয়ে অন্য fraশ্রেণিতে যেতে বাধ্য করতে পারে না ?

এখানে চিত্র বর্ণনা লিখুন



উত্তর:


8

না, এটি প্রয়োজন হয় না যে এটি এই ক্ষেত্রে, তবে এটি একটি বিভ্রান্ত উপায়ে টি-এসএনইর লক্ষ্য।

উত্তরের মাংসে Beforeোকার আগে, আসুন আমরা গণিত এবং স্বজ্ঞাতভাবে কিছু প্রাথমিক সংজ্ঞা দেখি at

নিকটতম প্রতিবেশীদের : বিবেচনা করুন একটি মেট্রিক স্থান এবং ভেক্টর একটি সেট , একটি নতুন ভেক্টর দেওয়া , আমরা যেমন পয়েন্টগুলি সন্ধান করতে চাই। স্বজ্ঞাতভাবে, এটি এর আদর্শের উপযুক্ত সংজ্ঞা ব্যবহার করে দূরত্বের সর্বনিম্নতম ।RdX1,...,XnRdxRd||X1x||...||Xnx||Rd

মাত্রা হ্রাস প্রয়োগের সময় নিকটতম প্রতিবেশী প্রকৃতপক্ষে গুরুত্বপূর্ণ কিনা তা এখন আসছেন। সাধারণত আমার উত্তরে আমি গণিত, কোড এবং অন্তর্দৃষ্টি দিয়ে কিছু যুক্তিযুক্ত করার ইচ্ছা করি। আসুন প্রথমে বিষয়গুলির স্বজ্ঞাত দিকটি বিবেচনা করি। আপনি যদি একটি বিন্দু যে দূরত্বে থাকে তাহলে অন্য বিন্দু থেকে দূরে টি-Sne অ্যালগরিদম আমরা জানি যে এই দূরত্ব হিসাবে আমরা উচ্চতর মাত্রা মধ্যে রূপান্তর সংরক্ষিত আছে আমাদের বোঝার থেকে। আসুন আমরা আরও ধরে নিই যে একটি বিন্দু কিছু মাত্রার মধ্যে নিকটতম প্রতিবেশী । সংজ্ঞা অনুসারে, এবং দূরত্বের মধ্যে একটি সম্পর্ক রয়েছেdyxddd+k। সুতরাং, আমাদের আমাদের স্বজ্ঞাততা রয়েছে যা হ'ল দূরত্বটি বিভিন্ন মাত্রা ধরে রাখা হয় বা কমপক্ষে, আমরা লক্ষ্য করি এটিই। আসুন কিছু গণিত দিয়ে এটি ন্যায়সঙ্গত করার চেষ্টা করি।

এই উত্তরে আমি টি-স্নে জড়িত গণিত সম্পর্কে কথা বলি, তবুও বিশদভাবে নয় ( টি-এসএনই: সমান ডাটা মানগুলি কেন দৃশ্যত বন্ধ নয়? )। এখানে গণিতটি কী, মূলত সম্ভাবনা সর্বাধিকতর করে তুলছে যে দুটি বিন্দু একটি অনুমানিত স্থানে কাছাকাছি থাকবে কারণ তারা ধরে নিচ্ছে যে পয়েন্টগুলির বন্টনটি ব্যয় বহনযোগ্য। সুতরাং, এই সমীকরণটির দিকে তাকিয়ে। লক্ষ্য করুন যে সম্ভাবনা দুটি পয়েন্টের মধ্যকার দূরত্বের উপর নির্ভরশীল, সুতরাং তারা যত বেশি পৃথক হবে ততই তারা পৃথক পৃথক পৃথক স্থান পাবে কারণ তারা নিম্ন মাত্রার প্রবণতা পাবে। লক্ষ্য করুন যে তারা যদি farpj|i=exp(||xjxi||22σ2)kiexp(||xjxi||22σ2)Rk, সম্ভাব্য মাত্রায় তারা কাছাকাছি থাকবে না এমন একটি ভাল সুযোগ রয়েছে। সুতরাং, এখন আমাদের কাছে গাণিতিক যুক্তি রয়েছে যে পয়েন্টগুলি "কেন" কাছে থাকা উচিত। তবে আবার, যেহেতু এটি একটি তাত্পর্যপূর্ণ বিতরণ, যদি এই পয়েন্টগুলি উল্লেখযোগ্যভাবে দূরে থাকে তবে নিকটবর্তী প্রতিবেশীদের সম্পত্তি রক্ষণাবেক্ষণের কোনও গ্যারান্টি নেই, যদিও, এটিই লক্ষ্য।

এখন অবশেষে একটি ঝরঝরে কোডিং উদাহরণ যা এই ধারণাটিও প্রদর্শন করে।

from sklearn.manifold import TSNE
from sklearn.neighbors import KNeighborsClassifier
X = [[0],[1],[2],[3],[4],[5],[6],[7],[8],[9]]
y = [0,1,2,3,4,5,6,7,8,9]
neighs = KNeighborsClassifier(n_neighbors=3)
neighs.fit(X, y)
X_embedded = TSNE(n_components=1).fit_transform(X)
neighs_tsne = KNeighborsClassifier(n_neighbors=3)
neighs_tsne.fit(X_embedded, y)
print(neighs.predict([[1.1]]))
>>>[0]
print(neighs_tsne.predict([[1.1]]))
>>>[0]

যদিও এটি খুব নিষ্পাপ উদাহরণ এবং জটিলতার প্রতিফলন ঘটায় না, এটি কিছু সাধারণ উদাহরণের জন্য পরীক্ষামূলকভাবে কাজ করে।

সম্পাদনা: এছাড়াও, প্রশ্নটি নিজেই সম্মানের সাথে কিছু বিষয় যুক্ত করা প্রয়োজন, সুতরাং এটি প্রয়োজন হয় না যে এটি ক্ষেত্রে এটিই হতে পারে, তবে এটি গণিতের মাধ্যমে যুক্তিযুক্ত প্রমাণিত করবে যে আপনার কোনও ठोस ফলাফল নেই (কোনও নির্দিষ্ট হ্যাঁ বা না) ।

আমি আশা করি এটি টিএসএনই দিয়ে আপনার উদ্বেগের কিছুটা সমাধান করেছে।


ভাল উত্তরের জন্য ধন্যবাদ। সংক্ষিপ্তসার হিসাবে: যে পয়েন্টগুলির উচ্চতর মিল রয়েছে তাদের নিকটে থাকার উচ্চ সম্ভাবনা রয়েছে। আমি অনুমান করছি যে বিভ্রান্তি পরামিতি সম্ভাবনা গণনার জন্য কতগুলি পয়েন্ট ব্যবহৃত হয় তা নিয়ন্ত্রণ করে, তাই জটিলতা কম থাকলে ক্লাস্টাররা বিচ্ছিন্ন হয়ে উঠতে পারে। আপনি কি খুব তাড়াতাড়ি অত্যুক্তি মন্তব্য করতে পারেন? এছাড়াও, আমি ধরে নিচ্ছি যে পয়েন্টগুলি টিএসএনই স্থানটি বহিরাগত বা ভুল শ্রেণিবদ্ধ (তাদের সমস্ত এনএন থাকায়) থাকার সম্ভাবনাটি বৃদ্ধি পাবে, যদি এলোমেলো সূচনা সহ একাধিক টিএসএনইয়ের পরে তারা সামঞ্জস্য হয়?
জ্যামিতিকাল

হ্যাঁ, উদ্বেগ একটি প্রধান কারণ যা পয়েন্টগুলি একে অপরের কাছে কীভাবে থাকে তা প্রভাবিত করে। প্রারম্ভিক অতিরঞ্জিততা, স্বজ্ঞাতভাবে হ'ল মূল স্থানটিতে কতটা আঁটসাঁটা ক্লাস্টার রয়েছে এবং এম্বেড করা জায়গাতে তাদের মধ্যে কতটা জায়গা থাকবে (তাই এটি বিভ্রান্তি এবং প্রারম্ভিক অতিরঞ্জিত উভয়ের মিশ্রণ যা পয়েন্টগুলির মধ্যে দূরত্বকে প্রভাবিত করে। আপনার শেষ প্রশ্নটি সম্পর্কে উত্তর হ্যাঁ, এটি আদর্শের
ক্ষয়ক্ষতির
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.