টি-এসএনই কেন ক্লাস্টারিং বা শ্রেণিবিন্যাসের জন্য মাত্রিকতা হ্রাস কৌশল হিসাবে ব্যবহৃত হয় না?


34

সাম্প্রতিক একটি কার্যভারে, আমাদের এমএনআইএসটি সংখ্যাগুলিতে পিসিএ ব্যবহার করতে মাত্রাটি হ্রাস করতে x৪ (৮ x 8 চিত্র) থেকে ২ এ নামিয়ে আনতে বলা হয়েছিল। তারপরে আমাদের গাউসীয় মিশ্রণ মডেল ব্যবহার করে অঙ্কগুলি ক্লাস্টার করতে হয়েছিল। কেবলমাত্র 2 প্রধান উপাদান ব্যবহার করে পিসিএ পৃথক ক্লাস্টার দেয় না এবং ফলস্বরূপ মডেল দরকারী গ্রুপিং উত্পাদন করতে সক্ষম হয় না।

তবে 2 টি উপাদান সহ টি-এসএনই ব্যবহার করে, ক্লাস্টারগুলি আরও ভালভাবে পৃথক করা হয়েছে। টি-এসএনই উপাদানগুলিতে প্রয়োগ করা হলে গাউসিয়ান মিশ্রণ মডেল আরও স্বতন্ত্র ক্লাস্টার উত্পাদন করে।

2 উপাদানগুলির সাথে পিসিএর পার্থক্য এবং 2 উপাদানগুলির সাথে টি-এসএনই নিম্নলিখিত চিত্রের জোড়ায় দেখা যেতে পারে যেখানে এমএনআইএসটি ডেটাসেটে রূপান্তরগুলি প্রয়োগ করা হয়েছে।

এমএনআইস্টে পিসিএ

এমএনআইএসটিতে টি-এসএনই

আমি পড়েছি যে টি-এসএনই কেবলমাত্র উচ্চ মাত্রিক ডেটা দেখার জন্য ব্যবহৃত হয় যেমন এই উত্তরে এখনও তার উত্থাপিত পৃথক ক্লাস্টার দেওয়া হয়েছে কেন এটি একটি মাত্রিকতা হ্রাস কৌশল হিসাবে ব্যবহৃত হয় না যা পরে শ্রেণিবদ্ধকরণের মডেলগুলির জন্য বা হিসাবে ব্যবহৃত হয় একক ক্লাস্টারিং পদ্ধতি?


2
আপনি শ্রেণীবদ্ধ বা ক্লাস্টারিং বলতে চান? শিরোনাম ক্লাস্টারিং বলে তবে পোস্টটি শ্রেণিবিন্যাস বলে।
ইউএসআর 11852 18:25 এ পুনরায় ইনস্টল মনিক

এর জন্যে দুঃখিত. আমি কেন এটি ক্লাস্টারিং কৌশল হিসাবে বা শ্রেণিবদ্ধকরণের জন্য একটি মাত্রিকতা হ্রাস কৌশল হিসাবে ব্যবহৃত হয় না তা জানতে চাই। আমি এটি প্রতিফলিত করতে সম্পাদনা করেছি।
উইল

কাকতালীয়ভাবে যথেষ্ট, সম্প্রতি প্রকাশিত একটি কাগজ টি-এসএনই এবং একটি নিরীক্ষণযোগ্য ক্লাস্টারিং অ্যালগরিদমকে দহন প্রক্রিয়াগুলির লেবেল ব্যবহার করে।
tpg2114

2
আপনার লিঙ্ক করা উত্তরটি টিএসএনই কী বিভ্রান্তিকর হতে পারে তা তা দেখায়। আপনি প্লটে ক্লাস্টারগুলি দেখতে পাচ্ছেন যা ডেটাতে নেই। যদি আপনার লেবেল না থাকে তবে এটি ক্ষতিকারক। এবং এমএনআইএসটি তথ্য থেকে খুব বেশি উপসংহার টানবেন না। এটি একটি অত্যন্ত ভাল আচরণের উপাত্ত সেট ...
অ্যানি-মৌসে

1
আমি এই নিবন্ধটি টি-এসএনই এবং এর ত্রুটিগুলি ব্যাখ্যা করতে সহায়ক বলে মনে করেছি । এটিতে প্রচুর ইন্টারেক্টিভ ভিজ্যুয়ালাইজেশন রয়েছে যা মূল পয়েন্টগুলিকে জোর দেয়।
উইল

উত্তর:


33

প্রধান কারণ যে -SNE শ্রেণীবিন্যাস মডেল ব্যবহার করা হয় না যে এটা না নতুন (নিম্ন) মাত্রিক এক মূল স্থান থেকে একটি ফাংশন শিখতে। যেমনটি, যখন আমরা নতুন / অদেখা তথ্যে আমাদের শ্রেণিবদ্ধ ব্যবহার করার চেষ্টা করব আমরা পূর্ববর্তী এসএনই ফলাফল অনুসারে এই নতুন ডেটা ম্যাপ / প্রাক-প্রক্রিয়া করতে সক্ষম হব না ।tটিটি

আনুমানিক এসএনই ফলাফলের (যেমন, "প্যারামেট্রিক" এসএনই পেপার) একটি গভীর স্নায়বিক নেটওয়ার্ক প্রশিক্ষণের কাজ চলছে তবে এই কাজটি (গভীর) অটোএনকোডারগুলির অস্তিত্বের ফলে একদম ছাড়িয়ে গেছে । শ্রেণিবদ্ধকারীদের (বিশেষত ডিএনএন) ইনপুট / প্রাক-প্রসেসর হিসাবে অটেনকোডারগুলি ব্যবহার করা শুরু হচ্ছে ঠিক কারণ তারা প্রশিক্ষণে খুব ভাল পারফরম্যান্স পাওয়ার পাশাপাশি নতুন ডেটাতে প্রাকৃতিকভাবে সাধারণীকরণ করে।tটিটি

tটি -SNE সম্ভাব্যভাবে ব্যবহার করা যেতে পারে যদি আমরা এফএমএম (ফিনাইট মিশ্রণ মডেলস ) বা ডিবিএসসিএএন ( ঘনত্ব ভিত্তিক মডেলস ) মতো একটি দূরত্ব ভিত্তিক ক্লাস্টারিং কৌশল ব্যবহার করি । আপনি যেমন সঠিকভাবে লক্ষ্য করেছেন, এই জাতীয় ক্ষেত্রে এসএনই আউটপুট বেশ সহায়ক হতে পারে। এই ব্যবহারের ক্ষেত্রে সমস্যাটি হ'ল কিছু লোকেরা কেবল ক্লাস্টারের সদস্যতা নয়, ক্লাস্টার প্লেসমেন্টটি পড়ার চেষ্টা করতে পারে। বিশ্বব্যাপী দূরত্বগুলি নষ্ট হওয়ার সাথে সাথে, ক্লাস্টার প্লেসমেন্ট থেকে সিদ্ধান্তগুলি আঁকলে বোগাস অন্তর্দৃষ্টি হতে পারে। লক্ষ্য করুন যে কেবল বলেছেন: " আরে, আমরা সমস্ত এস ক্লাস্টার একসাথে পেয়েছি " তারা যদি খুব দূরের কথা বলতে না পারে তবে দুর্দান্ত মান দেয় না। আমরা যদি সন্ধান করতে চাইতামটি11এর পাশাপাশি আমরা শুরু করার জন্য শ্রেণিবিন্যাসটি ব্যবহার করতে পারি (যা আমাদের অটোরকোডারের ব্যবহারে ফিরিয়ে আনে)।


1
প্রশ্নটি শ্রেণিবিন্যাসের চেয়ে ক্লাস্টারিংয়ের বিষয়ে আরও জিজ্ঞাসা করে বলে মনে হচ্ছে। কমপক্ষে ক্লাস্টারিং শিরোনামে রয়েছে।
অ্যামিবা

@ অ্যামিবা: আমিও একই ধারণা করেছিলাম এবং অ-দূরত্ব ভিত্তিক ক্লাস্টারিংয়ের মাধ্যমে সম্ভাব্য ব্যবহার সম্পর্কে লিখেছিলাম (উদাঃ এফএমএম, ডিবিএসসিএন), তবে আমি এই প্রশ্নটি পড়েছিলাম: " কেন এটি একটি মাত্রিকতা হ্রাস কৌশল হিসাবে ব্যবহার করা হয় না যা পরে শ্রেণিবদ্ধকরণের জন্য ব্যবহৃত হয়? মডেল? "
usεr11852 18: 26 এ পুনরায় ইনস্টল মনিক

হ্যাঁ, তবে শিরোনাম Q আলাদা। আমি মনে করি ওপি পার্থক্য সম্পর্কে বিভ্রান্ত হতে পারে তাই এটি আপনার A তে উভয়কেই সম্বোধন করা বুদ্ধিমান হতে পারে !
অ্যামিবা বলেছেন মোনিকা

4
ঠিক আছে .. ঠিক আছে ... স্লেভ-ড্রাইভিং
ইউকারিয়োট

1
(+1) আমি এই ক্লাস্টারিং / টি- এসএনই উত্তরের stats.stackexchange.com/questions/263539 সম্পর্কে আপনার মতামত শোনার জন্য আগ্রহী । সিসি @ কেস ওয়েস্টার্নেও - এটি আপনার পক্ষেও আগ্রহী হতে পারে।
অ্যামিবা বলছে মনিকাকে

3

t-SNE দূরত্ব সংরক্ষণ করে না, তবে এটি মূলত সম্ভাবনা বন্টন অনুমান করে। তত্ত্ব অনুসারে, টি-এসএনই অ্যালগরিদমগুলি ইনপুটটিকে 2 বা 3 মাত্রার মানচিত্রের স্থানটিতে ম্যাপ করে। ইনপুট স্থানটি গাউসীয় বিতরণ এবং মানচিত্রের স্থানটিকে টি-বিতরণ বলে মনে করা হয়। ব্যবহৃত ক্ষতির ফাংশন হ'ল দুটি ডিস্ট্রিবিউশনের মধ্যে কেএল ডাইভারজেন্স যা গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করে হ্রাস করা হয়।

লরেন্সের মতে ভ্যান ডার মাটেন যিনি টি-এসএনই-র সহ-লেখক

t-SNE দূরত্ব বজায় রাখে না তবে সম্ভাবনা থাকে তাই হাই-ডি এবং লো-ডি-তে ইউক্লিডিয়ান দূরত্বগুলির মধ্যে কিছু ত্রুটি পরিমাপ করা অকেজো।

রেফারেন্স:

https://lvdmaaten.github.io/tsne/

https://www.oreilly.com/learning/an-illustrated-introduction-to-the-t-sne-algorithm


2

সাধারণ বিবৃতি হিসাবে: পর্যাপ্ত শক্তিশালী (/ উপযুক্ত) শ্রেণিবদ্ধ বা ক্লাস্টার-এর দেওয়া, কেউ কখনও কোনও মাত্রিক হ্রাস প্রয়োগ করতে পারে না ।

মাত্রা হ্রাস তথ্য হারাতে।

যেহেতু এই ধরনের একটি ক্লাস্টার-এআর বা শ্রেণিবদ্ধকারী (esp শ্রেণিবদ্ধ, কম তাই গুচ্ছ), অভ্যন্তরীণভাবে ইতিমধ্যে একটি অর্থবহ স্থানের জন্য কিছু ফর্ম প্রজেকশন অন্তর্ভুক্ত করে। এবং মাত্রা হ্রাস হ'ল একটি (আশাব্যঞ্জক) অর্থপূর্ণ স্থানের প্রক্ষেপণ jection

তবে মাত্রিকতা হ্রাস একটি অজ্ঞাত পদ্ধতিতে এটি করতে হবে - আপনি কোন কাজের জন্য হ্রাস করছেন তা তা জানে না। এটি শ্রেণিবিন্যাসের জন্য বিশেষত সত্য, যেখানে আপনার খালি তদারকি করা তথ্য রয়েছে। তবে এটি ক্লাস্টারিংয়ের ক্ষেত্রেও প্রযোজ্য, যেখানে ক্লাস্টারিংয়ের জন্য যে স্থানটি বলতে চাইবে সেটি কেবল "কম মাত্রা থাকতে হবে" এর চেয়ে ভাল (এই অ্যালগরিদমের জন্য) সংজ্ঞায়িত করা হবে। @ ইউএসআর 11852 এর উত্তরটি এ সম্পর্কে কথা বলেছে। যেমন আমি বলেছিলাম যে মাত্রিকতা হ্রাস কী জানেন না আপনি যে কার্যটির জন্য হ্রাস করছেন - আপনি কোন মাত্রার হ্রাস অ্যালগরিদমটি ব্যবহার করবেন তা আপনার পছন্দকে জানিয়ে দিন।

ক্লাস্টারিং / শ্রেণিবিন্যাসের আগে প্রিপ্রোসেসিং হিসাবে মাত্রিক মাত্রা হ্রাসের ধাপ যুক্ত করার চেয়ে প্রায়শই একটি পৃথক শ্রেণিবদ্ধ / ক্লাস্টার-এআর ব্যবহার করা ভাল যা একটি কার্যকর প্রজেকশনকে অন্তর্ভুক্ত করে।

এটিতে একটি মাত্রার মাত্রিক হ্রাস হ'ল যদিও এটি (আশাবাদী) অর্থবোধক স্থানের জন্য প্রক্ষেপণ তৈরি করার ক্ষেত্রে এটির নিষ্ক্রিয় প্রকৃতি। আপনার কাছে অল্প লেবেল ডেটা থাকলে কোনটি কার্যকর। তবে প্রায়শই এমন অন্যান্য পদ্ধতি রয়েছে যা আপনার শ্রেণিবদ্ধের সাথে ঘনিষ্ঠভাবে জড়িত (যেমন স্নায়ু নেটওয়ার্কগুলির জন্য, অটোরকোডার ব্যবহার করে উদাহরণস্বরূপ গভীর বিশ্বাস নেটওয়ার্ক প্রাকট্রাইনিং) আরও ভাল কাজ করতে চলেছে, কারণ সেগুলি চূড়ান্ত কার্যটি মাথায় রেখে তৈরি করা হয়েছে। মাত্রা হ্রাস আরও সাধারণ কাজ নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.