টি-এসএনই কখন বিভ্রান্ত করছে?


37

লেখকের একজনের উদ্ধৃতি:

টি-ডিস্ট্রিবিউটড স্টোকাস্টিক নেবার এম্বেডিং (টি-এসএনই) মাত্রা হ্রাসের জন্য একটি ( পুরষ্কার-বিজয়ী ) কৌশল যা উচ্চ মাত্রিক ডেটাসেটগুলির ভিজ্যুয়ালাইজেশনের জন্য বিশেষভাবে উপযুক্ত।

সুতরাং এটি বেশ দুর্দান্ত লাগে, কিন্তু এটি লেখক কথা বলছেন।

লেখকের আর একটি উক্তি (পুনরায়: পূর্বোক্ত প্রতিযোগিতা):

আপনি এই প্রতিযোগিতা থেকে কি দূরে সরিয়ে নিয়েছেন?
আপনি ডেটাতে ভবিষ্যদ্বাণীদের প্রশিক্ষণ দেওয়া শুরু করার আগে সর্বদা আপনার ডেটাটিকে প্রথমে ভিজ্যুয়ালাইজ করুন! প্রায়শই, ভিজুয়ালাইজেশন যেমন আমার তৈরি করা ডেটা বিতরণের অন্তর্দৃষ্টি দেয় যা কোন ধরণের পূর্বাভাস মডেলগুলি চেষ্টা করে তা নির্ধারণ করতে আপনাকে সহায়তা করতে পারে।

তথ্য 1 টি হারিয়ে যেতে হবে - এটি পুরোপুরি একটি মাত্রিকতা হ্রাস কৌশল technique তবে ভিজ্যুয়ালাইজ করার সময় এটি যেহেতু ব্যবহারের জন্য একটি ভাল কৌশল, তাই হারিয়ে যাওয়া তথ্য হাইলাইট করা তথ্যের চেয়ে কম মূল্যবান (/ তৈরি করা 2/3 মাত্রার হ্রাসের মাধ্যমে উপলব্ধ / উপলব্ধ)।

সুতরাং আমার প্রশ্নটি হ'ল:

  • টিএসএনই কখন কাজের জন্য ভুল সরঞ্জাম?
  • কী ধরণের ডেটাসেটগুলি এটি কাজ না করার কারণ করে,
  • এটি কি ধরণের প্রশ্নের উত্তর বলে মনে হচ্ছে তবে এটি আসলে তা দিতে পারে না?
  • উপরের দ্বিতীয় উদ্ধৃতিতে সর্বদা আপনার ডেটাসেটটি কল্পনা করার পরামর্শ দেওয়া হয়, এই ভিজ্যুয়ালাইজেশনটি কি সবসময় টিএসএনই দিয়ে করা উচিত?

আমি প্রত্যাশা করি যে এই প্রশ্নের উত্তরের কথোপকথনে সবচেয়ে ভাল উত্তর দেওয়া যেতে পারে, যেমন উত্তর দেওয়া: কখন কাজের জন্য টিএসএনই সঠিক সরঞ্জাম?


আমাকে কীভাবে সহজ ডেটা শ্রেণিবদ্ধযোগ্য হবে (ক্লাসে বিভক্ত - একটি বৈষম্যমূলক মডেল) তা বলার জন্য আমাকে টিএসএনইয়ের উপর নির্ভর না করার জন্য সতর্ক করা হয়েছে এটির বিভ্রান্তিকর উদাহরণটি হ'ল, নীচের দুটি চিত্রের জন্য, একটি জেনারেটরি মডেল 2 আরও খারাপ ছিল দ্বিতীয় / ডান (নির্ভুলতা 67.2%) এর সমতুল্য একের চেয়ে প্রথম / বামে (নির্ভুলতা 53.6%) ভিজ্যুয়ালাইজ করা তথ্যের জন্য

প্রথম দ্বিতীয়


1 আমি এই সম্পর্কে ভুল হতে পারি আমি বসে থাকতে পারি এবং পরে কোনও প্রমাণ / পাল্টা উদাহরণ চেষ্টা করতে পারি

2 দ্রষ্টব্য যে জেনারেটরি মডেলটি বৈষম্যমূলক মডেলের মতো নয়, তবে এটি আমার দেওয়া উদাহরণ।


1
AB|A|=|B||N|=|Nn|=0|R|=|R|=|Rn|=1R2R

@ লুকাস: আহ, অবশ্যই (আমি কীভাবে তা বুঝতে পারি নি)
লিন্ডন হোয়াইট

আপনি কোন জেনারেটাল মডেলটি চেষ্টা করছেন?
ওয়েইচিং লিন

@ ওয়েই-চিংলিন আমি নিশ্চিত না যে কী ধরণের জেনারেটরি মডেল ব্যবহৃত হয়েছিল। সম্ভবত একধরনের ডিপ বিলিফ নেটওয়ার্ক, ডিপ বোল্টজমান মঞ্চাইন বা অটেনকোডার। প্রশ্নের হৃদয়ের সাথে সত্যই প্রাসঙ্গিক নয়
লন্ডন হোয়াইট

উত্তর:


13

টি-স্নে হ্রাস করার কৌশল যা স্থানের ছোট স্কেল কাঠামো (অর্থাত্ বিশেষত কোনটির নিকটে কী) বজায় রাখে, যা এটি ডেটা পৃথককরণের দৃশ্যায়নে খুব ভাল করে তোলে। এর অর্থ এই যে টি-স্নে ডেটা পৃথককরণের ডিগ্রি বোঝার জন্য প্রাথমিকভাবে দৃশ্যমানকরণের জন্য বিশেষভাবে কার্যকর। অন্যান্য কৌশলগুলি (পিসিএ উদাহরণস্বরূপ) মাত্রা অদৃশ্য হওয়ার সাথে একে অপরের উপরে প্রস্তাবিত নিম্ন মাত্রিক উপস্থাপনায় ডেটা ছেড়ে যায়, যা উচ্চতর মাত্রিক স্থানটিতে পৃথকীকরণ সম্পর্কে কোনও স্পষ্ট বক্তব্য তৈরি করা খুব কঠিন করে তোলে।

সুতরাং উদাহরণস্বরূপ, যদি আপনি প্রচুর ওভারল্যাপিং ডেটা সহ একটি টি-স্নেহ গ্রাফ পান তবে আপনার পক্ষে শ্রেণীবদ্ধকারী খারাপ কাজ করতে পারে তা আপনার পক্ষে যথেষ্ট নয়, আপনি যা-ই করেন না কেন। বিপরীতে, যদি আপনি টি-স্নেহ গ্রাফে স্পষ্টভাবে পৃথক করা ডেটা দেখতে পান তবে অন্তর্নিহিত, উচ্চ-মাত্রিক ডেটাতে একটি ভাল শ্রেণিবদ্ধ গঠনের পর্যাপ্ত পরিবর্তনশীলতা রয়েছে।


3
ধন্যবাদ টি-এসএনই কী, এটির একটি খুব ভাল ব্যাখ্যা। তবে আমি আমার আসল প্রশ্নের উত্তর দেখতে পাচ্ছি না (শুরুর পোস্টের ডট পয়েন্ট দেখুন))
লিন্ডন হোয়াইট

5
এটি প্রশ্নের কোনও উত্তর দেয় না।
অ্যামিবা বলছেন মনিকাকে

10

বাক্সের বাইরে, টিএসএনইতে কয়েকটি হাইপারপ্যারামিটার রয়েছে, যার মধ্যে প্রধানটি হতাশ। মনে রাখবেন যে তাত্পর্যপূর্ণভাবে, বিভ্রান্তি টিএসএনইয়ের জন্য মিলের ধারণাটিকে সংজ্ঞায়িত করে এবং সমস্ত ডেটা পয়েন্টগুলির জন্য একটি সর্বজনীন বিভ্রান্তি ব্যবহৃত হয়। আপনি একটি লেবেলযুক্ত ডেটাসেট জেনার চেষ্টা করতে পারেন যেখানে প্রতিটি ক্লাস্টারে বীভৎসভাবে বিভিন্ন বিভ্রান্তি রয়েছে। এটি বিভিন্ন বৈকল্পিকের বিস্তৃত আকারের গাউসিয়ানদের মিশ্রণটি দ্বারা সম্পন্ন করা যায়। আমি অনুমান করছি যে এটি বার্সা-হাট টিএসএনই প্রয়োগের ক্ষেত্রেও সমস্যা সৃষ্টি করবে, যা কেবলমাত্র কোটালিটিং ডেটা এবং কেবলমাত্র নিকটবর্তী প্রতিবেশীদের ব্যবহারের উপর নির্ভর করে। tSNE এর একটি প্রাথমিক শিথিল সময়কালও রয়েছে, যা একে অপরের মাধ্যমে ক্লাস্টারগুলি পাস করার চেষ্টা করে। এই সময়কালে, কোনও জরিমানা বা বিকর্ষণ হয় না। সুতরাং উদাহরণস্বরূপ, যদি আপনার ডেটা নুডলসের একটি ম্যাটেড ক্লাম্প (প্রতিটি নুডল একটি প্রদত্ত ক্লাস্টারের প্রতিনিধিত্ব করে) দেখায়, আপনি ' প্রাথমিক পাসটি ক্যালিব্রেট করার জন্য খুব কঠিন সময় আসবে এবং আমি সন্দেহ করি যে টিএসএনই ভালভাবে কাজ করবে। কিছুটা অর্থে আমি মনে করি যে এই তথ্যগুলি টিএসএনই ভাল কাজ করবে না যদি আপনার ডেটা একসাথে বোনা হয় এবং প্রাথমিকভাবে স্বল্প মাত্রায় থাকে তবে 5 বলুন।

t

k

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.