ভিজ্যুয়ালাইজেশনের জন্য মাত্রিকতা হ্রাস টি-এসএনই দ্বারা সমাধান করা "বন্ধ" সমস্যা হিসাবে বিবেচনা করা উচিত?


23

মাত্রিকতা হ্রাসের জন্য স্নে অ্যালগরিদম সম্পর্কে আমি অনেক পড়ছি । আমি এমএনআইএসটির মতো "ক্লাসিক" ডেটাসেটের পারফরম্যান্সে খুব মুগ্ধ হয়েছি যেখানে এটি সংখ্যার স্পষ্ট বিভাজন অর্জন করে ( মূল নিবন্ধটি দেখুন ):টি

টি-এসএনই এনএনজিস্ট

আমি এটি প্রশিক্ষণ নিচ্ছিলাম এমন একটি নিউরাল নেটওয়ার্ক দ্বারা শিখে নেওয়া বৈশিষ্ট্যগুলি ভিজ্যুয়ালাইজ করার জন্যও এটি ব্যবহার করেছি এবং ফলাফলগুলি দেখে আমি খুব সন্তুষ্ট হয়েছিল।

সুতরাং, আমি এটি যেমন বুঝতে পারি:

( এন লগ এন )টি -sne এর বেশিরভাগ ডেটাসেটে ভাল ফলাফল রয়েছে এবং বার্নস-হাট আনুমানিক পদ্ধতিতে এর একটি কার্যকর দক্ষ প্রয়োগ রয়েছে । তাহলে, আমরা কি সম্ভাব্যভাবে বলতে পারি যে "মাত্রিকতা হ্রাস" সমস্যাটি কমপক্ষে ভাল 2 ডি / 3 ডি ভিজ্যুয়ালাইজেশন তৈরির উদ্দেশ্যে, এখন কি "বন্ধ" সমস্যা?হে(এনলগএন)

আমি সচেতন যে এটি একটি দুর্দান্ত সাহসী বিবৃতি। আমি এই পদ্ধতির সম্ভাব্য "ক্ষতি" কী তা বুঝতে আগ্রহী। অর্থাৎ, এমন কোনও মামলা আছে যেখানে আমরা জানি যে এটি কার্যকর নয় ? তদুপরি, এই ক্ষেত্রে "উন্মুক্ত" সমস্যাগুলি কী?

উত্তর:


16

অবশ্যই না.

আমি সম্মত হই যে টি-এসএনই একটি আশ্চর্যজনক অ্যালগরিদম যা অত্যন্ত ভালভাবে কাজ করে এবং এটি ছিল সেই সময়কার সত্যিকারের অগ্রগতি। যাহোক:

  • এর মারাত্মক ত্রুটি রয়েছে;
  • কিছু ত্রুটিগুলি সমাধানযোগ্য হতে হবে ;
  • ইতিমধ্যে কিছু অ্যালগরিদম রয়েছে যা কিছু ক্ষেত্রে লক্ষণীয়ভাবে আরও ভাল সম্পাদন করে;
  • অনেক টি-এসএনই এর সম্পত্তি এখনও খারাপভাবে বোঝা যায় না।

টি-এসএনই: https://distill.pub/2016/misread-tsne/ (+1) এর কিছু ত্রুটিগুলির এই খুব জনপ্রিয় অ্যাকাউন্টটির সাথে কেউ যুক্ত হয়েছেন তবে এটি কেবল খুব সাধারণ খেলনা ডেটাসেটগুলি নিয়ে আলোচনা করে এবং আমি দেখতে পাই যে এটির সাথে মিল নেই does টি-এসএনই এবং রিয়েল-ওয়ার্ল্ডের ডেটা সম্পর্কিত সম্পর্কিত অ্যালগরিদমগুলির সাথে কাজ করার সময় বাস্তবে যে সমস্যাগুলির মুখোমুখি হয় to উদাহরণ স্বরূপ:

  1. t-SNE প্রায়শই ডেটাসেটের বৈশ্বিক কাঠামো সংরক্ষণে ব্যর্থ হয়;
  2. এন
  3. এন

আমি নীচে তিনটি সংক্ষিপ্ত আলোচনা করব।


  1. t-SNE প্রায়শই ডেটাসেটের বৈশ্বিক কাঠামো সংরক্ষণ করতে ব্যর্থ হয়।

    অ্যালেন ইনস্টিটিউট (মাউস কর্টিকাল সেল) থেকে এই একক সেল আরএনএ-সেক ডেটাসেটটি বিবেচনা করুন: http://celltypes.brain-map.org/rnaseq/mouse । এটিতে 23 ডলার সেল রয়েছে। আমরা একটি অগ্রাধিকার জানি যে এই ডেটাসেটটির প্রচুর অর্থবহ শ্রেণিবদ্ধ কাঠামো রয়েছে এবং এটি হায়ারারিকাল ক্লাস্টারিং দ্বারা নিশ্চিত করা হয়েছে। এখানে নিউরোনস এবং নিউরাল সেল নেই (গ্লিয়া, অ্যাস্ট্রোকাইটস ইত্যাদি)। নিউরনের মধ্যে উত্তেজনাপূর্ণ এবং প্রতিরোধমূলক নিউরন রয়েছে - দুটি খুব আলাদা গ্রুপ। যেমন ইনহিবিটরি নিউরনগুলির মধ্যে বেশ কয়েকটি বড় গ্রুপ রয়েছে: প্যাভালব-এক্সপ্রেশনিং, এসএসটি-এক্সপ্রেশনিং, ভিআইপি-এক্সপ্রেশন। এই গ্রুপগুলির মধ্যে যে কোনওটিতে আরও একাধিক ক্লাস্টার রয়েছে বলে মনে হয়। এটি হায়ারারিকাল ক্লাস্টারিং ট্রিতে প্রতিফলিত হয়। তবে এখানে টি-এসএনই, উপরের লিঙ্কটি থেকে নেওয়া:

    এখানে চিত্র বর্ণনা লিখুন

    নিউ-নিউরাল সেলগুলি ধূসর / বাদামী / কালো রঙের হয়। উত্তেজনাপূর্ণ নিউরনগুলি নীল / টিল / সবুজ রঙের হয়। বাধা নিউরনগুলি কমলা / লাল / বেগুনি রঙের হয়। কেউ চাইবে যে এই বড় দলগুলি একসাথে থাকবে, তবে এটি হবে না: একবার টি-এসএনই একটি গোষ্ঠীটিকে কয়েকটি ক্লাস্টারে আলাদা করে ফেললে তারা নির্বিচারে অবস্থান নিতে পারে। ডেটাসেটের শ্রেণিবদ্ধ কাঠামোটি হারিয়ে গেছে।

    আমি মনে করি এটি একটি সমাধানযোগ্য সমস্যা হওয়া উচিত, তবে এই দিকটিতে সাম্প্রতিক কিছু কাজ করা সত্ত্বেও (আমার নিজের সহ) আমি কোনও ভাল নীতিগত বিকাশ সম্পর্কে অবগত নই।

  2. এন

    টি-এসএনই এমএনআইএসটি ডেটাতে খুব ভাল কাজ করে। তবে এটি বিবেচনা করুন ( এই কাগজ থেকে নেওয়া ):

    এখানে চিত্র বর্ণনা লিখুন

    1 মিলন ডেটা পয়েন্ট সহ, সমস্ত ক্লাস্টারগুলি একসাথে ক্লাম্পড হয়ে যায় (এর সঠিক কারণটি খুব পরিষ্কার নয়) এবং কাউন্টার-ব্যালেন্সের একমাত্র পরিচিত উপায়টি উপরে বর্ণিত কিছু নোংরা হ্যাকগুলি সহ। আমি অভিজ্ঞতা থেকে জানি যে এটি একইভাবে অন্যান্য বড় ডেটাসেটগুলির সাথেও ঘটে।

    এটি এমনিআইস্ট নিজেই (এন = 70 কে) দিয়ে তর্কযোগ্যভাবে দেখতে পাবেন। এটা দেখ:

    এখানে চিত্র বর্ণনা লিখুন

    ডানদিকে টি-এসএনই রয়েছে। বামদিকে ইউএমএপি , সক্রিয় বিকাশের অধীনে একটি নতুন আকর্ষণীয় পদ্ধতি, এটি একটি পুরানো লার্জিসের সাথে খুব মিল । ইউএমএপি / লার্জিস ক্লাস্টারগুলি আরও অনেক দূরে টান। এর সঠিক কারণটি আইএমএইচও অস্পষ্ট; আমি বলব এখানে এখনও অনেক কিছু বোঝার আছে এবং সম্ভবত উন্নতি করার জন্য অনেক কিছুই আছে।

  3. বার্নস-হাট রানটাইম বড় পক্ষে খুব ধীরএন

    এনএন

    এখানে চিত্র বর্ণনা লিখুন

    সুতরাং এটি আর কোনও উন্মুক্ত সমস্যা নাও হতে পারে তবে এটি খুব সম্প্রতি অবধি ছিল I সুতরাং কাজ অবশ্যই এই দিকে চালিয়ে যেতে পারে।


7

টি-এসএনই চালানোর সময় প্যারামিটারগুলি কীভাবে পরিবর্তিত হয় তার কয়েকটি বিশদ বিশ্লেষণ এখানে দেওয়া হয়েছে: http://distill.pub/2016/misread-tsne/ । সাধারণভাবে, টি-এসএনই উচ্চ-মাত্রিক কাঠামোগুলি (ক্লাস্টারের তুলনায় আরও জটিল সম্পর্ক সহ) স্বীকৃতি দিতে ভাল বলে মনে হচ্ছে, যদিও এটি প্যারামিটার টিউনিংয়ের সাথে সম্পর্কিত, বিশেষত বিভ্রান্তির মান।


7

আমি এখনও অন্য মন্তব্যগুলি শুনতে পছন্দ করব তবে আমি এখনই নিজের উত্তর পোস্ট করব, যেমনটি আমি এটি দেখছি। যখন আমি আরও "ব্যবহারিক" উত্তর খুঁজছিলাম, টি-স্নেয়ের জন্য দুটি তাত্ত্বিক "ডিস-সুবিধা" রয়েছে যা উল্লেখযোগ্য; প্রথমটি কম সমস্যাযুক্ত এবং দ্বিতীয়টি অবশ্যই বিবেচনা করা উচিত:

  1. টি-স্নেস্ট কস্ট ফাংশন উত্তল নয়, তাই আমাদের কোনও বৈশ্বিক সর্বোত্তম পৌঁছানোর গ্যারান্টি নেই : অন্যান্য মাত্রা হ্রাস কৌশলগুলি (আইসোম্যাপ, এলএলই) একটি উত্তল ব্যয়ের ফাংশন রয়েছে। টি-সনে ক্ষেত্রে এটি নয়, অতএব কিছু অপ্টিমাইজেশন পরামিতি রয়েছে যা "ভাল" সমাধানে পৌঁছানোর জন্য কার্যকরভাবে সুর করা দরকার to তবে, একটি সম্ভাব্য তাত্ত্বিক ক্ষতি হলেও, এটি অবশ্যই উল্লেখযোগ্য যে বাস্তবে এটি খুব কমই পতন হবে, যেহেতু মনে হয় যে টি-স্নেহিত অ্যালগরিদম আউটপরমর্মগুলির "স্থানীয় ন্যূনতম" (আরও ভাল দৃশ্যায়ন তৈরি করে) তবে অন্যান্য পদ্ধতির গ্লোবাল ন্যূনতম নূন্যতম ।

  2. স্বতন্ত্র মাত্রিকতার অভিশাপ : টি-স্ন ব্যবহার করার সময় একটি গুরুত্বপূর্ণ বিষয় মনে রাখা উচিত এটি মূলত একটি বহুগুণ শেখাঅ্যালগরিদম। মূলত, এর অর্থ টি-স্নে (এবং অন্যান্য অন্যান্য পদ্ধতি) এমন পরিস্থিতিতে কাজ করার জন্য ডিজাইন করা হয়েছে যেখানে মূল উচ্চ মাত্রিক কেবল কৃত্রিমভাবে উচ্চ: ডেটার অভ্যন্তরীণ নিম্নতর মাত্রা রয়েছে। অর্থাত্, ডেটা নিম্ন মাত্রিক বহুগুণে "বসে"। মাথায় রাখার একটি দুর্দান্ত উদাহরণ হ'ল একই ব্যক্তির পরপর ছবিগুলি: আমি পিক্সেলের সংখ্যায় (উচ্চ মাত্রা) প্রতিটি চিত্রের প্রতিনিধিত্ব করতে পারি, তথ্যের অন্তর্নির্মিত মাত্রা আসলে পয়েন্টগুলির শারীরিক রূপান্তর দ্বারা আবদ্ধ হয় (মধ্যে এই ক্ষেত্রে, মাথার 3 ডি ঘূর্ণন)। এই ক্ষেত্রে টি-স্নে ভাল কাজ করে। তবে যে ক্ষেত্রে অভ্যন্তরীণ মাত্রা বেশি, বা ডেটা পয়েন্টগুলি একটি বিবিধ আকারে বহুগুণে বসে, টি-স্নে খারাপভাবে সঞ্চালনের আশা করা হয়, যেহেতু এটি বেশিরভাগ মৌলিক ধারণা - বহুগুণে স্থানীয় রৈখিকতা লঙ্ঘিত হয়েছে।

ব্যবহারিক ব্যবহারকারীর জন্য, আমি মনে করি এটি মনে রাখার জন্য দুটি দরকারী পরামর্শকে বোঝায়:

  1. ভিজ্যুয়ালাইজেশন পদ্ধতির জন্য মাত্রিকতা হ্রাস সম্পাদন করার আগে, সর্বদা প্রথমে এটি নির্ধারণের চেষ্টা করুন যে আপনি যে ডেটা ব্যবহার করছেন তার সাথে প্রকৃতপক্ষে কোনও স্বতন্ত্র মাত্রা উপস্থিত রয়েছে কিনা ।

  2. যদি আপনি 1 (এবং এছাড়াও সাধারণভাবে) সম্পর্কে নিশ্চিত না হন তবে এটি মূল কার্যকর নিবন্ধ অনুসারে কার্যকর হতে পারে "কোনও সংখ্যায় দক্ষতার সাথে অনেকগুলি পৃথকভাবে উপস্থাপনকারী কোনও মডেল থেকে প্রাপ্ত ডেটা উপস্থাপনার জন্য টি-স্নে সঞ্চালন করা অ-লাইন স্তরগুলির, যেমন একটি অটো-এনকোডার "। সুতরাং অটো-এনকোডার + টি-স্নের সংমিশ্রণ এ জাতীয় ক্ষেত্রে ভাল সমাধান হতে পারে।


হাই @ galoosh33! আমি ভাবছি যে আপনি যদি আমার উত্তরটি একবার দেখার সুযোগ পেয়ে থাকেন তবে কি? এটি সহায়ক ছিল? আপনি যদি এই প্রশ্নটি জিজ্ঞাসা করার 1.5 বছর পরে এখনও আগ্রহী হন তবে আমার কোনও ধারণা নেই, তাই আমি কিছু প্রতিক্রিয়ার প্রশংসা করব ... আপনার নিজের গৃহীত উত্তরে আপনি বলেছিলেন যে আপনি এখনও আরও চিন্তাভাবনা শুনতে পছন্দ করবেন, তবে এটি কিছুটা ছিল সময় আগে :)
অ্যামিবা বলেছেন মনিকা পুনরায়

1
আপনার মহান উত্তরের জন্য ধন্যবাদ @ অ্যামিবা! আমি এই সপ্তাহান্তে পর্যালোচনা করব।
galoosh33
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.