টি-এসএনই ক্লাসগুলি ভালভাবে আলাদা করে দেখার পরে কারও শ্রেণীবদ্ধের অ্যালগরিদম ব্যবহার করা উচিত?


12

আসুন ধরে নেওয়া যাক আমাদের একটি শ্রেণিবদ্ধকরণ সমস্যা আছে এবং প্রথমে আমরা ডেটা থেকে কিছু অন্তর্দৃষ্টি পেতে চাই এবং আমরা টি-এসএনই করি। টি-এসএনইর ফলাফল ক্লাসগুলি খুব ভালভাবে পৃথক করে। এর দ্বারা বোঝা যায় যে শ্রেণিবদ্ধকরণ মডেল তৈরি করা সম্ভব যা ক্লাসগুলিও খুব ভালভাবে আলাদা করবে (যদি টি-এসএনই ভালভাবে আলাদা না হয় তবে এটি খুব বেশি বোঝায় না)।

টি-এসএনই স্থানীয় কাঠামোর দিকে মনোনিবেশ করে এবং এটি ক্লাসগুলি আরও ভালভাবে পৃথক করতে পারে তা জেনে: শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলি কী যা এই সমস্যাটিতে ভালভাবে কাজ করা উচিত? সাইকিট একটি গাউসিয়ান আরবিএফ কার্নেল দিয়ে এসভিএমকে পরামর্শ দিয়েছে, তবে অন্যগুলি কী?


3
(+1) কে-নিকটতম-প্রতিবেশী এক খুব সাধারণ এবং সহজেই প্রয়োগযোগ্য প্রাকৃতিক পছন্দ হতে পারে।
অ্যামিবা

উত্তর:


7

প্রথমে একটি সংক্ষিপ্ত উত্তর এবং তারপরে একটি দীর্ঘ মন্তব্য:

উত্তর

এসএনই কৌশলগুলি মূল ডেটা স্পেস এবং নিম্ন-মাত্রিক এম্বেডিং স্পেস উভয় ক্ষেত্রে একটি এন × এন মিল ম্যাট্রিক্সকে এমনভাবে গণনা করে যে মিলগুলি বস্তুর জোড়গুলির উপর সম্ভাব্যতা বন্টন গঠন করে। বিশেষত, সম্ভাব্যতাগুলি সাধারণত ইনপুট ডেটা বা এম্বেডিং থেকে গণিত একটি সাধারণ গাউসিয়ান কার্নেল দ্বারা দেওয়া হয়। শ্রেণিবিন্যাসের ক্ষেত্রে, এটি অবিলম্বে উদাহরণ-ভিত্তিক শিক্ষার পদ্ধতিগুলি মনে করে। আপনি তাদের মধ্যে একটি তালিকাভুক্ত করেছেন: এসবিএম এর আরবিএফ এর সাথে, এবং @ মিয়েবা কেএনএন তালিকাভুক্ত করেছে। এছাড়াও রেডিয়াল ভিত্তিক ফাংশন নেটওয়ার্ক রয়েছে , যা আমি কোনও বিশেষজ্ঞ নই।

মন্তব্য

এটি বলার পরে, আমি কেবলমাত্র টি-এসএনই প্লটের দিকে তাকিয়ে একটি ডেটাসেটে তথ্য তৈরির বিষয়ে দ্বিগুণ যত্নবান হব। t-SNE অগত্যা স্থানীয় কাঠামোর উপর ফোকাস করে না। তবে আপনি perplexityপ্যারামিটারটি টিউন করে এটি করার জন্য এটি সামঞ্জস্য করতে পারেন যা আপনার ডেটার স্থানীয় এবং বৈশ্বিক দিকগুলির মধ্যে কীভাবে মনোযোগ ভারসাম্য বজায় রাখবে (নিয়মিতভাবে) নিয়ন্ত্রণ করে।

এই প্রসঙ্গে, perplexityপ্রতিটি পর্যবেক্ষণে কতজন নিকটাত্মীয় প্রতিবেশী থাকতে পারে এবং ব্যবহারকারীর দ্বারা সরবরাহ করা হয় সে সম্পর্কে নিজেই অন্ধকারের ছোঁয়া। মূল কাগজ পদ বলে: "টি-Sne কর্মক্ষমতা মোটামুটি অজ্ঞানতায় নিমজ্জত পরিবর্তনের শক্তসমর্থ, এবং সাধারণত মান 5 এবং 50. মধ্যে হয়" তবে আমার অভিজ্ঞতাটি হ'ল টি-এসএনই থেকে সর্বাধিক পাওয়ার অর্থ হতে পারে বিভিন্ন বিভ্রান্তির সাথে একাধিক প্লট বিশ্লেষণ করা।

অন্য কথায়, টিউনিং learning rateএবং perplexity, একই সংখ্যক প্রশিক্ষণের পদক্ষেপের জন্য এবং একই ডেটা ব্যবহার করে খুব আলাদা দেখতে 2-ডি প্লট পাওয়া সম্ভব।

এই ডিস্টিল পেপার টি-এসএনই কীভাবে ব্যবহার করবেন তা কার্যকরভাবে টি-এসএনই বিশ্লেষণের সাধারণ ক্ষতিগুলির একটি দুর্দান্ত সংক্ষিপ্তসার দেয়। সংক্ষিপ্ত পয়েন্টগুলি হ'ল:

  1. এই হাইপারপ্যারামিটারগুলি (যেমন শিখার হার, বিভ্রান্তি) সত্যিই গুরুত্বপূর্ণ

  2. একটি টি-এসএনই প্লটে ক্লাস্টারের আকারগুলি কিছুই বোঝায় না

  3. গুচ্ছগুলির মধ্যে দূরত্বের অর্থ কোনও অর্থ নেই

  4. এলোমেলো গোলমাল সর্বদা এলোমেলো মনে হয় না।

  5. আপনি কিছু আকার দেখতে পারেন, কখনও কখনও

  6. টপোলজির জন্য আপনার একাধিক প্লটের প্রয়োজন হতে পারে

বিশেষত উপরের 2, 3, এবং 6 পয়েন্টগুলি থেকে, আমি পৃথক টি-এসএনই প্লটগুলি দেখে ডেটার পৃথকীকরণ সম্পর্কে ধারণা তৈরি করার বিষয়ে দু'বার চিন্তা করব। অনেকগুলি ক্ষেত্রেই আপনি প্লটগুলি 'উত্পাদন' করতে পারেন যা সঠিক পরামিতিগুলি ব্যবহার করে পরিষ্কার ক্লাস্টার দেখায়।


1
বার্কমিস্টার: আপনি যা লিখেছেন তা বোধগম্য। আমার সমস্যাটি বর্ণনা করা বেশ সহজ: আমি শ্রেণিবদ্ধকরণের মডেলটিকে যথাসম্ভব ভাল করতে চাই। মডেলের মান উন্নত করতে আমি কীভাবে এটি ব্যবহার করতে পারি? আমার সেরা অনুমান টি-এসএনই 'পরামর্শ' দিতে পারে যা কোন পদ্ধতি প্রদত্ত সমস্যার সাথে প্রাসঙ্গিক হতে পারে।
টোমেক তার্কিজেনস্কি

2
দয়া করে সম্পাদনা দেখুন, উদাহরণ-ভিত্তিক শেখার পদ্ধতিগুলি টি-এসএনই প্লট থেকে প্রাপ্ত কোনও ক্লুগুলির সাথে সামঞ্জস্যপূর্ণ।
ঝুবার্ব

2
(+1): উত্তরের জন্য ধন্যবাদ, আমি ঠিক এর জন্য খুঁজছিলাম। আমি উত্তর দুই দিনের মধ্যে গ্রহণ করব accept
টোমেক তার্কিজেনস্কি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.