টি-এসএনইয়ের আউটপুটটিতে ক্লাস্টারিং


77

আমি একটি অ্যাপ্লিকেশন পেয়েছি যেখানে ক্লাস্টারগুলির মধ্যে উপগোষ্ঠী প্রভাবগুলি সন্ধান করার আগে এটি একটি গোলমাল ডেটাसेट ক্লাস্টার করা সহজ হবে। আমি প্রথমে পিসিএর দিকে নজর দিয়েছি, তবে 90% পরিবর্তনশীলতা পেতে 30 ডলার উপাদান লাগে, সুতরাং পিসির মাত্র দু'একজনকে ক্লাস্টিং করা অনেক তথ্য ফেলে দেয়।

আমি তখন টি-এসএনই (প্রথমবারের জন্য) চেষ্টা করেছিলাম, যা আমাকে দুটি মাত্রায় একটি বিজোড় আকার দেয় যা কে-মাধ্যমের মাধ্যমে ক্লাস্টারিংয়ের জন্য খুব অনুকূল। আরও কী, ক্লাস্টার অ্যাসাইনমেন্ট সহ ডেটাগুলিতে একটি এলোমেলো বন চালানো ফলাফল হিসাবে ফলাফলগুলি দেখায় যে কাঁচা তথ্য তৈরির ক্ষেত্রে ভেরিয়েবলগুলির ক্ষেত্রে ক্লাস্টারগুলির সমস্যার প্রেক্ষাপটে একটি যথেষ্ট বুদ্ধিমান ব্যাখ্যা রয়েছে।

তবে আমি যদি এই গুচ্ছগুলিতে রিপোর্ট করতে যাচ্ছি, তবে আমি কীভাবে সেগুলি বর্ণনা করব? মূল উপাদানগুলিতে কে-মানে ক্লাস্টারগুলি ডেটাসেটের ভেরিয়েন্সের X% সমন্বিত ডেরাইভেড ভেরিয়েবলের ক্ষেত্রে যারা একে অপরের নিকটবর্তী ব্যক্তিদের প্রকাশ করে। টি-এসএনই গুচ্ছ সম্পর্কে কী সমমানের বিবৃতি দেওয়া যেতে পারে?

এর প্রভাব সম্ভবত কিছু:

t-SNE একটি অন্তর্নিহিত উচ্চ-মাত্রিক বহুগুণে আনুমানিক স্বাচ্ছন্দ্য প্রকাশ করে, তাই উচ্চ মাত্রিক স্থানের নিম্ন-মাত্রিক উপস্থাপনার উপর ক্লাস্টারগুলি "সম্ভাবনা" সর্বাধিক করে তোলে যে সংঘবদ্ধ ব্যক্তি একই ক্লাস্টারে থাকবে না

এর চেয়ে ভাল ব্লারব কি কেউ প্রস্তাব করতে পারে?


1
আমি ভাবতাম যে কৌশলটি হ'ল স্থানের ভেরিয়েবলের পরিবর্তে মূল ভেরিয়েবলগুলির উপর ভিত্তি করে গুচ্ছগুলিকে বর্ণনা করা।
টিম

1
ডানদিকে, তবে ক্লাস্টার অ্যাসাইনমেন্ট অ্যালগরিদম কী উদ্দেশ্যে হ্রাস করে তার একটি সংক্ষিপ্ত, স্বজ্ঞাত বিবরণ অনুপস্থিত, আমি ক্লাস্টারিং অ্যালগরিদম বাছাইয়ের অভিযোগে মুক্ত থাকতে পারি যা আমার পছন্দসই ফলাফলগুলি অর্জন করতে সহায়তা করে।
জেনেরিক_উজার

উত্তর:


94

টি-এসএনইর সমস্যাটি হ'ল এটি দূরত্ব বা ঘনত্ব সংরক্ষণ করে না। এটি কেবল কিছুটা নিকটবর্তী-প্রতিবেশীদের সংরক্ষণ করে। পার্থক্যটি সূক্ষ্ম তবে কোনও ঘনত্ব- বা দূরত্ব ভিত্তিক অ্যালগরিদমকে প্রভাবিত করে।

এই প্রভাবটি দেখতে, কেবল একটি মাল্টিভিয়ারেট গাউসীয় বিতরণ তৈরি করুন। আপনি যদি এটি কল্পনা করেন, আপনার কাছে এমন একটি বল থাকবে যা ঘন এবং বাইরে থেকে অনেক কম ঘন হয়ে উঠবে, এমন কিছু বিদেশী যা সত্যিই অনেক দূরে থাকতে পারে।

এখন এই ডেটাতে টি-এসএনই চালান। আপনি সাধারণত অভিন্ন ঘনত্বের একটি বৃত্ত পাবেন। যদি আপনি একটি কম বিভ্রান্তি ব্যবহার করেন তবে এটিতে কিছু বিজোড় নিদর্শনও থাকতে পারে। তবে আপনি প্রকৃতপক্ষে বিদেশী বিদেশীদের আর বলতে পারবেন না।

এখন জিনিসগুলিকে আরও জটিল করে তুলুন। আসুন (-2,0) এ সাধারণ বিতরণে 250 পয়েন্ট এবং (+2,0) এ সাধারণ বিতরণে 750 পয়েন্ট ব্যবহার করি।

তথ্য অন্তর্ভুক্তী

এটি একটি সহজ ডেটা সেট বলে মনে করা হয়, উদাহরণস্বরূপ EM সহ:

ইএম ক্লাস্টারিং

যদি আমরা 40-এর ডিফল্ট বিভ্রান্তি দিয়ে টি-এসএনই চালাই তবে আমরা একটি অদ্ভুত আকারের প্যাটার্নটি পাই:

t-SNE p = 40

খারাপ না, তবে ক্লাস্টার করাও এত সহজ নয়, তাই না? আপনার কাছে একটি ক্লাস্টারিং অ্যালগরিদম খুঁজে পেতে খুব কঠিন সময় আসবে যা এখানে যথাযথভাবে কাজ করে। এমনকি আপনি যদি মানুষের এই ডেটা ক্লাস্টার করতে বলতেন তবে সম্ভবত তারা এখানে 2 টিরও বেশি ক্লাস্টার খুঁজে পাবেন।

যদি আমরা 20-এর মতো খুব ক্ষুদ্রতর জটিলতায় টি-এসএনই চালাই তবে আমরা এই নিদর্শনগুলির আরও বেশি পাই যা বিদ্যমান নেই:

t-SNE p = 20

এটি ক্লাস্টার যেমন ডিবিএসসিএএন সহ, তবে এটি চারটি ক্লাস্টার দেবে। তাই সাবধান, টি-এসএনই "জাল" নিদর্শন তৈরি করতে পারে!

সর্বোত্তম উদ্বেগ এই ডেটা সেটটির জন্য প্রায় 80 এর কাছাকাছি বলে মনে হচ্ছে; তবে আমি মনে করি না এই প্যারামিটারটি প্রতিটি অন্যান্য ডেটা সেটের জন্য কাজ করা উচিত।

t-SNE p = 80

এখন এটি দৃশ্যত আনন্দদায়ক, তবে বিশ্লেষণের চেয়ে ভাল নয় । একটি মানব টীকা সম্ভবত একটি কাটা নির্বাচন করতে পারে এবং একটি ভাল ফলাফল পেতে পারে; কে-মানে তবে এটি খুব খুব সহজ পরিস্থিতিতে এমনকি ব্যর্থ হবে ! আপনি ইতিমধ্যে দেখতে পাচ্ছেন যে ঘনত্বের তথ্য হারিয়ে গেছে , সমস্ত ডেটা প্রায় একই ঘনত্বের অঞ্চলে বাস করে বলে মনে হচ্ছে। পরিবর্তে আমরা যদি আরও বিভ্রান্তি বাড়িয়ে তুলি তবে অভিন্নতা বাড়বে এবং বিচ্ছেদটি আবার হ্রাস পাবে।

উপসংহারে, ভিজুয়ালাইজেশনের জন্য টি-এসএনই ব্যবহার করুন (এবং দৃষ্টিভঙ্গি কিছু উপভোগ করার জন্য বিভিন্ন পরামিতিগুলি চেষ্টা করুন!) তবে পরে ক্লাস্টারিং চালাবেন না , বিশেষত দূরত্ব- বা ঘনত্ব ভিত্তিক অ্যালগোরিদম ব্যবহার করবেন না, কারণ এই তথ্যটি ইচ্ছাকৃতভাবে ছিল (!) নিখোঁজ. নেবারহুড-গ্রাফ ভিত্তিক পদ্ধতিগুলি ভাল হতে পারে তবে এর আগে আপনাকে প্রথমে টি-এসএনই চালানোর দরকার নেই, কেবল অবিলম্বে প্রতিবেশীদের ব্যবহার করুন (কারণ টি-এসএনই এই এনএন-গ্রাফটি মূলত অক্ষত রাখার চেষ্টা করে)।

আরও উদাহরণ

এই উদাহরণগুলি জন্য প্রস্তুত রাখা হয়েছিল উপস্থাপনা কাগজ (কিন্তু পাওয়া যাবে না এখনো কাগজ, হিসাবে আমি এই গবেষণা পরবর্তী করেনি)

এরিক শুবার্ট, এবং মাইকেল গার্টজ।
ভিজ্যুয়ালাইজেশন এবং আউটলেট সনাক্তকরণের জন্য অন্তর্নিহিত টি-স্টোকাস্টিক নেবার এম্বেডিং - মাত্রাটির অভিশাপের বিরুদ্ধে প্রতিকার?
ইন: মিউনিখ, জার্মানি, সাদৃশ্য অনুসন্ধান এবং অ্যাপ্লিকেশনগুলির উপর দশম আন্তর্জাতিক সম্মেলনের কার্যক্রম (এসআইএসএপি)। 2017

প্রথমত, আমাদের কাছে এই ইনপুট ডেটা রয়েছে:

মাছ

আপনি যেমন অনুমান করতে পারেন, এটি বাচ্চাদের জন্য "কালার মি" ইমেজ থেকে উদ্ভূত।

যদি আমরা এটি এসএনই ( টি-এসএনই নয় , তবে পূর্বসূরি) দিয়ে চালাই :

এসএনই ফিশ

বাহ, আমাদের মাছ বেশ সমুদ্রের দৈত্য হয়ে গেছে! কার্নেলের আকার স্থানীয়ভাবে নির্বাচিত হওয়ায় আমরা ঘনত্বের অনেক তথ্য হারাতে পারি।

তবে আপনি টি-এসএনই আউটপুট দ্বারা সত্যিই অবাক হবেন:

টি-এসএনই ফিশ

আমি আসলে দুটি বাস্তবায়ন চেষ্টা করেছি (ELKI, এবং sklearn বাস্তবায়ন), এবং উভয়ই এরকম একটি ফলাফল উত্পন্ন করেছে। কিছু সংযোগ বিচ্ছিন্ন টুকরো, তবে এটি প্রতিটি মূল ডেটার সাথে কিছুটা সামঞ্জস্যপূর্ণ দেখায়।

এটি ব্যাখ্যা করার জন্য দুটি গুরুত্বপূর্ণ বিষয়:

  1. এসজিডি একটি পুনরাবৃত্তি পরিশোধন পদ্ধতিতে নির্ভর করে এবং স্থানীয় অপটিমায় আটকে যেতে পারে। বিশেষত, এটি অ্যালগরিদমের পক্ষে যে আয়াতটি মিরর করা হয়েছে তার একটি অংশ "ফ্লিপ" করা শক্ত করে তোলে, কারণ এটির জন্য পৃথক হওয়ার মতো অন্যদের মাধ্যমে চলন্ত পয়েন্টগুলির প্রয়োজন হবে। সুতরাং যদি মাছের কিছু অংশ মিরর করা হয় এবং অন্যান্য অংশগুলি মিরর করা না থাকে তবে এটি এটি ঠিক করতে অক্ষম হতে পারে।

  2. t-SNE অভিক্ষিপ্ত স্থানে টি-বিতরণ ব্যবহার করে। নিয়মিত এসএনই দ্বারা ব্যবহৃত গাউসীয় বিতরণের বিপরীতে, এর অর্থ বেশিরভাগ পয়েন্ট একে অপরকে পিছনে ফেলে দেবে, কারণ ইনপুট ডোমেনে তাদের 0 সখ্যতা রয়েছে (গাউসিয়ান দ্রুত শূন্য হয়ে যায়), তবে> আউটপুট ডোমেনে 0 আত্মীয়তা রয়েছে। কখনও কখনও (এমএনআইএসটি হিসাবে) এটি সুন্দর ভিজ্যুয়ালাইজেশন করে। বিশেষত, এটি ইনপুট ডোমেনের চেয়ে কিছু উপাত্ত সেট করে "বিভক্ত" করতে সহায়তা করে । এই অতিরিক্ত বিকর্ষণও প্রায়শই পয়েন্টগুলিকে আরও সমানভাবে অঞ্চলটি ব্যবহার করার কারণ হয়ে দাঁড়ায়, এটিও আকাঙ্ক্ষিত হতে পারে। তবে এখানে এই উদাহরণে, প্রতিরোধের প্রভাবগুলি আসলে মাছের টুকরোগুলি পৃথক করে দেয়।

র্যান্ডম স্থানাঙ্কের (মূলত টি-এসএনই দিয়ে সাধারণত ব্যবহৃত হয়) পরিবর্তে মূল স্থানাঙ্কগুলি প্রাথমিক প্লেসমেন্ট হিসাবে ব্যবহার করে আমরা প্রথম এই সমস্যাটিতে (এই খেলনা ডেটা সেটটিতে) সহায়তা করতে পারি । এবার চিত্রটি ইএলকেআই-এর পরিবর্তে স্কলারিন, কারণ স্ক্লার্ন সংস্করণে ইতিমধ্যে প্রাথমিক সমন্বয়গুলি পাস করার জন্য একটি প্যারামিটার ছিল:

প্রারম্ভিককরণ হিসাবে মূল স্থানাঙ্কের সাথে ফিশ, টি-এসএনই

আপনি দেখতে পাচ্ছেন, এমনকি "নিখুঁত" প্রাথমিক বসানো সত্ত্বেও, টি-এসএনই মূলত সংযুক্ত কয়েকটি স্থানে মাছটিকে "বিরতি" দেবে কারণ আউটপুট ডোমেনে স্টুডেন্ট-টি বিকর্ষণ ইনপুটটিতে গাউসীয় সম্পর্কের চেয়ে শক্তিশালী is স্থান।

আপনি দেখতে পাচ্ছেন, টি-এসএনই (এবং এসএনই, এছাড়াও!) আকর্ষণীয় ভিজ্যুয়ালাইজেশন কৌশল, তবে সেগুলি সাবধানতার সাথে পরিচালনা করা দরকার। আমি পরিবর্তে কে-মানে প্রয়োগ করব না! কারণ ফলাফলটি অত্যন্ত বিকৃত হবে এবং দূরত্ব বা ঘনত্ব দুটিই ভালভাবে সংরক্ষণ করা যায় না। পরিবর্তে এটি দেখার জন্য ব্যবহার করুন।


1
উত্তরের জন্য ধন্যবাদ. আমি আশেপাশের-ভিত্তিক অভিযোজিত ক্লাস্টারিং পদ্ধতিগুলি কল্পনা করতে পারি, তবে এমন কোনও সুনির্দিষ্ট বিকাশযুক্ত রয়েছে যা আপনি সুপারিশ করতে পারেন?
জেনেরিক_উজার 0

1
চ্যামেলিয়ন সম্ভবত সবচেয়ে উদ্ধৃত, তবে মনে হচ্ছে মূল পদক্ষেপের জন্য কেবল বাইনারি রয়েছে। ধারণাটি দুর্দান্ত লাগছে, তবে টি-এসএনই দৃশ্যমান করে তোলে এমন একই প্রভাবগুলি আপনি দ্রুতই अनुभव করবেন। যেমন পি = ২০ এর সাথে দেখা "পল" করার প্রবণতা, হাবস এবং অ্যান্টি-হাবস ইত্যাদির সমস্যা ইত্যাদি
এরিখ শুবার্ট

2
@ অ্যালেক্সআর: টি-স্নে 2 ডি-তে ম্যাচ করার চেষ্টা করছে এমন উচ্চ-মাত্রিক স্থানের মিলগুলির গণনা করতে পার্পলেক্সটি ব্যবহার করা হয়। বিভ্রান্তি পরিবর্তনের অর্থ মিলগুলি পরিবর্তন করা, ফলস্বরূপ কেএল ডাইভারজেন্সগুলির তুলনা কীভাবে অর্থবহ হতে পারে তা আমি দেখতে পাই না।
অ্যামিবা

1
@AlexR। "কেবলমাত্র নিম্ন মাত্রিক জায়গার শর্তসাপেক্ষ সম্ভাবনা জটিলতার উপর নির্ভর করে" - এই বিবৃতিটি ভুল। Perplexity eq (1) এর জন্য প্রয়োজনীয় সিগমাস বেছে নিতে ব্যবহৃত হয়, সুতরাং এটি কনডকে প্রভাবিত করে। probs। মধ্যে পূর্ণ স্থান।
অ্যামিবা


34

আমি ভালভাবে যুক্তিযুক্ত (+1) এবং @ এরিচস্কুবার্ট দ্বারা অত্যন্ত উত্সাহিত উত্তর সম্পর্কে কিছুটা ভিন্নমত পোষণ করতে চাই। এরিক টি-এসএনই আউটপুটটিতে ক্লাস্টারিংয়ের পরামর্শ দেয় না এবং খেলনার কয়েকটি উদাহরণ দেখায় যেখানে এটি বিভ্রান্তিকর হতে পারে। তার পরামর্শ হ'ল পরিবর্তে মূল ডেটাতে ক্লাস্টারিং প্রয়োগ করা।

ভিজ্যুয়ালাইজেশনের জন্য টি-এসএনই ব্যবহার করুন (এবং দৃষ্টি আকর্ষণীয় কিছু পাওয়ার জন্য বিভিন্ন পরামিতিগুলি চেষ্টা করুন!) তবে পরে ক্লাস্টারিং চালাবেন না, বিশেষত দূরত্ব- বা ঘনত্ব ভিত্তিক অ্যালগরিদম ব্যবহার করবেন না, কারণ এই তথ্যটি ইচ্ছাকৃতভাবে হারিয়ে গেছে (!)।

টি-এসএনই আউটপুট কীভাবে বিভ্রান্তিকর হতে পারে সে সম্পর্কে আমি ভালভাবে অবগত ( https://distill.pub/2016/misread-tsne/ দেখুন ) এবং আমি সম্মত হই যে এটি কিছু পরিস্থিতিতে অদ্ভুত ফলাফল আনতে পারে ।

তবে আসুন আমরা কিছু বাস্তব উচ্চ-মাত্রিক ডেটা বিবেচনা করি।

এমএনআইএসটি ডেটা নিন : 70000 একক-অঙ্কের চিত্র। আমরা জানি যে ডেটাতে 10 টি ক্লাস রয়েছে। এই শ্রেনীগুলি কোনও মানব পর্যবেক্ষকের কাছে ভালভাবে পৃথক হওয়া প্রদর্শিত হয়। তবে, 10 টি ক্লাস্টারে এমএনআইএসটি ডেটা ক্লাস্টার করা খুব কঠিন সমস্যা। আমি কোনও ক্লাস্টারিং অ্যালগরিদম সম্পর্কে অবগত নই যা সঠিকভাবে 10 টি ক্লাস্টারে ডাটা ক্লাস্টার করবে; আরও গুরুত্বপূর্ণভাবে, আমি এমন কোনও ক্লাস্টারিং হিউরিস্টিক সম্পর্কে সচেতন নই যা সূচিত করবে যে ডেটাগুলিতে 10 টি (বেশি এবং কম নয়) ক্লাস্টার রয়েছে। আমি নিশ্চিত যে বেশিরভাগ সাধারণ পন্থা এটি নির্দেশ করতে সক্ষম হবে না।

তবে এর পরিবর্তে টি-এসএনই করি। (অনলাইনে এমএনআইএসটিতে আবেদন করা টি-এসএনইর অনেকগুলি চিত্র খুঁজে পেতে পারেন তবে সেগুলি প্রায়শই সাবুপটিমাল হয় my আমার অভিজ্ঞতায় ভাল ফলাফল পেতে বেশ কিছুক্ষণের জন্য প্রাথমিক অতিরঞ্জিতভাবে চালানো দরকার Bel নীচে আমি ব্যবহার করছি perplexity=50, max_iter=2000, early_exag_coeff=12, stop_lying_iter=1000)। আমি এখানে যা পেয়েছি তা লেবেলযুক্ত লেবেলযুক্ত এবং ডান রঙিন স্থল সত্য অনুসারে:

এমএনআইএসটি টি-এসএনই

আমি যুক্তি দিয়ে বলব যে শিরোনামহীন টি-এসএনই উপস্থাপনা 10 টি ক্লাস্টারের পরামর্শ দেয়। সাবধানতার সাথে নির্বাচিত প্যারামিটার সহ এইচডিবিএসসিএন এর মতো একটি ভাল ঘনত্ব ভিত্তিক ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করলে এই 2 ডি ডেটা 10 টি ক্লাস্টারে ক্লাস্টার করা যাবে।

যদি কেউ সন্দেহ করে যে উপরে বাম প্লটটি সত্যিই 10 টি ক্লাস্টারকে পরামর্শ দেয়, আমি এখানে "দেরী অতিরঞ্জিত" কৌশলটি পেয়েছি যেখানে আমি অতিরিক্তভাবে max_iter=200পুনরাবৃত্তিগুলি চালনা করি exaggeration=4(এই কৌশলটি এই দুর্দান্ত কাগজে প্রস্তাবিত হয়েছে: https://arxiv.org /abs/1712.09005 ):

দেরিতে অতিরঞ্জিত করে MNIST টি-এসএনই

এখন এটি খুব স্পষ্ট হওয়া উচিত যে এখানে 10 টি ক্লাস্টার রয়েছে।

আমি টি-এসএনইর পরে ক্লাস্টারিং মনে করি এমন সবাইকে উত্সাহিত করি একটি ক্লাস্টারিং অ্যালগরিদম দেখানো একটি খারাপ ধারণা যা তুলনামূলকভাবে ভাল ফলাফল অর্জন করতে পারে।

এবং এখন আরও বাস্তব তথ্য।

এমএনআইএস্টের ক্ষেত্রে আমরা স্থল সত্য জানি। অজানা স্থল সত্য সহ কিছু ডেটা বিবেচনা করুন। ক্লাস্টারিং এবং টি-এসএনই নিয়মিতভাবে একক সেল আরএনএ-সিক ডেটাতে সেল পরিবর্তনশীলতা বর্ণনা করতে ব্যবহৃত হয়। যেমন শেখর এট আল। 2016 (তবে এক সাধারণত 50 বা তাই নিচে পিসিএ সঙ্গে মাত্রা হ্রাস দিয়ে শুরু হয় সেখানে আশেপাশে আছেন মাউস জিনোমের 20k জিন তাই ডেটার মাত্রা 20k সম্পর্কে নীতিগতভাবে হয়) 27000 রেটিনার কোষ মধ্যে ক্লাস্টার চিহ্নিত করার চেষ্টা করেছেন। তারা টি-এসএনই করে এবং তারা পৃথকভাবে ক্লাস্টারিং করে (একটি জটিল ক্লাস্টারিং পাইপলাইন যার পরে কিছু ক্লাস্টার সংহতকরণ ইত্যাদি)। চূড়ান্ত ফলাফলটি সন্তুষ্ট দেখাচ্ছে:

এখানে চিত্র বর্ণনা লিখুন

এটি এতটা আনন্দদায়ক দেখাচ্ছে কারণ টি-এসএনই স্পষ্টত পৃথক ক্লাস্টার এবং ক্লাস্টারিং অ্যালগরিদম উত্পাদন একই ক্লাস্টার উত্পাদন করে। খুশী হলাম।

তবে, আপনি পরিপূরকগুলিতে সন্ধান করলে আপনি দেখতে পাবেন যে লেখকরা বিভিন্ন ক্লাস্টারিং পদ্ধতির চেষ্টা করেছিলেন tried তাদের মধ্যে অনেকগুলি টি-এসএনই প্লটের উপর ভয়ঙ্কর দেখায় কারণ যেমন বড় সেন্ট্রাল ক্লাস্টারটি অনেকগুলি সাব-ক্লাস্টারে বিভক্ত হয়:

এখানে চিত্র বর্ণনা লিখুন

সুতরাং আপনি কী বিশ্বাস করেন: ক্লাস্টার সংখ্যা সনাক্তকরণের জন্য আপনার প্রিয় হিউরিস্টিকের সাথে আপনার প্রিয় ক্লাস্টারিং অ্যালগরিদমের আউটপুট, বা টি-এসএনই প্লটটিতে আপনি কী দেখছেন? সত্যি বলতে কী, টি-এসএনইর সমস্ত ত্রুটি থাকা সত্ত্বেও আমি টি-এসএনই-র আরও বিশ্বাস করি। বা যে কোনও ক্ষেত্রে, আমি কেন এটি কম বিশ্বাস করব তা দেখছি না ।


2
এবং শেষ উদাহরণের জন্য, এটি কি মূলত উপরের চিত্রটি দেখেনি @ এরিকসুবার্ট: উপরে আপনি দৃশ্যত "আনন্দদায়ক" ফলাফল পেতে পারেন - এটি স্পষ্টতই ভুল? বিশৃঙ্খলা 20 হিসাবে? এই টিএসএনই আলাদা করা অংশগুলি (মাছের মতো) পছন্দ করে যা আলাদা করা হয়নি? সুতরাং আপনি কি জানেন যে ক্লাস্টারগুলি সত্যই পৃথক ক্লাস্টার রয়েছে? আমি এই "ব্ল্যাক বক্স" পছন্দ করি না। হ্যাঁ, আমরা এই ধরনের প্লটগুলিকে আরও বিশ্বাস করতে চাই , তবে সেগুলি যদি ভুল হয় তবে কী হবে?
অ্যানি-মৌসে

1
ঠিক আছে, টিএসএনই এনএন ভিত্তিক। এটির সাথে একটি চুক্তি আশা করা যায়। টিএসএনই এনএন কল্পনা করার জন্য একটি ভাল পছন্দ। এটি যদিও মিলগুলি ভালভাবে সংরক্ষণ করে না, তাই এটি যত্ন সহকারে ব্যাখ্যা করা উচিত, যেমনটি আমি বুঝতে পারি। TSNE এর একটি ফাঁক বড় দূরত্ব বোঝায় না।
অ্যানি-মৌসে

1
টি-এসএনইয়ের সাথে তুলনা করে ইউএমএপি কীভাবে কার্য সম্পাদন করে তা +1 কৌতূহল ।
পল

1
@ পল: লেখক ইউএমএএপি-র শ্রেষ্ঠত্বের দাবি করেছেন, গণনার সময় বিচারের ক্ষেত্রে, এটি। এমএনআইএসটি ডেটাসেটে, আমি দেখতে পেলাম যে ইউএমএপি টি-এসএনইয়ের চেয়ে ভাল এমবেডিং উত্পন্ন করে, তবে অন্য ডেটাসেটগুলিতে নিশ্চিত নয়। যতদূর আমি অবগত রয়েছি, সম্প্রতি টি-এসএনই-র একটি CUDA সংস্করণ রয়েছে, যা পূর্বের দ্রুততম T-SNE এর চেয়ে অনেক দ্রুত, তবে আমি ইনস্টল ও পরীক্ষা করতে পারিনি।
সিক্সলম

1
@ সিক্সলম গিথুব / ক্লুজারল্যাব / এফআইটি- এসএনই বার্নস-হাট টি- এসএনইয়ের চেয়ে অনেক দ্রুত কাজ করে এবং প্রায়শই ইউএমএপি থেকে দ্রুত হয় । এছাড়াও, অনেক ক্ষেত্রেই কেউ অতিরিক্ত কিছু টুইট ব্যবহার করে টি-এসএনই দিয়ে খুব অনুরূপ এম্বেডিং অর্জন করতে পারে, যেমন এমএনআইএসটিতে টিএম-এসএনই ছোট অতিরঞ্জিত ফলাফল প্রায় ইউএমএপি হিসাবে পাওয়া যায়, উদাহরণস্বরূপ ফিট-এসএনই সংগ্রহস্থলে পাইথন নোটবুকটি দেখুন।
অ্যামিবা

6

আমি মনে করি যে বড় বিভ্রান্তির সাথে টি-এসএনই গ্লোবাল টপোলজিটি পুনর্গঠন করতে পারে, যেমনটি https://distill.pub/2016/misread-tsne/ এ নির্দেশিত হয়েছে ।

ফিশ ইমেজ থেকে, আমি টি-এসএনইয়ের জন্য 4000 পয়েন্টের নমুনা দিয়েছি। একটি বিশাল বিভ্রান্তি (2000) দিয়ে, মাছের চিত্রটি কার্যত পুনর্গঠিত হয়েছিল।

মূল চিত্রটি এখানে। আসল চিত্র

বিস্মৃততা = 2000 সহ টি-এসএনই দ্বারা পুনঃনির্মাণ চিত্রটি এখানে। t-SNE পুনর্গঠিত চিত্র (আতঙ্ক = 2000)


8
আপনি যদি এই জাতীয় উচ্চ বিভ্রান্তি চয়ন করেন তবে এটি আর টিএসএনই নয়। প্রতিটি বিষয় প্রায় প্রতিদিনের প্রতিবেশী। এটি আর স্থানীয় নয়। হ্যাঁ, একটি 2 ডি চিত্র প্রায় পুনর্নির্মাণ করা যেতে পারে, কারণ এটি 2 ডি। তবে পুরো জিনিসটি একেবারেই না করা সহজ।
অ্যানি-মৌসে

1
আমার মতামত টিএসএনইর সাথে বৃহত বিভ্রান্তির সাথে বৈশ্বিক টপোলজি পুনর্গঠন করতে পারে। 2 ডি চিত্র একটি উদাহরণ কারণ এর অভ্যন্তরীণ মাত্রা 2 t স্থানীয় বা বৈশ্বিক বৈশিষ্ট্যগুলি ক্যাপচার করার উদ্দেশ্যে টিএসএনইর আসল প্রয়োগের উদ্দেশ্য অনুসারে উপযুক্ত বিচলন নির্বাচন করা উচিত।
renxwise

1
উদ্বেগগুলির উচ্চতা এর অর্থ হ'ল আপনি অত্যধিক বড় "কর্নেল" ব্যবহার করেন এবং কার্যকরভাবে কেবল দূরত্ব ব্যবহার করেন। এরপরে এটি সম্ভবত আনুমানিক এবং খুব ব্যয়বহুল এমডিএসে অধঃপতিত হয়। কেবল তখনই এমডিএস ব্যবহার করুন। SNE / tSNE সত্যিই ছোট বিড়ম্বনা এবং স্থানীয় পাড়াগুলির সাথে ব্যবহার করা উচিত ।
এরিচ শুবার্ট

3
যথাযথভাবে। যখন বিভ্রান্তি যথেষ্ট পরিমাণে বড় হয়, টিএসএনই প্রকৃতপক্ষে এমডিএসের সাথে আনুমানিক হয়, যা চিত্রিত করে যে টিএসএনই বৈশ্বিক কাঠামোটিও ক্যাপচার করতে পারে। সুতরাং, টিএসএনই কেবল স্থানীয় কাঠামো ক্যাপচার করতে পারে এমন বিবৃতিগুলি সঠিক নয়। এমডিএস থেকে আলাদা, টিএসএনই বিভ্রান্তির নির্বাচনের মাধ্যমে স্থানীয় এবং বৈশ্বিক কাঠামোর মধ্যে ভারসাম্য বজায় রাখতে পারে। স্পষ্টতই, হতবাকের নির্বাচনটি ডেটাসেট-নির্ভর।
renxwise

কলুষিত জটিলতা বেছে নেওয়ার জন্য কি কোনও থাম্বের নিয়ম রয়েছে?
Catbuilts

5

আমাদের গাণিতিক প্রমাণের ভিত্তিতে, এই পদ্ধতিটি প্রযুক্তিগতভাবে দূরত্বগুলি সংরক্ষণ করতে পারে! আপনারা সবাই কেন এই বৈশিষ্ট্যটিকে উপেক্ষা করবেন? টি- এসএনই নমুনাগুলির মধ্যে উচ্চ-মাত্রিক ইউক্লিডিয়ান দূরত্বগুলিকে শর্তাধীন সম্ভাবনার মধ্যে রূপান্তর করছে যা মিলগুলি উপস্থাপন করে। স্পেকট্রাল ক্লাস্টারিং, অ্যাফিনিটি সহ জেএমএম ক্লাস্টারিং (যা একটি ঘনত্ব ভিত্তিক ক্লাস্টারিং অ্যালগরিদম!) সহ বিভিন্ন sensক্যমত ক্লাস্টারিং অ্যালগরিদমের সমান্তরালভাবে আমি 11,000 এরও বেশি নমুনার (জিনোমিক্স প্রসঙ্গে) টি- এসএনই চেষ্টা করেছি । ফলস্বরূপ, আমি দুটি পদ্ধতির ( টি) এর মধ্যে খুব ভাল একটি সুসংগত ফলাফল পেয়েছি-এসএনই বনাম sensক্যমত্য ক্লাস্টারিং অ্যালগরিদম)। আমি বিশ্বাস করি যে -কমত্য ক্লাস্টারিং অ্যালগরিদমগুলির সাথে টি-এসএনই সংহত করা বিদ্যমান স্থানীয় এবং বৈশ্বিক কাঠামোর তথ্যের সর্বোত্তম প্রমাণ সরবরাহ করতে পারে।


এমন কিছু পরামিতি রয়েছে যা টি-এসএনইর দূরত্ব সংরক্ষণের সম্ভাবনাটিকে প্রভাবিত করবে?
কিথ হুগিট

এগুলি sensক্যমত্য ক্লাস্টারিং অ্যালগরিদম নয়। কনসেপ্টাস ক্লাস্টারিং হ'ল এক প্রকারের এসেম্বল লার্নিং যা চূড়ান্ত ক্লাস্টারিংয়ের ফলাফল পাওয়ার জন্য প্যারামিটার বা ইনপুট ডেটার কিছু প্রকারের সাথে ক্লাস্টারিং অ্যালগরিদম পুনরাবৃত্তি করার ফলাফলকে একত্রিত করে। বর্ণালী ক্লাস্টারিং বা জিএমএম বা সত্যিকার অর্থে যে কোনও ক্লাস্টারিং অ্যালগরিদম সহ আপনি sensক্যমত্য ক্লাস্টারিং পদ্ধতি ব্যবহার করতে পারেন, তবে আপনার পরিভাষায় আমার বক্তব্যটি একটু দূরে, এটাই সব :)
ক্রিস্টোফার জন

1

আপনি ডিবিএসসিএএন ক্লাস্টারিং অ্যালগরিদম চেষ্টা করতে পারেন। এছাড়াও, tsne এর বিশৃঙ্খলা ক্ষুদ্রতম প্রত্যাশিত ক্লাস্টারের মতো আকারের হওয়া উচিত।


0

ব্যক্তিগতভাবে, আমি এটি একবার অনুভব করেছি, তবে টি-এসএনই বা পিসিএ দিয়ে নয়। আমার আসল ডেটা 15-মাত্রিক জায়গাতে। এটিকে 2 ডি এবং 3 ডি এম্বেডিংয়ে হ্রাস করতে ইউএমএপি ব্যবহার করে আমি 2D এবং 3 ডি প্লট উভয়টিতে পুরোপুরি এবং দৃশ্যমানভাবে পৃথকযোগ্য ক্লাস্টার পেয়েছি। সত্য হতে পারে খুব ভাল. কিন্তু যখন আমি অধ্যবসাসিত চিত্রটি থেকে প্রাপ্ত মূল তথ্যগুলিতে "তাকিয়ে" দেখি তখন বুঝতে পেরেছিলাম যে কেবল 2 টি নয়, আরও অনেক "তাত্পর্যপূর্ণ" গুচ্ছ রয়েছে।

মাত্রা হ্রাস প্রযুক্তির আউটপুট সম্পর্কে ক্লাস্টারিং অবশ্যই খুব সতর্কতার সাথে করা উচিত, অন্যথায় কোনও ব্যাখ্যা খুব বিভ্রান্তিকর বা ভুল হতে পারে কারণ মাত্রা হ্রাস করার ফলে অবশ্যই বৈশিষ্ট্য ক্ষতি হবে (সম্ভবত শোরগোল বা সত্য বৈশিষ্ট্য, তবে একটি অগ্রাধিকার, আমরা ডন ') কোনটি জানা নেই)। আমার মতে, আপনি ক্লাস্টারগুলিকে বিশ্বাস / ব্যাখ্যা করতে পারেন, যদি:

  • প্রস্তাবিত ডেটাগুলির ক্লাস্টারগুলি কিছু শ্রেণিবিন্যাসের সাথে মিলিত হয় / নিশ্চিত করে (এমএনআইএসটি ডেটাসেটের কথা চিন্তা করে, যেখানে অনুমিত ডেটাগুলির ক্লাস্টারগুলি অঙ্কগুলির শ্রেণিবিন্যাসের সাথে খুব সুন্দরভাবে মেলে), এবং / অথবা,

  • অধ্যবসায়ের ডায়াগ্রামের মতো অন্যান্য পদ্ধতি ব্যবহার করে আপনি এই ক্লাস্টারগুলির উপস্থিতি মূল তথ্যটিতে নিশ্চিত করতে পারেন। সংযুক্ত উপাদানগুলির সংখ্যা গণনা করা বেশ যুক্তিসঙ্গত সময়ে করা যেতে পারে।


ইউএমএপির চেয়ে আপনি কেন "অধ্যবসায় চিত্রটি" বিশ্বাস করেন? আমি মনে করি না যে অধ্যবসায় চিত্রটি
দেখলে

আপনি সঠিক. অধ্যবসায় চিত্রটি মূল ডেটার কয়েকটি বৈশিষ্ট্য দেখায়, প্রায়শই সংযুক্ত উপাদান, 1-মাত্রিক গর্ত এবং আরও বেশি বিরল, 2 বা তত বেশি মাত্রিক গর্ত ব্যয়বহুল গণনার কারণে। সুতরাং আমার বলা উচিত ছিল যে আমি কেবল পারি সংশ্লিষ্ট অধ্যবসায়ের চিত্রটি দেখে মূল তথ্যগুলিতে আংশিকভাবে "দেখতে" পারি। তবে আমি এই অধ্যবসাস চিত্রটি যা দেখেছি তা বিশ্বাস করতে পারি কারণ এটি সরাসরি মূল ডেটা থেকে তৈরি is
সিক্সলম

বিপরীতে, ইউএমএপি বা অন্য কোনও মাত্রা হ্রাস কৌশলগুলি ব্যবহার করে, আমরা কেবলমাত্র মূল ডেটার একটি অনুমিত / পরিবর্তিত সংস্করণ দিয়ে কাজ করি। সর্বাধিক ভোট দেওয়া উত্তর হিসাবে ইঙ্গিত করা হয়েছে, পরামিতিগুলির পৃথক পছন্দগুলির জন্য গুচ্ছবৃত্তি ভিন্ন হতে পারে।
সিক্সলম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.