এমন কোনও মামলা রয়েছে যেখানে পিসিএ টি-এসএনইয়ের চেয়ে বেশি উপযুক্ত?


39

আমি দেখতে চাই যে পাঠ্য সংশোধন আচরণের 7 টি পদক্ষেপ (পাঠ্য সংশোধন করতে ব্যয় করা সময়, কীস্ট্রোকের সংখ্যা ইত্যাদি) কীভাবে একে অপরের সাথে সম্পর্কিত। ব্যবস্থাগুলি পারস্পরিক সম্পর্কযুক্ত। আমি পিসিএ এবং পিসি 2 এবং পিসি 2, যা ব্যবস্থাগুলির মধ্যে পৃথক দ্বি-দ্বি পারস্পরিক সম্পর্ক পরীক্ষা চালানোর ওভারল্যাপটিকে এড়াতে পেরেছি তা দেখার জন্য একটি পিসিএ চালিয়েছিলাম।

আমাকে জিজ্ঞাসা করা হয়েছিল কেন টি-এসএনই ব্যবহার করছেন না, যেহেতু কয়েকটি ব্যবস্থার মধ্যে সম্পর্কটি অ-রৈখিক হতে পারে।

আমি দেখতে পাচ্ছি যে অ-লিনিয়ারিটির অনুমতি দেওয়া কীভাবে এটি উন্নতি করতে পারে, তবে আমি ভাবছি যদি এই ক্ষেত্রে পিসিএ ব্যবহার করার কোনও ভাল কারণ আছে এবং টি-এসএনই নয়? আমি গ্রন্থগুলিকে তাদের ব্যবস্থাগুলির সাথে সম্পর্কিত ব্যবস্থা অনুযায়ী ক্লাস্টারিং করতে আগ্রহী নই, বরং পদক্ষেপগুলির মধ্যে নিজের মধ্যে সম্পর্কের ক্ষেত্রে।

(আমার ধারণা এএফএ আরও ভাল / অন্য কোনও পদ্ধতির হতে পারে, তবে এটি ভিন্ন আলোচনা a) অন্যান্য পদ্ধতির তুলনায় টি-এসএনই সম্পর্কে এখানে কয়েকটি পোস্ট রয়েছে, সুতরাং প্রশ্নটি জিজ্ঞাসা করার মতো বলে মনে হচ্ছে।


3
টি-এসএনই ডেটাসেটের আকারের সাথে ভাল স্কেল করে না, যখন পিসিএ করে। স্কাইকিট-লার্ন বাস্তবায়ন ব্যবহার করে এটি উভয়কেই বড় ডেটাसेटে চালানোর অভিজ্ঞতা থেকে আসে।
মাই

@ মাই সম্ভবত এটি বেশিরভাগ বড় ডেটাসেটের ক্ষেত্রে প্রযোজ্য? আমার ডেটাসেটটি ছোট দিকে রয়েছে (কয়েকশ ডেটা পয়েন্ট)।
user3744206

উত্তর:


64

-SNE মেশিন লার্নিংয়ের একটি দুর্দান্ত অংশ তবে এটি পিসিএ পরিবর্তে ব্যবহার করার অনেকগুলি কারণ খুঁজে পেতে পারে। আমার মাথার শীর্ষের মধ্যে আমি পাঁচটি উল্লেখ করব। অন্যান্য অন্যান্যগণ্যপদ্ধতিতে ব্যবহৃত হিসাবে, টি- এসএনই কোনওসিলভার বুলেট নয়এবং বেশ কয়েকটি কারণ রয়েছে যা এটি কিছু ক্ষেত্রে এটিকে একটি উপ-পছন্দসই পছন্দ করে তোলে। সংক্ষেপে কিছু বিষয় উল্লেখ করলাম:tt

  1. t0.03%KL(P||Q)t

  2. t

  3. ttt-এসএনই ম্যাপিং (আপনি এই ভিডিওর ডাঃ ভ্যান ডের মাটেন lines 46 'এ এই লাইন বরাবর কোনও কিছুর পরামর্শ দিচ্ছেন শুনতে পারেন ) তবে স্পষ্টতই এর কোন সহজ সমাধানের উপস্থিতি নেই।]

  4. ttt

  5. k ttkkkবৈকল্পিকের ক্ষেত্রে সেরা রৈখিক সংমিশ্রণটি ব্যাখ্যা করা হয়েছে। (প্রথমে এই বিষয়টিকে রূপরেখার চেষ্টা করার সময় আমি অ্যামিবার ধন্যবাদ জানার জন্য আমি গোলযোগ সৃষ্টি করেছি।)

t

ttt


tk=2,3,4

@ আমেবা: এটি উল্লেখ করার জন্য আপনাকে ধন্যবাদ আমি আমার উত্তর অনুসারে আপডেট করেছি।
usεr11852 বলেছেন

3
আপনার পয়েন্ট # 3 সম্পর্কিত: এখানে প্যারামিটারিক টি-স্নে lvdmaate.github.io/publications/papers/AISTATS_2009.pdf সম্পর্কিত ২০০৯ এর কাগজ রয়েছে । দেখে মনে হচ্ছে এটি সত্যই বন্ধ হয় নি (এটির মূল টি-স্নেই পেপারের তুলনায় 25 গুণ কম উদ্ধৃতি দেওয়া আছে) তবে বাস্তবে এটি আজকের প্রযুক্তি / গ্রন্থাগারগুলির সাথে প্রয়োগ করা বেশ সহজ। আমার কাছে এটি চলছে এবং কেরাসে চলছে; আমি গত সপ্তাহগুলিতে এটি অনুসন্ধানের (এবং সম্ভবত প্রসারিত) কাজ করছি।
অ্যামিবা বলছেন মনিকাকে

শান্ত! (+1) আপনি যদি কোনও আরক্সিব প্রাক-মুদ্রণ ভাসমান পান তবে দয়া করে আমাকে জানান (এখানে বা 10-ভাঁজ), আমি ফলাফলগুলি সম্পর্কে খুব কৌতূহলী হব। হ্যাঁ, এই উত্তরটি লেখার সময় আমি সেই কাগজটি দেখেছি (এটি আসলে একটি সুপরিচিত কাগজ যা আমি বলব) তবে আপনি যেমন বলেছিলেন এটি তোলা হয়নি বলে মনে হয়। এছাড়াও পয়েন্ট # 3 পুরোপুরি বৈধ থাকবে: একক ম্যাট্রিক্স ক্রস প্রোডাক্টের মাধ্যমে পিসিএ অফার কিছু পাওয়ার জন্য আপনাকে একটি ডিএনএন তৈরি করতে হবে।
usεr11852

12

https://stats.stackexchange.com/a/249520/7828

একটি দুর্দান্ত সাধারণ উত্তর।

আমি আপনার সমস্যার দিকে আরও কিছুটা ফোকাস করতে চাই। আপনি দৃশ্যত দেখতে চান আপনার নমুনাগুলি কীভাবে আপনার 7 ইনপুট ভেরিয়েবলের সাথে সম্পর্কিত respect এটি এমন কিছু যা টি-এসএনই করে না। এসএনই এবং টি-এসএনই ধারণাটি প্রতিবেশীদের একে অপরের নিকটে স্থাপন করা, (প্রায়) পুরোপুরি বিশ্ব কাঠামো উপেক্ষা করে।

এটি ভিজ্যুয়ালাইজেশনের জন্য দুর্দান্ত, কারণ অনুরূপ আইটেমগুলি একে অপরের পাশে প্লট করা যায় (এবং একে অপরের উপরে নয়, সিএফ ভিড়)।

এটি আরও বিশ্লেষণের জন্য ভাল নয়। বৈশ্বিক কাঠামোটি হারিয়ে গেছে, কিছু বস্তু তাদের প্রতিবেশীদের কাছে যেতে বাধা পেয়েছে এবং বিভিন্ন গোষ্ঠীর মধ্যে বিভাজন পরিমাণগতভাবে সংরক্ষণ করা যায় না। মূলত যা হ'ল উদাহরণস্বরূপ প্রোজেকশনটিতে ক্লাস্টারিং সাধারণত খুব ভাল কাজ করে না।

পিসিএ একেবারে বিপরীত। এটি বিশ্বব্যাপী বৈশিষ্ট্যগুলি (উচ্চ বৈকল্পের সাথে ইগেনভেেক্টর) সংরক্ষণের চেষ্টা করে তবে এটি প্রতিবেশীদের মধ্যে স্বল্প-বৈচিত্র্য বিচ্যুতি হারাতে পারে।


আহ ঠিক সেটাই আমি ধরে নিয়েছিলাম। স্থানটিতে ডেটা পয়েন্টগুলি কীভাবে অবস্থিত তা সম্পর্কে আমি আগ্রহী নই, বরং কীভাবে পদক্ষেপগুলি একে অপরের সাথে সম্পর্কিত তা on এই দুটি জিনিস অবশ্যই সংযুক্ত, তবে এই সম্পর্কগুলি দেখার এবং ব্যাখ্যা করার ক্ষেত্রে আমার সন্দেহ হয় যে কেবল পিসিএই আমার যা ইচ্ছা তা করে does উদাহরণস্বরূপ, ব্যবস্থাগুলির মধ্যে ইতিবাচক এবং নেতিবাচক উভয়ই সম্পর্ক রয়েছে এবং আমি যে বিষয়ে সত্যই আগ্রহী তা হ'ল সমিতিগুলির পরম মূল্য, যা আবার আমি মনে করি যে আমি পিসিএ ব্যবহার করি কিনা তা ব্যাখ্যা করা / দেখতে সহজ।
user3744206

1
সেই ব্যবহারের ক্ষেত্রে তুলনামূলক ম্যাট্রিক্স নিজেই দেখার চেয়ে ভাল, কেবলমাত্র জোড়াযুক্ত তুলনা করা। তারপরে আপনি অনারলাইনটি হ্যান্ডেল করতে পারেন, যেমন স্পিয়ারম্যান পারস্পরিক সম্পর্ক ব্যবহার করে।
অ্যানি-মৌসে

আমরা কি ক্লাস্টার সমস্যার জন্য টি-এসএনই ব্যবহার করতে পারি? আমি যতদূর বুঝতে পেরেছি, আমরা একটি নতুন আগত পয়েন্টটি প্রজেক্ট করতে এবং নিম্ন মাত্রায় ক্লাস্টার করার চেষ্টা করতে পারি? এটা কি সম্ভব ?
Catbuilts

না। কারণ tSNE রৈখিক নয় আপনি কেবল এটি নতুন ডেটার জন্য গণনা করতে পারবেন না (উপরে দেখুন)। এবং একটি আইনী আলোচনা ছিল যে এটি অনুমানিত ডেটা গুচ্ছ করতেও বিভ্রান্তিকর হতে পারে।
অ্যানি-মৌসে

1

একটি প্রয়োগকৃত কোণ দেওয়ার জন্য, পিসিএ এবং টি-এসএনই পারস্পরিক একচেটিয়া নয়। জীববিজ্ঞানের কিছু ক্ষেত্রে আমরা অত্যন্ত মাত্রিক ডেটা (যেমন scRNA-seq হাজার হাজার মাত্রা) নিয়ে কাজ করছি যেখানে টি-এসএনই কেবল স্কেল করে না। অতএব, আমরা প্রথম পিসিএ ব্যবহার করি তথ্যের মাত্রা কমাতে এবং তারপরে শীর্ষ নীতি উপাদানগুলি নিয়ে আমরা পার্শ্ববর্তী গ্রাফটি গণনা করি এবং তারপরে টি-এসএনই (বা অনুরূপ অ-লিনিয়ার মাত্রিকতা হ্রাস পদ্ধতির সাহায্যে 2-মাত্রায় গ্রাফটি এম্বেড করি) ডেটা ভিজ্যুয়ালাইজ করতে UMAP এর মতো)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.