স্ট্রিমিং ডেটার জন্য কি টি-এসএনইর কোনও সংস্করণ রয়েছে?


19

টি-এসএনই এবং বার্নস-হাট আনুমানিক সম্পর্কে আমার বোঝার জন্য সমস্ত ডেটা পয়েন্টের প্রয়োজন হয় যাতে সমস্ত ফোর্স ইন্টারেক্টেশন একই সাথে গণনা করা যায় এবং প্রতিটি পয়েন্ট 2 ডি (বা নিম্ন মাত্রিক) মানচিত্রে সামঞ্জস্য করা যায়।

টি-স্নের এমন কোনও সংস্করণ রয়েছে যা দক্ষতার সাথে স্ট্রিমিং ডেটা মোকাবেলা করতে পারে? সুতরাং যদি আমার পর্যবেক্ষণগুলি একবারে একসাথে আসে, তবে এটি নতুন পর্যবেক্ষণ স্থাপনের জন্য 2 ডি মানচিত্রের সেরা অবস্থানটি আবিষ্কার করবে বা এইচটি নতুন পর্যবেক্ষণের জন্য অ্যাকাউন্টে 2 ডি মানচিত্রের সমস্ত পয়েন্ট অবিরত আপডেট করবে।

এটি এমনকি বোধগম্য হতে পারে বা এটি টি-স্নাইয়ের সেটআপের বিরুদ্ধে যায়।


বার্নস-হাট আনুমানিকতা টি-এসএনইকে অত্যন্ত স্কেলেবল করে তোলে (কমপক্ষে আপনি এটি 100,000 লাইন দিয়ে ব্যবহার করতে পারেন, আমি চেষ্টা করেছিলাম)। আপনি এটি আর থেকে কল করতে পারবেন: cran.r-project.org/web/packages/Rtsne/index.html
RUser4512

হেই ধন্যবাদ! আপনি যদি এর উত্তর বিভাগে রাখেন তবে আমি আপনার উত্তরের জন্য ভোট দিয়ে খুশি।
টম

3
নিউরাল এনটি ওয়ার্কের সাথে প্রয়োগ করা প্যারামেট্রিক সংস্করণের জন্য এখানে দেখুন। lvdmaaten.github.io/publications/papers/AISTATS_2009.pdf
আইলায়ার

উত্তর:


15

আমার ঠিক একই প্রশ্ন ছিল এবং এটি কয়েক সপ্তাহ আগে আন্দ্রেজ কার্পাথির দেওয়া সিএস 231 এন লেকচারের ইউটিউব ভিডিওতে পোস্ট করেছি। এখানে আমি পোস্ট করা প্রশ্নটি পরে আন্দ্রেজের প্রতিক্রিয়া:

https://www.youtube.com/watch?v=ta5fdaqDT3M&lc=z12ji3arguzwgxdm422gxnf54xaluzhcx

প্রশ্ন:

টি-এসএনই কম-মাত্রিক বৈশিষ্ট্যযুক্ত স্থান তৈরি করতে ইমেজের পুরো ব্যাচ (বা আরও সাধারণভাবে ডেটা) প্রয়োজন? পিসিএর সাহায্যে আপনি একটি ব্যাচের উপর একটি নিম্ন-মাত্রিক বৈশিষ্ট্যযুক্ত স্থান তৈরি করতে পারেন এবং তারপরে "পুনরায় প্রশিক্ষণ" ছাড়াই একই স্থানটিতে নতুন ডেটা পয়েন্টগুলি প্রজেক্ট করতে পারেন। এটি কি টি-এসএনই-র জন্য সত্য?

আমি জিজ্ঞাসা করি কারণ আমি লক্ষ্য করেছি যে বিজ্ঞান-শিখার বহুগুণে ক্লাসের অংশ হিসাবে টি-এসএনই রয়েছে, তবে পিসিএর মতো সেই মডিউলটির রূপান্তর () পদ্ধতি নেই। সুতরাং, কমপক্ষে, স্ক্লার্নে, মনে হবে এটি সম্ভব নয়।

আমার প্রশ্ন এই পর্যন্ত ফোটে। আপনি কীভাবে স্ট্রিমিং বা অনলাইন পরিস্থিতিতে টি-এসএনই প্রয়োগ করবেন যেখানে আপনি নতুন ছবি সহ ক্রমাগত ভিজ্যুয়ালাইজেশন আপডেট করতে চান? সম্ভবতঃ, প্রতিটি নতুন চিত্রের জন্য কেউ পুরো ব্যাচে অ্যালগরিদম প্রয়োগ করতে চাইবে না।

উত্তর:

+ ইভান জমির হ্যাঁ এটি টি-এসএনই দিয়ে সম্ভব, তবে নিয়মিত টি-এসএনই বাস্তবায়ন সহ বাক্সের বাইরে সমর্থিত নাও হতে পারে। সাধারণত প্রতিটি পয়েন্টের অবস্থান অপটিমাইজেশনের একটি প্যারামিটার হয় তবে আপনি ঠিক পাশাপাশি উচ্চ-ডি -> লো-ডি (যেমন নিউরাল নেট) এবং অবস্থানগুলির মধ্যে ব্যাকপ্রপ থেকে একটি ম্যাপিং তৈরি করতে পারেন। তারপরে আপনি এম্বেডিং ফাংশনটি শেষ করবেন এবং নতুন পয়েন্টগুলি প্রজেক্ট করতে পারেন। সুতরাং নীতিগতভাবে এটিকে প্রতিরোধকারী কিছুই নয়, তবে কিছু বাস্তবায়ন এটিকে সমর্থন করবে না কারণ এটি কম ঘন ঘন ব্যবহারের ক্ষেত্রে।


11

স্ট্রিমিং ডেটা নিয়ে কাজ করার সময়, আপনি একক টি-এসএনই মানচিত্রে ইতিহাসের সমস্ত পয়েন্ট এম্বেড করার প্রয়োজন / চাইবেন না। বিকল্প হিসাবে, আপনি এই সাধারণ পদক্ষেপগুলি অনুসরণ করে একটি অনলাইন এম্বেডিং সম্পাদন করতে পারেন :

  1. টির সময়কালের টি-এর একটি উইন্ডো চয়ন করুন, যাতে যথেষ্ট পরিমাণে আগ্রহের উইন্ডোটির সময়কালে কমপক্ষে দু'বার প্রদর্শিত হয় couple

  2. টি-টির চেয়ে অনেক ছোট সময়-ধাপের সাথে ডেটা প্রবাহিত হওয়ার সাথে সাথে উইন্ডোটি স্ক্রোল করুন the উইন্ডোর প্রতিটি অবস্থানের জন্য, সময় উইন্ডোতে ডেটা পয়েন্টগুলির একটি টি-এসএনই এম্বেডিং গণনা করুন।

  3. পূর্বের ফলাফলের সাথে এম্বেড করে প্রতিটি বীজ বপন করুন। টি-এসএনইতে, নিম্ন-মাত্রিক জায়গাতে ডেটা পয়েন্টগুলির প্রাথমিক স্থানাঙ্কগুলি বেছে নেওয়া দরকার। আমাদের ক্ষেত্রে, যেহেতু আমরা টি এর চেয়ে অনেক কম ডিটি বেছে নিই, দুটি ক্রমাগত এম্বেডিংগুলি তাদের বেশিরভাগ ডেটা পয়েন্ট ভাগ করে। সমস্ত ভাগ করা ডেটা পয়েন্টগুলির জন্য, পূর্ববর্তী এম্বেডিংয়ে তাদের চূড়ান্ত স্থানাঙ্কগুলিতে এমবেডিংয়ে তাদের প্রাথমিক স্থানাঙ্কগুলি মেলান । এই পদক্ষেপটি নিশ্চিত করবে যে অনুরূপ নিদর্শনগুলির ক্রমাগত এম্বেডিংগুলি জুড়ে ধারাবাহিক প্রতিনিধিত্ব রয়েছে have ( অজগরটিতে স্ক্লার্ন প্রয়োগে , বীজ প্যারামিটারটি "init" হয় default

নোট 1: এটি গুরুত্বপূর্ণ যে আগ্রহের নিদর্শনগুলি কোনও নির্দিষ্ট সময় উইন্ডোতে কমপক্ষে একবার উপস্থিত হয়, যাতে ডেটাসেটের সাহায্যে উইন্ডোটি স্লাইড হওয়ার সাথে সাথে উপস্থাপনের স্মৃতিটি হারাতে না পারে। প্রকৃতপক্ষে, টি-এসএনই সাধারণত কোনও অনন্য সমাধানে রূপান্তর করে না তবে কেবল স্থানীয় ন্যূনতম হয়, তাই স্মৃতিটি যদি হারিয়ে যায় তবে এম্বেডিংয়ের দুটি তাত্ক্ষণীতে অনুরূপ প্যাটার্নটি খুব আলাদা উপায়ে উপস্থাপন করা যেতে পারে।

দ্রষ্টব্য 2: অ-স্টেশনারি সময় সিরিজের সাথে কাজ করার সময় এই পদ্ধতিটি বিশেষভাবে প্রাসঙ্গিক, যেখানে কেউ সময়ের সাথে ধীরে ধীরে বিকশিত হওয়া নিদর্শনগুলি ট্র্যাক করতে চান। প্রকৃতপক্ষে, প্রতিটি এম্বেডিং এখানে নির্দিষ্ট সময়ের জন্য উইন্ডোতে নির্দিষ্টভাবে টেলরর্ড করা হয়েছে যার উপরে এটি গণনা করা হয়েছে, এটি নিশ্চিত করে যে এটি অস্থায়ীভাবে স্থানীয় কাঠামোটিকে সেরা উপায়ে ক্যাপচার করে (সম্পূর্ণ অ-স্টেশনারী ডেটাসেটের সম্পূর্ণ এম্বেডিংয়ের বিপরীতে)।

দ্রষ্টব্য 3: এই পদ্ধতিতে ক্রমান্বিত এম্বেডিংগুলি সমান্তরাল করা যায় না, কারণ পরেরটি বীজের জন্য একজনকে পূর্বের এম্বেডিংয়ের ফলাফলের প্রয়োজন হয়। তবে, কারণ বীজ (পয়েন্টগুলির প্রথম দিকের স্থানাঙ্ক) বেশিরভাগ পয়েন্টের জন্য ভালভাবে বেছে নেওয়া হয়েছে (সাকসেসিভ এম্বেডিংয়ের মধ্যে সমস্ত ভাগ করা পয়েন্ট), কেবলমাত্র কয়েকটি পুনরাবৃত্তির মধ্যে একটি এম্বেডিং সাধারণত খুব দ্রুত রূপান্তরিত হয়।

স্টেশনহীন সময় সিরিজে এই পদ্ধতির প্রয়োগের উদাহরণের জন্য, এই নিবন্ধটি দেখুন ( আইসিএলআর 2016, অন-লাইন টি-এসএনই: গানের বার্ডে ধারণার প্রমাণ ) সহ পরিবর্তিত বিশ্বে স্থিতিশীল উপস্থাপনাগুলি শিখুন , যেখানে এটি সফলভাবে প্রয়োগ করা হয়েছিল গানেসবার্ডের বিকাশ জুড়ে সিলেবলের উত্থান ট্র্যাক করতে।


2
সম্প্রদায় স্বাগতম। স্ব- সাহচর্যবাদ অসাধারণ। আমি এখানে আপনার প্রথম পোস্ট পড়ুন । অবশ্যই, আমরা একাধিক উত্তরের জন্য একই যুক্তিটি ব্যবহার করতে পারি, সম্ভাব্য দুটি বাক্যাংশ অনুলিপি করে কপি-পেস্ট করতে পারি বা কেবল পূর্ববর্তী উত্তরের সাথে সরাসরি লিঙ্ক করতে পারি। যদিও এটি বলা হচ্ছে, আপনার পোস্টগুলিকে প্রথম উত্তর পরিবর্তিত বাক্য দিয়ে পূর্বের উত্তরের ভারব্যাটিম অনুলিপি করবেন না। এটি সিভির সামগ্রীর গুণমানকে কমিয়ে দেয় এবং আপনার দ্বারা দুর্বল শিক্ষাগত ক্রীড়া প্রদর্শন করে।
usεr11852

5
@ usεr11852 সমস্যা তৈরি হয়েছিল কারণ অন্য থ্রেড এটির একটি সদৃশ। তাই আমি অন্যটিকে বন্ধ করে দিয়েছি, এটির সাথে একীভূত করেছি এবং অতিরিক্ত উত্তর মুছে ফেলেছি। সাধারণভাবে, স্টাফেন, যে কোনও সময় আপনি ঠিক একই উত্তর দুটি থ্রেডে পোস্ট করতে অনুপ্রেরণা বোধ করেন, দয়া করে কেবল তার একটিকে সদৃশ হিসাবে চিহ্নিত করুন যাতে আমরা তাদের একত্রিত করতে পারি।
whuber

2
@ usεr11852 ঠিক আছে, সদৃশ উত্তরের জন্য দুঃখিত, আমি একটি নতুন অবদানকারী তাই আমি এখনও সেরা অনুশীলনগুলি জানি না।
স্টাফেন অস্বীকার

1
@ ভুবার প্রশ্নগুলি মার্জ করার জন্য এবং মাথা উঁচু করার জন্য আপনাকে ধন্যবাদ!
স্টাফেন অস্বীকার

1
ফলস্বরূপ আপনি 2 টি আপোস্ট হারিয়েছেন বলে মনে হচ্ছে। এটা দুর্ভাগ্যজনক. +1 :) সিভিতে আপনাকে স্বাগতম।
অ্যামিবা

7

A-tSNE নামে একটি সম্প্রতি প্রকাশিত বৈকল্পিক রয়েছে, যা আগ্রহী ক্ষেত্রের ভিত্তিতে বা ব্যবহারকারীর ইনপুট দ্বারা গতিশীলভাবে নতুন ডেটা যুক্ত এবং পরিশোধক ক্লাস্টারগুলিকে সমর্থন করে। নীচে লিঙ্ক করা কাগজে এর বেশ কয়েকটি সুন্দর উদাহরণ রয়েছে:

উদ্ধৃতি: আরএক্সিব: 1512.01655

প্রগ্রেসিভ ভিজ্যুয়াল অ্যানালিটিক্স নিকোলা পেজোত্তি, বোডেভিজন পিএফ লেলিভেল্ড, লরেন্স ভ্যান ডার মাটেন, টমাস হ্যাল্ট, এলমার আইজম্যান, আন্না ভিলানোভা জন্য আনুমানিক এবং ব্যবহারকারী মাননীয় টিএসএনই

সারসংক্ষেপ:

প্রগ্রেসিভ ভিজ্যুয়াল অ্যানালিটিক্স ভিজ্যুয়ালাইজেশনের মাধ্যমে মধ্যবর্তী ফলাফলের সাথে মিথস্ক্রিয়া দ্বারা বিদ্যমান বিশ্লেষণ কৌশলগুলিতে ইন্টারঅ্যাক্টিভিটি উন্নত করে s ডেটা বিশ্লেষণের জন্য একটি মূল পদ্ধতিটি মাত্রা হ্রাস হ'ল উদাহরণস্বরূপ, 2D এমবেডিং উত্পাদন করা যা দক্ষতার সাথে ভিজ্যুয়ালাইজ করা যায় এবং বিশ্লেষণ করা যায়। টি-ডিস্ট্রিবিউটড স্টোকাস্টিক নেবার এম্বেডিং (টিএসএনই) বেশ কয়েকটি উচ্চ-মাত্রিক ডেটা দেখার জন্য একটি উপযুক্ত উপযোগী প্রযুক্তি। tSNE অর্থপূর্ণ মধ্যবর্তী ফলাফল তৈরি করতে পারে তবে ধীর সূচনাতে ভুগছে যা প্রগ্রেসিভ ভিজ্যুয়াল অ্যানালিটিক্যে এর প্রয়োগকে সীমাবদ্ধ করে। ইন্টারেক্টিভ ডেটা এক্সপ্লোরেশন সক্ষম করার জন্য আমরা একটি নিয়ন্ত্রণযোগ্য টিএসএনই আনুমানিককরণ (এ-টিএসএনই) প্রবর্তন করি যা গতি এবং নির্ভুলতার সাথে ব্যবসা করে। আমরা রিয়েল-টাইম ভিজুয়ালাইজেশন কৌশলগুলি সরবরাহ করি, ঘনত্ব ভিত্তিক সমাধান এবং একটি ম্যাজিক লেন্স সহ প্রায় ডিগ্রি পরিদর্শন করতে। এই প্রতিক্রিয়াটির সাথে, ব্যবহারকারী স্থানীয় পরিশোধন সম্পর্কে সিদ্ধান্ত নিতে পারে এবং বিশ্লেষণের সময় আনুমানিক স্তরটি চালিত করতে পারে। আমরা ইন্টারেক্টিভ ডেটা বিশ্লেষণের কার্যকারিতা চিত্রিত করার জন্য একটি বাস্তব-বিশ্ব গবেষণা দৃশ্যে এবং উচ্চ-মাত্রিক স্ট্রিমগুলির রিয়েল-টাইম বিশ্লেষণের জন্য, বেশ কয়েকটি ডেটাसेट দিয়ে আমাদের কৌশলটি প্রদর্শন করি।


সাইটে স্বাগতম। আমরা প্রশ্নোত্তর আকারে উচ্চ-মানের পরিসংখ্যান সম্পর্কিত তথ্যের একটি স্থায়ী সংগ্রহস্থল তৈরি করার চেষ্টা করছি। সুতরাং, লিঙ্করোটের কারণে আমরা কেবলমাত্র লিংক-উত্তর থেকে সাবধান ary আপনি যদি লিঙ্কে একটি সম্পূর্ণ উদ্ধৃতি এবং তথ্যের সংক্ষিপ্তসার পোস্ট করতে পারেন, এটি মারা যায় তবে?
গুং - মনিকার পুনরায়

6

বার্নস-হাট আনুমানিকতা টি-এসএনইকে অত্যন্ত স্কেলেবল করে তোলে (কমপক্ষে আপনি এটি 100,000 লাইন দিয়ে ব্যবহার করতে পারেন, আমি চেষ্টা করেছিলাম)। আপনি এটিকে আর: আর্টসনে থেকে কল করতে পারেন

হে(এনলগ(এন))হে(এন2)


1
আমি এটি 250 কে ঘন 1 কে লাইন দিয়ে ব্যবহার করেছি - আসলে বেশ ভাল ছিল তবে এটি স্মৃতি দ্বারা আবদ্ধ।
ভ্লাদিমির চুপাখিন

2

বার্নস-হাট আনুমানিকতা সংস্করণ 0.17.0 অনুযায়ী বিজ্ঞান-শিখতে এখন ডিফল্ট পদ্ধতি:

ডিফল্টরূপে গ্রেডিয়েন্ট গণনা অ্যালগরিদম ও (এনলগএন) সময়ে চলমান বার্নেস-হট আনুমানিকতা ব্যবহার করে। পদ্ধতি = 'নির্ভুল' ও (N ^ 2) সময়ে ধীর, তবে সঠিক, অ্যালগরিদমটিতে চলবে। নিকটতম-প্রতিবেশী ত্রুটিগুলি 3% এর চেয়ে ভাল হওয়া উচিত যখন সঠিক অ্যালগরিদম ব্যবহার করা উচিত। তবে সঠিক পদ্ধতিটি লক্ষ লক্ষ উদাহরণকে স্কেল করতে পারে না। 0.17 সংস্করণে নতুন: বার্নস-হাটের মাধ্যমে আনুমানিক অপ্টিমাইজেশন পদ্ধতি।


এটি প্রশ্নের সমাধান করে না। বিএইচ, দ্রুততর হলেও স্ট্রিমিং সমর্থন করে না। হতে পারে আপনি এটি এই উত্তরটির জন্য একটি মন্তব্য হতে চেয়েছিলেন ।
মার্ভ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.