বিশাল ডেটার জন্য পাইথনে টি-স্নে বাস্তবায়নের গতি উন্নত করুন


18

আমি 200 টি মাত্রা ( doc2vec) সহ প্রায় 1 মিলিয়ন ভেক্টরগুলিতে মাত্রিকতা হ্রাস করতে চাই । আমি এর জন্য মডিউল TSNEথেকে বাস্তবায়নটি ব্যবহার করছি sklearn.manifoldএবং প্রধান সমস্যাটি সময় জটিলতা is এমনকি method = barnes_hut, গণনার গতি এখনও কম। কিছু সময় এমনকি এটি মেমরির বাইরে চলে যায়।

আমি এটিকে 130 জি র‌্যাম সহ একটি 48 কোর প্রসেসরে চালাচ্ছি। এটিকে সমান্তরালভাবে চালিত করার বা প্রক্রিয়াটি গতি বাড়ানোর জন্য প্রচুর সংস্থান ব্যবহার করার কোনও পদ্ধতি আছে কি?


আপনি কি স্পার্কের মতো ফ্রেমওয়ার্কে মানচিত্র হ্রাস করার চেষ্টা করেছেন?
ডওয়ানি 33

নাহ .. এটি কীভাবে কাজ করে এবং আপনি আমাকে দয়া করে পরিচালনা করতে পারেন ..
ইয়াজি


1
দেখুন এই স্পার্ক বাস্তবায়ন কাজ করে কিনা ।
এমরে

1
এটি স্পার্কের জন্য স্কেলা। আপনি যদি অজগর বাস্তবায়ন চান তবে আপনি এটি অনুবাদ করতে সক্ষম হতে পারেন; অজগরকেও স্পার্ক চালায়।
এমরে

উত্তর:



7

এফএফটি-ত্বরণযুক্ত ইন্টারপোলেশন-ভিত্তিক টি-এসএনই ( কাগজ , কোড এবং পাইথন প্যাকেজ ) দেখুন।

বিমূর্ত থেকে:

আমরা উপস্থাপনা করি ফাস্ট ফুরিয়ার ট্রান্সফর্ম-এক্সিলারেটড ইন্টারপোলেশন-ভিত্তিক টি-এসএনই (এফআইটি-এসএনই), যা নাটকীয়ভাবে টি-এসএনইয়ের গণনাকে ত্বরান্বিত করে। টি-এসএনই-এর সর্বাধিক সময় ব্যয়কারী পদক্ষেপটি একটি সমঝোতা যা আমরা একটি সমতুল্য গ্রিডের সাথে ইন্টারপোল্ট করে ততক্ষণে দ্রুত ফুরিয়ার রূপান্তরটি কনভলিউশনটি সম্পাদন করে ব্যবহার করে ত্বরান্বিত করি। আমরা বহু-থ্রেডযুক্ত আনুমানিক নিকটবর্তী প্রতিবেশী ব্যবহার করে উচ্চ মাত্রায় ইনপুট সাদৃশ্যগুলির গণনাটিও অপ্টিমাইজ করি।

কাগজটিতে দশ মিলিয়ন পয়েন্ট এবং 100 টি মাত্রা (ওপি'র সেটিংয়ের অনুরূপ) সহ একটি ডেটাসেটের উদাহরণও অন্তর্ভুক্ত রয়েছে এবং এটিতে ~ 1 ঘন্টা লাগবে বলে মনে হয়।


5

যেহেতু, এসও-তে কোনও উত্তর নেই, তাই আমি গিথুব পৃষ্ঠায় নিজেকে জিজ্ঞাসা করেছি এবং গ্যালভারোকোয়াউক্সের নিম্নলিখিত উত্তরটি উল্লেখ করে বিষয়টি বন্ধ করা হয়েছে ..

আপনি যদি কেবল ভেক্টর অপারেশনকেই সমান্তরাল করতে চান, তবে আপনার এমকেএল-এর সাথে সংকলিত নিম্পির একটি বিল্ড ব্যবহার করা উচিত (এটি নিজে করার চেষ্টা করবেন না, এটি চ্যালেঞ্জিং)।

অ্যালগরিদমে নিজেই উচ্চ-স্তরের সমান্তরালতার পন্থা থাকতে পারে, যা সম্ভবত আরও বড় লাভের দিকে পরিচালিত করবে। যাইহোক, কোডটি তাত্ক্ষণিকভাবে দেখার পরে, আমি এটি করার কোনও সুস্পষ্ট উপায় দেখতে পাইনি।

আমি এই সমস্যাটি এগিয়ে এবং বন্ধ করতে যাচ্ছি, কারণ এটি নীল-আকাশের সাদা তালিকার বেশি। আমি সম্পূর্ণরূপে একমত, আমি TSNE দ্রুত যেতে চাই, এবং এটি দুর্দান্ত হবে সমান্তরালতা সহজ ছিল। তবে বর্তমানের পরিস্থিতিতে আমাদের আরও একটি কাজ এমন রাজ্যে হওয়া দরকার যেখানে আমরা এই জাতীয় পছন্দের তালিকাটি মোকাবেলা করতে পারি।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.