মাত্রা হ্রাস করার জন্য টি-এসএনইর জন্য পরামিতিগুলি কীভাবে নির্ধারণ করবেন?


11

আমি শব্দ এম্বেডিং খুব নতুন। আমি কীভাবে দস্তাবেজগুলি শেখার পরে নজর রাখছি তা কল্পনা করতে চাই ize আমি পড়েছি যে টি-এসএনই হ'ল এটি করার পন্থা। এম্বেডিংয়ের আকার হিসাবে 250 টি মাত্রা সহ আমার কাছে 100K ডকুমেন্ট রয়েছে। পাশাপাশি বেশ কয়েকটি প্যাকেজ উপলব্ধ রয়েছে।

তবে, টি-এসএনই-র জন্য, আমি জানি না কতটা পুনরাবৃত্তি বা আলফার মান বা বেঁচে থাকার মানটি আরও ভাল করে চালিয়ে যাওয়া উচিত।

এই হাইপার-প্যারামিটারগুলি বা এগুলি কিছু বৈশিষ্ট্য দ্বারা নির্ধারণ করা যেতে পারে?

উত্তর:


12

আমি কার্যকরভাবে টি-এসএনই কীভাবে ব্যবহার করব সেই নিবন্ধটি খুব উচ্চারণ করেছি । এটিতে tsne ফিটিং প্রক্রিয়াটির দুর্দান্ত অ্যানিমেটেড প্লট রয়েছে এবং এটিই প্রথম উত্স যা আমাকে tsne কী করে তার একটি অন্তর্নিহিত ধারণা দেয়।

উচ্চ স্তরে, উদ্বেগ হল প্যারামিটার যা গুরুত্বপূর্ণ that 5, 30 এবং 50 এর বিভ্রান্তি চেষ্টা করে দেখতে এবং ফলাফলগুলি দেখতে ভাল ধারণা।

তবে গুরুত্ব সহকারে, টি-এসএনই কার্যকরভাবে কীভাবে ব্যবহার করবেন তা পড়ুন। এটি আপনার টিএসএনই ব্যবহারকে আরও কার্যকর করে তুলবে।

প্যাকেজের জন্য, ব্যবহার Rtsne আর, বা sklearn.manifold.TSNE পাইথন মধ্যে


বৃহত্তর ডেটাসেটের জন্য এবং আপনার কম্পিউটারে জিপিইউ ব্যবহার করার জন্য। এনভিডিয়া দ্বারা র‌্যাপিডস লাইব্রেরিটি দেখুন। [র‌্যাপিডস.এআই] (র‌্যাপিডস.ইআই)
আকাশ গুপ্ত

2

আমি টি-এসএনই ওয়েবসাইট থেকে জিজ্ঞাসিত প্রশ্নাবলী উদ্ধৃত করব । বিভ্রান্তির জন্য প্রথম:

আমি কীভাবে টি-এসএনই-তে বিভ্রান্তি সেট করব?

টি-এসএনইয়ের পারফরম্যান্স বিহ্বলতার বিভিন্ন সেটিংসে মোটামুটি শক্ত। সবচেয়ে উপযুক্ত মানটি আপনার ডেটার ঘনত্বের উপর নির্ভর করে। স্বাচ্ছন্দ্যে বললে, কেউ বলতে পারেন যে বৃহত্তর / ডেনসার ডেটাসেটের জন্য আরও বেশি বিচলিত হওয়া দরকার। বিড়ম্বনার জন্য 5 এবং 50 এর মধ্যে আদর্শ মান for

অন্যান্য সমস্ত প্যারামিটারগুলির জন্য আমি এটি পড়ার বিষয়টি বিবেচনা করব:

আমি কীভাবে টি-এসএনই নির্মিত ভিজ্যুয়ালাইজেশনের মানের মূল্যায়ন করতে পারি?

সাধারণত, তাদের তাকান! লক্ষ্য করুন যে টি-এসএনই দূরত্বগুলি রাখে না তবে সম্ভাবনাগুলি ধরে রাখে, তাই হাই-ডি এবং লো-ডি-তে ইউক্লিডিয়ান দূরত্বগুলির মধ্যে কিছু ত্রুটি পরিমাপ করা অকেজো। তবে, আপনি যদি একই ডেটা এবং বিভ্রান্তি ব্যবহার করেন তবে টি-এসএনই রিপোর্টের কুলব্যাক-লেবেলার ডাইভারজেন্সগুলির তুলনা করতে পারেন। দশবার টি-এসএনই চালানো পুরোপুরি ঠিক আছে, এবং সর্বনিম্ন কেএল ডাইভারজেন্স সহ সমাধানটি নির্বাচন করুন।

অন্য কথায় এর অর্থ: প্লটটি দেখুন, ভিজ্যুয়ালাইজেশন ভাল থাকলে পরামিতিগুলি পরিবর্তন করবেন না। আপনি প্রতিটি স্থির বিভ্রান্তির জন্য সর্বনিম্ন কেএল ডাইভারজেন্সের সাথে রানটিও চয়ন করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.