আমার ডেটাতে ক্লাস্টারগুলির উপস্থিতি সনাক্ত / মূল্যায়নের জন্য আমি নিয়মিত এসএনই ( ক্লাস্টারিং কৌশলগুলির পাশাপাশি - শেষ পর্যন্ত আরও কিছু ) ব্যবহার করি। দুর্ভাগ্যক্রমে আমার জ্ঞানের পক্ষে উত্পাদিত হ্রাস মাত্রা ডেটাসেটটি তাকিয়ে সঠিক বিভ্রান্তি বেছে নেওয়ার কোনও মানক উপায় নেই এবং তারপরে এটি যদি অর্থবোধক হয় তা নির্ধারণ করে। কিছু সাধারণ তথ্য আছে, যেমন। গুচ্ছগুলির মধ্যে দূরত্বগুলি বেশিরভাগ অর্থহীন, ছোট বিভ্রান্তির মানগুলি ছোট জমাট-জাতীয় কাঠামোকে উত্সাহ দেয় তবে এটি প্রায়।টি
প্রতিটি পুনর্নির্মাণের সাথে যুক্ত ত্রুটির মান কী তা যাচাই করা একটি থাম্বের নিয়ম-এর একটি খুব রুক্ষ নিয়ম। θ θটি-এসএনই মূল ডোমেনের ডেটাগুলির মধ্যে দূরত্বের বন্টন এবং হ্রাস মাত্রা ডোমেনে ডেটাগুলির মধ্যে দূরত্বের বিতরণের মধ্যে কুলব্যাক-লেবলার ডাইভারজেন্সগুলির যোগফলকে হ্রাস করার চেষ্টা করছে (আসলে টার্গেট বিতরণগুলি হ'ল বিতরণগুলি সম্ভাবনাগুলি যে কোনও বিন্দু তার প্রতিবেশী হিসাবে অন্য একটি পয়েন্ট বাছাই করবে তবে এগুলি দুটি পয়েন্টের মধ্যে দূরত্বের সাথে সরাসরি সমানুপাতিক)। এটি যুক্তিযুক্ত হতে পারে যে কেএল-ডাইভারেন্সের ছোট মানগুলি আরও ভাল ফলাফল দেখায়। এই ধারণাটি বাস্তবে খুব ভাল কাজ করে না তবে এটি তাত্ত্বিকভাবে বিভ্রান্তির মানগুলির কিছু পরিসীমা এবং অ্যালগরিদমের কিছু রানকে স্পষ্টত suboptimal বলে বাদ দিতে সহায়তা করবে। আমি ব্যাখ্যা করি যে কেন এই হিউরিস্টিক প্যানাসিয়া থেকে দূরে এবং এটি কীভাবে হালকাভাবে কার্যকর হতে পারে: দূরত্ব / সম্ভাব্যতা গণনা করতে গাউসিয়ানদের পরিবর্তনের ফলে জটিলতায় প্যারামিটার একচেটিয়াভাবে বৃদ্ধি পায়। অতএব আপনি সামগ্রিকভাবে বিভ্রান্তির পরামিতি বাড়ানোর সাথে সাথে আপনি পরম শর্ত এবং পরবর্তী কেএল-ডাইভারজেন্স মানগুলিতে আরও কম দূরত্ব পাবেন। তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায় তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায় তবুও যদি একই বিভ্রান্তিতে আপনার 20 রান থাকে এবং আপনি তাদের দেখতে না চান (চান না) আপনি সর্বদা ক্ষুদ্রতম পরিবর্তনশীলকে আশা করতে পারেন যে এটি আসল দূরত্বগুলি আরও সঠিকভাবে ধরে রাখবে hop একই জন্য যায়θ , বার্নস-হাটের সান্নিধ্যের জন্য অনুমানের পরামিতি, বিভ্রান্তিটি পরিবর্তন স্থির করে ধরে নিয়েছে এবং তারপরে ফলাফলের পরীক্ষা করা কিছুটা তথ্যপূর্ণ হওয়া উচিত। দিনের শেষে, কম ব্যয় আরও বিশ্বস্ত পুনর্গঠনের সাথে জড়িত। যদিও সব হারিয়ে যায় না ...θ
আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে, একটি ভাল বিভ্রান্তির মান বাছাইয়ের পদ্ধতিটি হালকাভাবে স্বয়ংক্রিয় করার একটি কৌশলটি নিম্নরূপ: হ্রাস মাত্রা ডেটাসেটের জন্য একটি ছোট ক্লাস্টারিং পদ্ধতি (একটি মায়ানস বা ডিবিএসসিএন বলুন ) চালান এবং তারপরে সেই ক্লাস্টারিংয়ের গুণমান নির্ধারণ করুন assess সূচক কিছু বাছাই (ব্যবহার কোহেন এর , রান্ড সূচক , Fowlkes-Mallows কি ভবিষ্যদ্বাণী করা চেষ্টা বিরুদ্ধে, ইত্যাদি)। এখানে ধারণাটি হ'ল আপনার কাজটির জন্য তথ্যের সঠিক উপস্থাপনের জন্য (বিভ্রান্তি নির্ভর এসএনই ফলাফল) সম্পত্তির সাথে তাদের সারিবদ্ধকরণের ক্ষেত্রে সর্বাধিক তথ্যবহুল প্রতিনিধিত্ব (উল্লিখিত মেট্রিকগুলির আকারে) দেওয়া উচিত আপনি ভবিষ্যদ্বাণী করার চেষ্টা করুন এই কারণেইk t tটটটিt- সর্বোপরি এসএনইই প্রথম স্থানে ব্যবহৃত হয়েছিল, ফলস্বরূপ উপস্থাপনাগুলি যদি আমরা তদন্ত করা সম্পত্তিগুলির জন্য যদি অজ্ঞাতসারে হয় তবে এটির কম পুনর্নির্মাণ ত্রুটি, ভিজ্যুয়াল আপিল ইত্যাদির পরেও এটি ভাল নয় is
আমাকে উল্লেখ করতে দিন যে আমি যা বর্ণনা করি তা হিউরিস্টিক্স । আমার পোস্টের শুরুতে যেমন উল্লেখ করা হয়েছে, ফলগুলি ম্যানুয়ালি পরীক্ষা করা ফলাফলের মাত্রিকতা হ্রাস / ক্লাস্টারিংয়ের গুণমান নির্ণয়ের একটি অপরিহার্য উপায়।