পিসিএ বলতে কী বোঝায় কেবল বড় জোড় দূরত্ব সংরক্ষণ?


10

আমি বর্তমানে টি-এসএনই ভিজ্যুয়ালাইজেশন কৌশলটি পড়ছি এবং এটি উল্লেখ করা হয়েছিল যে উচ্চ-মাত্রিক ডেটা দেখার জন্য প্রধান উপাদান বিশ্লেষণ (পিসিএ) ব্যবহার করার একটি অসুবিধা হ'ল এটি কেবলমাত্র পয়েন্টগুলির মধ্যে বৃহত্তর জোড়াযুক্ত দূরত্ব সংরক্ষণ করে। উচ্চ মাত্রার স্থানের তুলনায় পৃথক পৃথক অর্থ অর্থ পয়েন্টগুলি নিম্ন-মাত্রিক উপ-স্পেসেও অনেক দূরে উপস্থিত হবে তবে এগুলি ছাড়াও অন্যান্য সমস্ত যুগল-দূরত্ব খারাপ হবে।

কেউ আমাকে বুঝতে সাহায্য করতে পারে যে এটি কেন এবং গ্রাফিকালি এর অর্থ কী?


পিসিএ ইউক্লিডিয়ান এবং মহালানোবিস দূরত্বগুলির সাথে ঘনিষ্ঠভাবে সম্পর্কিত, যা উচ্চ মাত্রায় মায়োপিক, তারা ছোট দূরত্ব দেখতে পারে না।
আকসকাল

আরও লক্ষ করুন যে পিসিএ, সাধারণ মেট্রিক এমডিএস হিসাবে দেখা যায়, সমষ্টিযুক্ত স্কোয়ার্ড ইউক্যালিডিয়ান দূরত্বগুলি পুনর্গঠনের বিষয়ে about Hense, ছোট দূরত্বের জন্য নির্ভুলতা ভোগে।
ttnphns

উত্তর:


8

নিম্নলিখিত ডেটাসেট বিবেচনা করুন:

পিসিএ ডেটাসেট

পিসি 1 অক্ষটি প্রক্ষেপণের বৈচিত্রটি সর্বাধিক করছে। সুতরাং এক্ষেত্রে এটি অবশ্যই নিম্ন-বাম থেকে উপরের-ডান কোণে তির্যকভাবে চলে যাবে:

পিসিএ কেবলমাত্র বড় জোড় দূরত্ব সংরক্ষণ করে

মূল ডেটাসেটের সবচেয়ে বড় জোড় দূরত্ব এই দুটি বাহ্যিক পয়েন্টের মধ্যে; লক্ষ্য করুন যে এটি প্রায় ঠিক পিসি 1 এ সংরক্ষিত আছে। ক্ষুদ্রতর তবে এখনও যথেষ্ট পরিমাণে দূরত্বে দূরত্বগুলি প্রতিটি বাহ্যিক পয়েন্ট এবং অন্যান্য সমস্ত পয়েন্টের মধ্যে রয়েছে; এগুলি যুক্তিসঙ্গতভাবে খুব ভাল সংরক্ষণ করা হয়। তবে যদি আপনি কেন্দ্রীয় ক্লাস্টারের পয়েন্টগুলির মধ্যে আরও ছোট জোড়ের দূরত্বগুলি দেখেন, তবে আপনি দেখতে পাবেন যে এর কয়েকটি দৃ strongly়ভাবে বিকৃত।

আমি মনে করি এটি সঠিক अंतर्ज्ञान দেয়: পিসিএ সর্বাধিক বৈকল্পিকতার সাথে স্বল্প-মাত্রিক উপ-স্থান খুঁজে পায়। সর্বাধিক বৈচিত্রের অর্থ এই যে উপসর্গটি কেন্দ্র থেকে অনেক দূরে অবস্থিত পয়েন্টগুলির কাছাকাছি যাওয়ার মতো প্রান্তিককরণের প্রবণতা হবে; অতএব বৃহত্তম জোড়ের দিক থেকে দূরত্বগুলি ভালভাবে সংরক্ষণ করা হবে এবং ছোটগুলিও তাই কম থাকবে।

তবে নোট করুন যে এটি একটি আনুষ্ঠানিক যুক্তিতে রূপান্তরিত করা যায় না কারণ বাস্তবে এটি অগত্যা সত্য নয়। আমার উত্তরটি একবার দেখুন, মূল উপাদান বিশ্লেষণ এবং বহুমাত্রিক স্কেলিংয়ের মধ্যে পার্থক্য কী? যদি আপনি উপরের পরিসংখ্যানগুলি থেকে পয়েন্টগুলি গ্রহণ করেন, ম্যাট্রিক্স জোড়াবিশিষ্ট দূরত্বগুলি তৈরি করুন এবং 1D প্রক্ষেপণটি কী যা দূরত্বগুলি যতটা সম্ভব সংরক্ষণ করা যায় তা জিজ্ঞাসা করুন, তবে উত্তরটি এমডিএস সমাধান দ্বারা দেওয়া হয়েছে এবং প্রদত্ত নয় পিসি 1 । যাইহোক, যদি আপনি একটি বিবেচনা pairwise ম্যাট্রিক্স স্কালে পণ্য কেন্দ্রিক, তাহলে এটি হল10 × 10 10 × 101010×1010×10আসলে পিসি 1 দ্বারা সুনির্দিষ্টভাবে সংরক্ষণ করা হয়েছে (প্রমাণের জন্য আমার উত্তরটি এখানে দেখুন)। এবং যে কেউ যুক্তি দিতে পারে যে বড় জোড়ের দিক থেকে দূরত্বগুলি সাধারণত বড় আকারের স্ক্যালার পণ্যগুলিও বোঝায়; প্রকৃতপক্ষে, একটি এমডিএস অ্যালগরিদম (শাস্ত্রীয় / টোজারসন এমডিএস) স্পষ্টভাবে এই অনুমানটি তৈরি করতে রাজি।

সুতরাং সংক্ষেপে:

  1. পিসিএ'র লক্ষ্য, জুটিওয়ালা স্কেলার পণ্যগুলির ম্যাট্রিক্স সংরক্ষণ করা, এই অর্থে যে আসল এবং পুনর্গঠিত স্কেলারের পণ্যগুলির মধ্যে স্কোয়ারের পার্থক্যের যোগফলটি ন্যূনতম হওয়া উচিত।
  2. এর অর্থ হ'ল এটি স্কেলার পণ্যগুলিকে সর্বাধিক পরম মান সহ সংরক্ষণ করবে এবং ছোট পরিপূর্ণ মানযুক্তদের সম্পর্কে কম যত্ন নেবে, কারণ তারা স্কোয়ার ত্রুটির যোগফলের দিকে কম যোগ করবে।
  3. সুতরাং, পিসিএ আরও বড় আকারের স্কেলারের পণ্যগুলি ছোটগুলির চেয়ে ভাল সংরক্ষণ করে।
  4. পেয়ারওয়াইস দূরত্বগুলি কেবল স্কেলারের পণ্যগুলির মতোই সংরক্ষণ করা হবে যা প্রায়শই তবে সর্বদা হয় না। যদি এটি হয় তবে বড় জোড়ের দূরত্বগুলিও ছোটগুলির চেয়ে ভাল সংরক্ষণ করা হবে।

আমি মনে করি এটি সঠিক দৃষ্টিভঙ্গি নয়। মাত্রিকতা বৃদ্ধির সাথে কীভাবে জিনিসগুলি খারাপ হয়ে যায় তা এটি দেখায় না
আকসাকাল

2
আমি আপনার মতামতটি বুঝতে পারছি না, @আসাকাল। আপনার দৃষ্টিকোণ সহ একটি বিকল্প উত্তর পোস্ট করার বিষয়ে বিবেচনা করুন। আমি মনে করি ছোট জোড়ের দূরত্বের চেয়ে আরও বড় সংরক্ষণের প্রভাবটি ইতিমধ্যে 2 ডি তে উপস্থিত রয়েছে এবং কী চলছে তা বোঝার জন্য উচ্চতর মাত্রা সম্পর্কে চিন্তা করার দরকার নেই। অতএব আমি একটি সাধারণ 2D উদাহরণের দিকে মনোনিবেশ করেছি।
অ্যামিবা

আপনি যা আঁকেন তা কোনও পদ্ধতিতে প্রযোজ্য। আমি খুব দূরে বেশ কয়েকটি পয়েন্ট রাখতে পারি এবং তর্ক করতে পারি যে তারা বাকী অংশগুলিকে ছাড়িয়ে গেছে। ইউক্লিডিয়ান দূরত্বের সমস্যা হ'ল তাদের গতিশীল পরিসরটি মাত্রা বৃদ্ধির সাথে সঙ্কুচিত হয়
আকাকাল

+1, তবে আমি আপনার উচ্চারণের চেয়ে কিছুটা আলাদাভাবে একটি উচ্চারণ স্থানান্তর করব (পয়েন্ট 4 মূলত)। জিনিসটি এই নয় যে এগুলি দূরত্ব এবং সেগুলি স্কেলার পণ্যগুলি ("ডাবল সেন্টারেশন" ম্যাট্রিক্স) - সর্বোপরি, তির্যক দেওয়া থাকলে তারা অভিন্ন তথ্য সংরক্ষণ করে। বরং সমস্যাটি হ'ল পিসিএ বনাম ফ্যাক্টর বিশ্লেষণের মতভেদগুলির সাথে একই রকম। টর্গারসনের পিসিওএ, পিসিএ হিসাবে, এসসিটির পুনর্গঠন সর্বাধিক করার লক্ষ্যে থাকবে। শঙ্কু। ম্যাট্রিক্স সাধারণত তার তির্যক মাধ্যমে, বিশেষভাবে নিয়ন্ত্রণ করে না যে কীভাবে অফ-ডায়াগোনাল এন্ট্রিগুলি ফিট করা হবে।
ttnphns

(অবিরত) উল্লিখিত তিরস্কারের চিহ্নটি সামগ্রিক পরিবর্তনশীলতা এবং স্বতন্ত্র দূরত্বগুলি পিছনে রেখে সমস্ত বর্গক্ষেত্রযুক্ত জোড় দূরত্বের যোগফলের সাথে সরাসরি সম্পর্কিত। এটি একার্ট-ইয়ং উপপাদকের ক্ষেত্রেও ব্যাখ্যা করা যেতে পারে যা বলে যে পিসিএ-পুনর্গঠিত ডেটা ক্লাউডটি মূল স্কোয়ারের যোগফলের সাথে সবচেয়ে কাছাকাছি; অর্থাৎ, পুরানো পয়েন্ট এবং তাদের পিসিএ-প্রজেক্টড স্পটগুলির মধ্যে সামগ্রিক স্কোয়ার দূরত্বটি ন্যূনতম। এটি পুরানো যুগের দূরত্বের মতো নয় - নতুন পিডব্লিউ দূরত্বের সম্পর্ক।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.