পিসিএর তুলনায় স্পার্স পিসিএ কীভাবে ভাল?


24

আমি ক্লাসে কিছু বক্তৃতা আগে পিসিএ সম্পর্কে শিখেছি এবং এই আকর্ষণীয় ধারণাটি সম্পর্কে আরও খনন করে আমি স্পার্স পিসিএ সম্পর্কে জানতে পারি।

আমি জিজ্ঞাসা করতে চেয়েছিলাম, আমি যদি ভুল না হয়ে থাকি তবেই এটি বিরাট পিসিএ হ'ল: পিসিএতে, আপনার যদি ভেরিয়েবলের সাথে ডাটা পয়েন্ট থাকে , আপনি পিসিএ প্রয়োগ করার আগে ডাইমেনশনাল স্পেসে প্রতিটি ডাটা পয়েন্ট উপস্থাপন করতে পারেন । পিসিএ প্রয়োগ করার পরে, আপনি আবার একই মাত্রিক স্থানটিতে এটি উপস্থাপন করতে পারেন, তবে, এবার প্রথম প্রধান উপাদানটিতে সবচেয়ে বেশি বৈকল্পিকতা থাকবে, দ্বিতীয়টিতে দ্বিতীয়টি সবচেয়ে বেশি ভিন্ন ভিন্ন দিক থাকবে। সুতরাং আপনি শেষ কয়েকটি মূল উপাদানগুলি মুছে ফেলতে পারেন, কারণ সেগুলি প্রচুর পরিমাণে ডেটা হ্রাস পাবে না এবং আপনি ডেটা সংকোচন করতে পারেন। রাইট?পি পিnpp

স্পার্স পিসিএ মূল উপাদানগুলি নির্বাচন করছে যে এই উপাদানগুলিতে তাদের ভেক্টর সহগগুলিতে কম শূন্য মান রয়েছে।

এটি কীভাবে আপনাকে ডেটা আরও ভালভাবে ব্যাখ্যা করতে সহায়তা করবে? কেউ কি উদাহরণ দিতে পারে?


হ্যালো @ গ্রাউনম্যান! আপনি এই প্রশ্নের আমার উত্তর দেখেছেন? আপনি কি মনে করেন এটি এর জবাব দিয়েছে? যদি তা না হয় তবে নির্দ্বিধায় কোনও স্পেসিফিকেশন জিজ্ঞাসা করুন বা সম্ভবত আরও প্রশ্নটি সম্পাদন করার জন্য এটি আরও সুনির্দিষ্ট করার জন্য বিবেচনা করুন। যদি হ্যাঁ, তবে কাছাকাছি কোনও সবুজ রঙের টিক ক্লিক করে এটিকে উত্সাহ দেওয়া এবং "গ্রহণ" করার বিষয়টি বিবেচনা করুন। আমি লক্ষ্য করেছি যে আপনার এখানে শূন্য ভোট এবং শূন্য স্বীকৃত থ্রেডগুলি ক্রসভিলেটেডে রয়েছে।
অ্যামিবা বলছেন

@ আমেবা এটি নির্দেশ করার জন্য ধন্যবাদ কিছুক্ষণের জন্য লগইন হয়নি এবং আমি মেশিন লার্নিংয়ের সাথে যোগাযোগের বাইরেও আছি। আমি আপনার উত্তরটি আবার পড়তে নিশ্চিত হব এবং সাপ্তাহিক ছুটির মধ্যে উত্তরগুলি এখানে চিহ্নিত করব
GrowinMan

সমস্যা নেই. আমি দুর্ঘটনাক্রমে এই পুরানো থ্রেডটি পেরিয়ে এসেছি এবং আপনাকে একটি লাইন ফেলে দেওয়ার চিন্তা করেছি।
অ্যামিবা বলছেন মনিকাকে

হ্যালো @ গ্রাউনম্যান! :-) আবার এই পুরানো থ্রেড জুড়ে এসেছিল। আপনি যদি এখনও মনে করেন যে এই প্রশ্নটি সমাধান না করা হয়েছে, দয়া করে বিনা দ্বিধায় স্পষ্টতা জিজ্ঞাসা করুন। অন্যথায়, নিকটে কাছাকাছি একটি সবুজ টিক ক্লিক করে উত্তরগুলির একটিটিকে আপভোটিং এবং "গ্রহণ" বিবেচনা করুন। আমি লক্ষ্য করেছি যে আপনার এখানে শূন্য ভোট এবং শূন্য স্বীকৃত থ্রেডগুলি ক্রসভিলেটেডে রয়েছে।
অ্যামিবা বলছেন মনিকা পুনর্নির্মাণ

উত্তর:


29

স্টার্স পিসিএ স্ট্যান্ডার্ড পিসিএর তুলনায় ব্যাখ্যা করা সহজ কিনা বা না, আপনি যে ডেটাसेटটি অনুসন্ধান করছেন তার উপর নির্ভর করে। আমি এটি সম্পর্কে কীভাবে ভাবছি তা এখানে: কখনও কখনও একজন পিসিএ অনুমানগুলিতে বেশি আগ্রহী হন (ডেটার নিম্ন মাত্রিক উপস্থাপনা), এবং কখনও কখনও - প্রধান অক্ষগুলিতে; এটি কেবলমাত্র পরবর্তী ক্ষেত্রে স্পর্স পিসিএ ব্যাখ্যার জন্য কোনও সুবিধা থাকতে পারে। আমার কয়েকটি উদাহরণ দেওয়া যাক।

আমি উদাহরণস্বরূপ নিউরাল ডেটা (অনেকগুলি নিউরনের একযোগে রেকর্ডিং) নিয়ে কাজ করছি এবং পিসিএ এবং / বা সম্পর্কিত মাত্রিকতা হ্রাস কৌশলগুলি স্নায়বিক জনসংখ্যার ক্রিয়াকলাপের নিম্ন-মাত্রিক উপস্থাপনা পেতে প্রয়োগ করছি। আমার কাছে 1000 নিউরন থাকতে পারে (অর্থাত আমার ডেটা 1000-মাত্রিক স্থানে থাকে) এবং এটি তিনটি শীর্ষস্থানীয় প্রধান অক্ষগুলিতে প্রজেক্ট করতে চাই। এই অক্ষগুলি কী, তা আমার জন্য সম্পূর্ণ অপ্রাসঙ্গিক এবং কোনওভাবেই এই অক্ষগুলি "ব্যাখ্যা" করার আমার কোনও ইচ্ছা নেই। আমি যা আগ্রহী তা হ'ল 3 ডি প্রক্ষেপণ (ক্রিয়াকলাপ সময়ের উপর নির্ভর করে, আমি এই 3 ডি স্পেসে একটি ট্র্যাজেক্টরি পেয়েছি)। সুতরাং আমি ঠিক আছি যদি প্রতিটি অক্ষের সমস্ত 1000 অ-শূন্য সহগ হয়।

অন্যদিকে, কেউ হয়তো আরও "স্পষ্ট" ডেটা নিয়ে কাজ করছেন, যেখানে পৃথক মাত্রাগুলির সুস্পষ্ট অর্থ রয়েছে (উপরের স্বতন্ত্র নিউরনের বিপরীতে)। যেমন বিভিন্ন গাড়ির একটি ডেটাসেট, যেখানে মাত্রা ওজন থেকে দাম পর্যন্ত কোনও কিছু are এক্ষেত্রে কেউ হয়তো নিজেদের প্রধান নেতৃস্থানীয় অক্ষগুলিতে আগ্রহী হতে পারে, কারণ কেউ কিছু বলতে চাইবে: দেখুন, 1 ম মূল অক্ষটি গাড়ির "কল্পিত" সাথে মিলিত (আমি এখন এটি সম্পূর্ণরূপে তৈরি করছি)। যদি অভিক্ষেপটি অপেক্ষাকৃত কম থাকে তবে এই জাতীয় ব্যাখ্যাগুলি দেওয়া সহজতর হবে কারণ অনেকগুলি ভেরিয়েবলের সহগ হবে এবং এটি নির্দিষ্ট অক্ষের জন্য স্পষ্টত অপ্রাসঙ্গিক। স্ট্যান্ডার্ড পিসিএর ক্ষেত্রে, সমস্ত সাধারণত সমস্ত ভেরিয়েবলের জন্য শূন্য-সহগ হয় ffic0

2006 এর স্পার্স পিসিএ গবেষণাপত্রে জউ এট আল- এর আরও উত্তর এবং পরবর্তী আলোচনার সন্ধান করতে পারেন । পূর্ববর্তী এবং পরবর্তী মামলার মধ্যে পার্থক্য, তবে আমি কোথাও স্পষ্টভাবে আলোচনা করতে দেখিনি (যদিও এটি সম্ভবত ছিল)।


3
এটি একটি দুর্দান্ত ব্যাখ্যা ছিল। আপনার "স্পষ্ট" ডেটার আরেকটি উদাহরণ হ'ল অনেক প্রশ্নের সমীক্ষা এবং আপনি জানতে চান জরিপের কোন প্রশ্নগুলি সবচেয়ে গুরুত্বপূর্ণ এবং সম্ভবত সেগুলির কিছু সংমিশ্রণ একটি বিষয় সম্পর্কে সত্যই জিজ্ঞাসা করছে।
বিডিয়নভিক

1

সুতরাং আপনি শেষ কয়েকটি মূল উপাদানগুলি মুছে ফেলতে পারেন, কারণ সেগুলি প্রচুর পরিমাণে ডেটা হ্রাস পাবে না এবং আপনি ডেটা সংকোচন করতে পারেন। রাইট?

হ্যাঁ আপনি ঠিক. যদি আছে ভেরিয়েবল করার পরে, আছে প্রধান উপাদান , এবং প্রত্যেক পরিবর্তনশীল যে পিসিতে একটি তথ্য (ক অবদান) আছে ।ভি 1 , ভি 2 , , ভি এন এন পি সি 1 , পি সি 2 , , পি সি এন ভি আই পি সি আইNV1,V2,,VNNPC1,PC2,,PCNViPCi

বিরল পিসিএ আছেন কিছু ভেরিয়েবল তথ্য ছাড়া , সহগ শূন্য দিয়ে ভেরিয়েবল।ভি জে , ভি এল , PCiVj,Vl,

তারপরে, যদি প্লেনে প্রত্যাশার চেয়ে কম ভেরিয়েবল থাকে ( ), তবে এই বিমানে তাদের মধ্যে রৈখিক সম্পর্ক পরিষ্কার করা সহজ clear এন(PCi,PCj)N


কিভাবে !? আমি দেখছি না যে, অধ্যক্ষ উপাদানগুলি অপ্রয়োজনীয় না হয়ে গেলে এই ক্ষেত্রে ব্যাখ্যা করা কীভাবে সহজ হবে।
GrowinMan

2
আমি এটি সম্পর্কে যেভাবে চিন্তা করি তা হ'ল ফলাফলগুলি আরও ব্যাখ্যাযোগ্য করে তোলার জন্য আমরা প্রায়শই পিসির সামনে ভেরিয়েবল ক্লাস্টারিং করি। বিচ্ছিন্ন পিসি পরিবর্তনশীল ক্লাস্টারিং এবং পিসিকে এক ধাপে একত্রিত করে, বিশ্লেষকের পক্ষ থেকে কম সিদ্ধান্ত নেওয়া প্রয়োজন।
ফ্রাঙ্ক হ্যারেল

1

পিসিএ-তে স্পারসিটির সুবিধাগুলি বোঝার জন্য আপনাকে "লোডিং" এবং "ভেরিয়েবল" এর মধ্যে পার্থক্য সম্পর্কে নিশ্চিত হওয়া দরকার (আমার কাছে এই নামগুলি কিছুটা স্বেচ্ছাচারী, তবে এটি গুরুত্বপূর্ণ নয়)।

বলুন আপনার কাছে একটি এনএসপি ডেটা ম্যাট্রিক্স এক্স রয়েছে , যেখানে এন নমুনার সংখ্যা। এক্স = ইউএসভি'র এসভিডি , আপনাকে তিনটি ম্যাট্রিক দেয়। প্রথম দুটি জেড = ইউএসের সংমিশ্রণ আপনাকে প্রধান উপাদানগুলির ম্যাট্রিক্স দেয়। আসুন বলে আপনার হ্রাস র্যাঙ্ক হয় , তারপর জেড হয় nxkজেড মূলত হ'ল মাত্রা হ্রাসের পরে আপনার ডেটা ম্যাট্রিক্স। ঐতিহাসিকভাবে,

আপনার মূল উপাদানগুলির প্রবেশের জন্য (ওরফে জেড = মার্কিন ) ভেরিয়েবল বলা হয়।

অন্যদিকে, ভি (যা পিএক্সকে ) প্রিন্সিপাল লোডিং ভেক্টর ধারণ করে এবং এর এন্ট্রিগুলিকে অধ্যক্ষ লোডিং বলা হয়। পিসিএর বৈশিষ্ট্যগুলি দেওয়া, জেড = এক্সভি প্রদর্শন করা সহজ । এই যে মানে:

মূল উপাদানগুলি আপনার ডেটা ম্যাট্রিক্স এক্স এর রৈখিক সংমিশ্রণে সহগ হিসাবে প্রিন্সিপাল লোডিংগুলি ব্যবহার করে উদ্ভূত হয় ।

এখন যেহেতু এই সংজ্ঞাগুলি শেষ হয়ে গেছে, আমরা কদাচিৎ দেখব। বেশিরভাগ কাগজপত্র (বা কমপক্ষে বেশিরভাগ ক্ষেত্রেই আমি মুখোমুখি হয়েছি), মূল লোডিংগুলিতে (ওরফে ভি ) স্পারসিটি প্রয়োগ করে । স্পারসিটির সুবিধা হ'ল

একটি স্পার্স ভি আমাদের জানায় যে কোন পরিবর্তনশীলগুলি (মূল পি- ডাইমেনশনাল বৈশিষ্ট্য স্পেস থেকে) রাখে। একে ব্যাখ্যাযোগ্যতা বলা হয়।

জেড এর এন্ট্রিগুলিতে স্পারসিটি প্রয়োগের জন্য ব্যাখ্যা রয়েছে , যা আমি লোকদের "স্পার্স ভেরিয়েবল পিসিএ" বলে ডাকতে দেখেছি, তবে এটি অনেক কম জনপ্রিয় এবং সত্য কথা বলতে আমি এ সম্পর্কে তেমন ভাবিনি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.