উপাদানগুলির সংখ্যা বাছাই করার জন্য, পিসিএ ফিটের মান নির্ধারণ করার জন্য ভাল মেট্রিকগুলি কী কী?


10

প্রধান উপাদান বিশ্লেষণের (পিসিএ) গুণমান নির্ধারণের জন্য একটি ভাল মেট্রিক কী?

আমি একটি ডেটাসেটে এই অ্যালগরিদম সম্পাদন করেছি। আমার উদ্দেশ্যটি ছিল বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করা (তথ্যটি খুব অপ্রয়োজনীয় ছিল)। আমি জানি যে শতাংশের বৈকল্পিকতা আমরা কতটা তথ্য রাখি তার একটি ভাল সূচক, আমি অপ্রয়োজনীয় তথ্য সরিয়েছি এবং এই জাতীয় তথ্য 'হারাতে পারি নি' তা নিশ্চিত করতে আমি কি অন্যান্য তথ্য মেট্রিক ব্যবহার করতে পারি?


3
কড়া কথায় বলতে গেলে, কোনও "রিন্ডানড" তথ্য নেই, যদি না আপনার প্রাথমিক তথ্য পুরোপুরি কোলাইনারি না থাকে। একজন সাধারণত বৈকল্পিকতা ধরে রাখার শতকরা হার দেখতে পান ("আমরা প্রথম পাঁচটি মূল উপাদান ব্যবহার করেছি, যা 90% বৈকল্পিকের জন্য")। আমি বিকল্প দেখতে আগ্রহী।
স্টিফান কোলাছা

যেহেতু আপনার ট্যাগগুলির মধ্যে একটি তথ্য তত্ত্ব: পিসিএ কাজ করে কিনা তা মূল্যায়নের একটি অপ্রত্যক্ষ উপায় হ'ল অনুমানগুলি পরীক্ষা করে যা তথ্য তত্ত্ব আমাদের জানায় যে এটি একটি প্রদত্ত মাত্রা হ্রাসের জন্য কম তথ্য ক্ষয়ক্ষতি করেছে। উইকি বলেছেন যে আপনার ডেটা গাউসিয়ান সিগন্যাল প্লাস গাওসিয়ান শোরগোলের যোগফল। en.wikipedia.org/wiki/...
CloseToC

উত্তর:


17

আমি এই প্রশ্নের অংশটি ধরে নিয়েছি যে ক্রমবর্ধমান শতাংশের ভিন্নতা (সিপিভি) এবং অনুরূপ স্ক্রি প্লটের পদ্ধতির পাশাপাশি অন্যান্য মেট্রিকের উপস্থিতি আছে কি না। এর উত্তর হ্যাঁ, অনেকগুলি

কিছু বিকল্পের জন্য দুর্দান্ত কাগজটি ভ্যালি 1999:

এটি সিপিভি-র উপরে চলেছে, তবে সমান্তরাল বিশ্লেষণ, ক্রস-বৈধকরণ, পুনর্গঠনের ত্রুটির ভেরিয়েন্স (ভিআরই), তথ্যের মানদণ্ড ভিত্তিক পদ্ধতি এবং আরও অনেক কিছু। আপনি ভিআরই তুলনা এবং ব্যবহারের পরে কাগজের তৈরি সুপারিশটি অনুসরণ করতে পারেন, তবে প্রেসের উপর ভিত্তি করে ক্রস-বৈধকরণ আমার অভিজ্ঞতাতেও ভাল কাজ করে এবং তারাও এর সাথে ভাল ফলাফল পান। আমার অভিজ্ঞতায়, সিপিভি সুবিধাজনক এবং সহজ, এবং একটি ভাল কাজ করে, তবে এই দুটি পদ্ধতি সাধারণত আরও ভাল।

আপনি যদি ডেটা সম্পর্কে আরও জানেন তবে আপনার পিসিএ মডেলটি কতটা ভাল তা মূল্যায়ন করার অন্যান্য উপায় রয়েছে। একটি উপায় হ'ল আনুমানিক পিসিএ লোডিংগুলিকে সত্যিকারের সাথে তুলনা করা যদি আপনি সেগুলি জানেন (যা আপনি সিমুলেশনগুলিতে করেন)। সত্যের কাছে আনুমানিক লোডিংয়ের পক্ষপাত গণনা করে এটি করা যেতে পারে। আপনার পক্ষপাত যত বড়, আপনার মডেলটি তত খারাপ। এটি কীভাবে করবেন, আপনি এই কাগজটি পরীক্ষা করতে পারেন যেখানে তারা পদ্ধতির তুলনা করতে এই পদ্ধতির ব্যবহার করেন। এটি সত্যিকারের ডেটা ক্ষেত্রে ব্যবহারযোগ্য নয়, যেখানে আপনি সত্য পিসিএ লোডিংগুলি জানেন না। এটি বাহ্যিক পর্যবেক্ষণের প্রভাবের কারণে আপনার মডেলের পক্ষপাতিত্বের চেয়ে আপনি কতগুলি উপাদান সরিয়েছেন সে সম্পর্কে এটি কম কথা বলে, তবে এটি এখনও মডেল মানের মেট্রিক হিসাবে কাজ করে।



3

এর মতো তথ্য-তাত্ত্বিক মানদণ্ডের ভিত্তিতেও ব্যবস্থা রয়েছে

রিসানেনের এমডিএল (এবং বিভিন্নতা)


@ ব্যবহারকারী: 45382 হ্যাঁ, এটি অন্যটি। ঝুবার্বের লিঙ্কগুলির সাথে কাগজে এটি স্পর্শ করা হয়েছে।
ডেথকিল 14

@ ডেথকিল ১৪ সঠিক আমি কাগজটি পড়েছি, তথ্য-তাত্ত্বিক ব্যবস্থাগুলি উল্লেখ করা হয়েছে (আসলে ভাল বিকল্প হিসাবে)
নিকস এম।

এমডিএল, এমএমএল এবং বায়েশিয়ানিজম সম্পর্কিত একটি দুর্দান্ত তাত্ত্বিক কাগজ: ভিটানি অ্যান্ড লি, আইডিয়াল এমডিএল এবং এর রিলেশন টু বয়েশিয়ানিজম সিটিসিয়ারেক্স.আইটি.এসপু.ইডু / ভিউডোক / সুম্মারি ? doi=10.1.1.56.8580 । এছাড়াও অন্যান্য মডেল নির্বাচন পদ্ধতি যেমন এআইসি এবং বিআইসি কার্যকরভাবে এমডিএল বাস্তবায়ন করে।
ggll
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.