ধরে রাখতে মূল উপাদানগুলির সংখ্যা নির্বাচন করা


10

আমার কাছে একটি পদ্ধতি যা পরামর্শ দেওয়া হয়েছিল তা হ'ল স্ক্রি প্লটটি দেখুন এবং পিসি ব্যবহারের সঠিক সংখ্যা নির্ধারণ করার জন্য "কনুই" পরীক্ষা করা। তবে প্লটটি পরিষ্কার না হলে, সংখ্যাটি নির্ধারণের জন্য কি আর কোনও গণনা আছে?

fit <- princomp(mydata, cor=TRUE)

3
আমি জানি না। প্রথমত, যদি আপনি "নিয়মের thumbর্ধ্বতন ইজেনভ্যালু" বা তথাকথিত কায়সারের নিয়মটি উল্লেখ করেন তবে আপনি সম্ভবত এটির জন্য পিসি সংখ্যাটি খুঁজে পাবেন (এটি মনে রাখবেন যে এটি সাধারণত মাত্রাগুলির সংখ্যাকে গুরুত্ব দেয়) আপনার স্প্রে প্লট এ আরও স্পষ্টভাবে। দ্বিতীয়ত, সমান্তরাল বিশ্লেষণ উপাদানগুলির সংখ্যা নির্ধারণের জন্য একটি ভাল উপায়; উপাদান এবং উপাদানগুলির সংখ্যা নির্ধারণের জন্য আর, এবং এসপিএস, এসএএস এবং ম্যাটল্যাব প্রোগ্রামগুলিতেpsy বা psychপ্যাকেজটি দেখুন । সমান্তরাল বিশ্লেষণ এবং ভেলিকারের এমএপি পরীক্ষা আরও সাধারণভাবে ব্যবহার করা।
chl

উত্তর:


10

নিম্নলিখিত নিবন্ধ: সিডিএনএ মাইক্রোয়ারে ডেটা প্রয়োগে ক্যানগ্লোসি এবং গরিলি দ্বারা মূল উপাদান বিশ্লেষণে উপাদান উপাদান ধরে রাখা একটি গবেষণায় উপাদানগুলির সংখ্যা সনাক্ত করতে থাম্বগুলির স্ট্যান্ডার্ড নিয়মের একটি বরং সুন্দর সংক্ষিপ্ত বিবরণ দেয়। (স্ক্রি প্লট, মোট বৈকল্পিকের অনুপাত ব্যাখ্যা করা হয়েছে, গড় ইগেনাল্যু বিধি, লগ-ইজেনভ্যালু ডায়াগ্রাম ইত্যাদি) তাদের বেশিরভাগই আর এ প্রয়োগের জন্য বেশ সোজা are

সাধারণভাবে যদি আপনার স্ক্রি প্লটটি খুব বেপরোয়া হয় তবে আপনাকে কেবল "আপনার বিষ বাছাই" করতে হবে। কোনও তথ্যের জন্য কোনও সঠিক বা ভুল নেই কারণ বাস্তবে পিসি ব্যবহারের সংখ্যাটি আপনার সমস্যার বোঝার উপর নির্ভর করে। আপনি নিজেরাই তৈরি করেছিলেন এমন একমাত্র ডেটা-সেট যা আপনি "সত্যই" জানতে পারেন তার মাত্রিকতা। :-) দিনের শেষে প্রধান উপাদানগুলি আরএসএস মেট্রিকের অধীনে ডেটাগুলির সর্বোত্তম পচন সরবরাহ করে (যেখানে একটি উপ-পণ্য হিসাবে আপনি প্রতিটি উপাদানকে প্রকরণের মূল পদ্ধতির প্রতিনিধিত্ব করার জন্য পেয়ে থাকেন) এবং প্রদত্ত সংখ্যার উপাদানগুলি সহ বা বাদ দিয়ে or আপনার সমস্যার মাত্রিকতা সম্পর্কে আপনার উপলব্ধি নির্দেশ করে।

ব্যক্তিগত পছন্দের বিষয় হিসাবে, আমি পিসিএর সম্ভাব্য ব্যাখ্যার উপর ভিত্তি করে পিসিএর জন্য স্বয়ংক্রিয় পছন্দের এই স্বয়ংক্রিয় পছন্দ সম্পর্কে মিনকার দৃষ্টিভঙ্গি পছন্দ করি তবে আপনি আবার কোনও নির্দিষ্ট মাত্রিকতার জন্য আপনার ডেটার সম্ভাবনাকে মডেল করার চেষ্টা করতে চলেছেন। (আপনি যদি এই যুক্তি অনুসরণ করতে চান তবে লিঙ্কটি মাতলাব কোড সরবরাহ করে))

আপনার ডেটা আরও বোঝার চেষ্টা করুন। যেমন। আপনি কি সত্যিই বিশ্বাস করেন যে আপনার ডেটা-সেটের 99.99% প্রকরণটি আপনার মডেলের কোভেরেটের কারণে? সম্ভবত না হলে আপনার সম্ভবত এমন মাত্রাগুলি অন্তর্ভুক্ত করার দরকার নেই যা মোট বৈকল্পিকের এত ছোট অনুপাত প্রদর্শন করে। আপনি কি মনে করেন যে বাস্তবে কোনও উপাদান কেবল লক্ষণীয় পার্থক্যগুলির এক প্রান্তিকের নীচে তারতম্যকে প্রতিবিম্বিত করে? এর আবার সম্ভবত অর্থ হল যে আপনার বিশ্লেষণে সেই উপাদানটি অন্তর্ভুক্ত করার সাথে সামান্য প্রাসঙ্গিকতা রয়েছে।

যাই হোক না কেন, শুভকামনা এবং সাবধানে আপনার ডেটা পরীক্ষা করুন। (এগুলি চক্রান্ত করা বিস্ময়করও করে))


আপনি মাতলাব কোডটি নির্দেশ করতে পারেন, আমি এটি খুঁজে পাচ্ছি না।
mrgloom

আমি এটি পাওয়া research.microsoft.com/en-us/um/people/minka/papers/pca
mrgloom

Yeap! সেই লিঙ্কটিই আমি উল্লেখ করছি।
usεr11852

আমি ভাবছি এখনই কি মিনকার পদ্ধতির প্রয়োগ করা হবে? বলুন যে বিভিন্ন পিসি বিভিন্ন পদ্ধতি দ্বারা একটি গবেষণায় নির্ধারিত হয়েছে, আমরা জানি যে এগুলি ডেটার সংকেত অংশ হওয়া উচিত। এই পিসিগুলি ব্যাখ্যা করে যে% বৈকল্পিকতায় কোনও সীমাবদ্ধতা রয়েছে তার নীচে আরও বিশ্লেষণে নো-গো হিসাবে বিবেচনা করা হয় কিনা তা আপনি কি সুযোগেই জানেন? কোন রেফারেন্স অনেক প্রশংসা করা হবে।
ডক্টরেট করুন

6

এই সমস্যাটি মূলত জিজ্ঞাসা করা হয়েছিল এবং উত্তর দেওয়া হয়েছিল বলে গত কয়েক বছরে এই সমস্যাটির বিষয়ে খুব সুন্দর পরবর্তী কাজ হয়েছে। আমি গ্যাভিশ এবং ডনোহো দ্বারা নীচের কাগজটি সর্বাধিক সুপারিশ করছি: একক মানগুলির জন্য সর্বোত্তম হার্ড থ্রোসোল্ড 4 / বর্গ (3)

তাদের ফলাফল অ্যাসিম্পটোটিক বিশ্লেষণের উপর ভিত্তি করে (যেমন আপনার ডেটা ম্যাট্রিক্স সীমিত আকারে বড় হওয়ার সাথে সাথে একটি সংজ্ঞায়িত অনুকূল সমাধান রয়েছে), তবে তারা চিত্তাকর্ষক সংখ্যাসূচক ফলাফল দেখায় যে অ্যাসিম্পটোটিকভাবে অনুকূল পদ্ধতিটি ছোট এবং বাস্তবের আকারের ডেটাসেটের জন্য কাজ করে দেখায়, এমনকি বিভিন্ন গোলমালের নিচেও under মডেল।

মূলত, সর্বোত্তম পদ্ধতিটি গোলমালটি অনুমান করার জন্য ফোটে, , ম্যাট্রিক্সের প্রতিটি উপাদানকে যুক্ত করে। এর ভিত্তিতে আপনি একটি থ্রেশহোল্ড গণনা করুন এবং মূল উপাদানগুলি সরিয়ে ফেলুন যার একক মান প্রান্তিকের নিচে নেমে আসে। বর্গক্ষেত্র ম্যাট্রিক্সের জন্য, আনুপাতিকতা ধ্রুবক 4 / sqrt (3) শিরোনামে প্রস্তাবিত হিসাবে দেখায়:n × nσn×n

λ=4σn3

তারা কাগজে নন-স্কোয়ার কেসটিও ব্যাখ্যা করে। তাদের এখানে একটি দুর্দান্ত কোড পরিপূরক রয়েছে (ম্যাটল্যাবে) তবে অ্যালগোরিদমগুলি আর বা অন্য কোথাও প্রয়োগ করা সহজ হবে: https://purl.stanford.edu/vg705qn9070

আদেশ সহকারে:

  • আপনার যদি ডেটা না পাওয়া যায় তবে আমি নিশ্চিত না যে এটি কাজ করবে
  • যদি আপনার ডেটাসেটের প্রতিটি বৈশিষ্ট্যের শব্দের পরিমাণ বিভিন্ন রকম হয় তবে আমি নিশ্চিত নই যে এটি কাজ করবে (যদিও হোয়াইটেনিং সম্ভবত কিছু অনুমানের মধ্যে এটি পেতে পারে)
  • অন্যান্য নিম্ন-র‌্যাঙ্কের ম্যাট্রিক্স ফ্যাক্টরীকরণ (যেমন অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টেরাইজেশন) এর জন্য একই রকম ফলাফল রয়েছে কিনা তা দেখতে আকর্ষণীয় হবে।

+1, বাহ এই কাগজটি অত্যন্ত আকর্ষণীয় দেখায়। এটি উল্লেখ করার জন্য অনেক ধন্যবাদ।
অ্যামিবা

4

কায়সারের মানদণ্ডের সমস্যা (একের চেয়ে বড় সকল ইগন্যাল্যুয়েস) সমস্যাটি হ'ল অতিরিক্ত উত্পন্ন উপাদানগুলির মধ্যে বেশিরভাগই শব্দহীন কিনা তা নির্বিশেষে ব্যাটারির আইটেম বা স্কেলের সংখ্যা প্রায় এক তৃতীয়াংশ আহরণ করা হয়। সমান্তরাল বিশ্লেষণ এবং স্ক্রির মানদণ্ড সাধারণত নিষ্কাশনের কারণগুলির সংখ্যা নির্ধারণের জন্য আরও সঠিক পদ্ধতি (হারমন এবং লেডিয়ার্ড টাকার ক্লাসিক পাঠ্য অনুসারে এবং ওয়েইন ভেলিকারের আরও সাম্প্রতিক কাজ অনুসারে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.