আমি এমন একটি দৃশ্যের মুখোমুখি হয়েছি যেখানে আমার 10 জনের জন্য 10 সংকেত / ব্যক্তি রয়েছে (সুতরাং 100 নমুনা) যাতে 14000 ডেটা পয়েন্ট (মাত্রা) থাকে যা আমার একটি শ্রেণিবদ্ধের কাছে যেতে হবে। আমি এই ডেটার মাত্রিকতা হ্রাস করতে চাই এবং পিসিএ মনে হয় এটি করার উপায়। যাইহোক, আমি কেবলমাত্র পিসিএর উদাহরণ খুঁজে পেতে সক্ষম হয়েছি যেখানে নমুনাগুলির সংখ্যা মাত্রার সংখ্যার চেয়ে বেশি। আমি একটি পিসিএ অ্যাপ্লিকেশন ব্যবহার করছি যা এসভিডি ব্যবহার করে পিসি খুঁজে পায়। যখন আমি এটি আমার 100x14000 ডেটাসেটটি পাস করি তখন 101 পিসি ফিরে আসে সুতরাং বিশাল আকারের মাত্রাগুলি স্পষ্টতই উপেক্ষা করা হয়। প্রোগ্রামটি নির্দেশ করে যে প্রথম 6 টি পিসিতে 90% প্রকরণ রয়েছে contain
এটি কি একটি যুক্তিসঙ্গত অনুমান যে এই 101 টি পিসিতে মূলত সমস্ত বৈকল্পিক রয়েছে এবং অবশিষ্ট মাত্রাগুলি অবহেলাযোগ্য?
আমি যেসব কাগজপত্র পড়েছি তার মধ্যে একটি দাবি করেছে যে, আমার নিজের তুলনায় একই রকম (যদিও নিম্ন মানের) ডেটাসেট ব্যবহার করে তারা 4500 মাত্রা হ্রাস করতে সক্ষম হয়েছিল মূল তথ্যের 96% বজায় রেখে ৮০ এ নামিয়ে আনবে। ব্যবহৃত পিসিএ কৌশল সম্পর্কিত কাগজের হাতের তরঙ্গগুলি কেবলমাত্র 3100 টি নমুনা পাওয়া যেত, এবং পিসিএ (শ্রেণিবিন্যাসের পর্ব থেকে পক্ষপাত দূর করতে) ব্যবহার করার জন্য যে নমুনাগুলি ব্যবহার করা হয়েছিল তার চেয়ে কম স্যাম্পল বিশ্বাস করার কারণ আমার আছে।
আমি কি কিছু মিস করছি বা সত্যিই পিসিএটি উচ্চ মাত্রা-নিম্ন নমুনা আকারের ডেটাসেটের সাথে ব্যবহার করা হচ্ছে? কোন প্রতিক্রিয়া ব্যাপকভাবে প্রশংসা হবে।