আমি আর এর সাথে একটি পাঠ্য শ্রেণিবিন্যাসের কাজটি করছি, এবং আমি ১২০,০০০ বাই সাইজের ২২৪৯০ মাপের একটি ডকুমেন্ট-টার্ম ম্যাট্রিক্স পেয়েছি (কেবল ৪ মিলিয়ন নন-শূন্য এন্ট্রি, ১% এর কম এন্ট্রি)। এখন আমি পিসিএ (অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ) ব্যবহার করে মাত্রিকতা হ্রাস করতে চাই। দুর্ভাগ্যক্রমে, আর আর এই বিশাল ম্যাট্রিক্সটি পরিচালনা করতে পারে না, তাই আমি পিসিএ করার জন্য কিছু অন্যান্য কৌশল ব্যবহারের আশায় এই স্পার্স ম্যাট্রিক্সটিকে "ম্যাট্রিক্স মার্কেট ফর্ম্যাট" এ একটি ফাইলে সংরক্ষণ করি।
সুতরাং যে কেউ আমাকে দরকারী লাইব্রেরি (প্রোগ্রামিং ভাষা যাই হোক না কেন) এর জন্য কিছু ইঙ্গিত দিতে পারে, যা সহজেই এই বৃহত আকারের ম্যাট্রিক্সের সাথে পিসিএ করতে পারে বা নিজের দ্বারা লংহ্যান্ড পিসিএ করতে পারে, অন্য কথায় প্রথমে কোভারিয়েন্স ম্যাট্রিক্স গণনা করতে পারে, এবং তারপরে কোভারিয়েন্স ম্যাট্রিক্সের জন্য ইগেনভ্যালু এবং ইগেনভেেক্টর গণনা করুন ।
আমি যা চাই তা হ'ল সমস্ত পিসি (120,000) গণনা করা, এবং কেবলমাত্র শীর্ষ এন পিসি বেছে নিন, যারা 90% বৈকল্পিকতার জন্য দায়ী । স্পষ্টতই, এক্ষেত্রে, আমাকে কিছু সংখ্যক ক্ষুদ্রতর বৈকল্পিক মান 0 (কোভেরিয়েন্স ম্যাট্রিক্সে) সেট করার জন্য আমাকে একটি প্রাইসারি দিতে হবে, অন্যথায়, কোভরিয়েন্স ম্যাট্রিক্স বিচ্ছিন্ন হবে না এবং এর আকার হবে 120,000 বাই 120,000, যা একটি একক মেশিন দিয়ে পরিচালনা করা অসম্ভব। এছাড়াও, লোডিংগুলি (আইজেনভেেক্টরগুলি) চূড়ান্তভাবে বড় হবে এবং এলোমেলো ফর্ম্যাটে সংরক্ষণ করা উচিত।
কোন সাহায্যের জন্য অনেক ধন্যবাদ!
দ্রষ্টব্য: আমি 24GB র্যাম এবং 8 সিপিইউ কোর সহ একটি মেশিন ব্যবহার করছি using