আমি ডেটা সায়েন্সে নতুন এবং 200,000 সারি এবং আর-এ 50 টি কলাম সহ একটি ডেটা সেটটিতে ক্লাস্টারগুলি খুঁজে পেতে সমস্যা হচ্ছে
যেহেতু ডেটাতে উভয় সংখ্যাসূচক এবং নামমাত্র ভেরিয়েবল রয়েছে, তাই কে-ইনের মতো পদ্ধতিগুলি যা ইউক্লিডিয়ান দূরত্ব পরিমাপ ব্যবহার করে তা উপযুক্ত পছন্দ বলে মনে হয় না। সুতরাং আমি পিএএম, অ্যাগনেস এবং এইচক্লাস্টের দিকে ঘুরলাম যা দূরত্বের ম্যাট্রিক্সকে ইনপুট হিসাবে গ্রহণ করে।
ডেইজি পদ্ধতিটি মিশ্র টাইপের ডেটাতে কাজ করতে পারে তবে দূরত্বের ম্যাট্রিক্সটি খুব বড়: 200,000 গুণ 200,000 2 ^ 31-1 (আর 3.0.0 এর পূর্বে ভেক্টরের দৈর্ঘ্যের সীমা) থেকে অনেক বড়)
গতকাল প্রকাশিত নতুন আর 3.0.0 লম্বা ভেক্টরকে 2 ^ 31-1 এর চেয়ে বেশি দৈর্ঘ্যের ভ্যাক্টর সমর্থন করে। তবে 200,000 দ্বারা 200,000 দ্বারা ডাবল ম্যাট্রিক্সের জন্য 16 গিগাবাইটের চেয়ে বড় অবিচ্ছিন্ন র্যাম প্রয়োজন যা আমার মেশিনে সম্ভব নয়।
আমি সমান্তরাল কম্পিউটিং এবং বিগমেমরি প্যাকেজ সম্পর্কে পড়েছি এবং নিশ্চিত নই যে তারা সাহায্য করবে কিনা: যদি আমি ডেইজি ব্যবহার করি তবে এটি একটি বড় ম্যাট্রিক্স উত্পন্ন করবে যা কোনওভাবেই মেমরির সাথে খাপ খায় না।
স্যাম্পলিং সম্পর্কিত পোস্টটি সম্পর্কেও পড়েছিলাম: 'বড় ডেটা'র সময় নমুনাটি কি প্রাসঙ্গিক?
সুতরাং আমার ক্ষেত্রে, ডেটা সেটটিতে স্যাম্পলিং ব্যবহার করা, নমুনায় ক্লাস্টার এবং তারপরে পুরো ডেটা সেটের কাঠামোটি নির্ধারণ করা কি প্রাসঙ্গিক?
আপনি কি আমাকে কিছু পরামর্শ দিতে পারেন? ধন্যবাদ!
আমার মেশিন সম্পর্কে:
আর সংস্করণ 3.0.0 (2013-04-03)
প্ল্যাটফর্ম: x86_64-w64-mingw32 / x64 (64-বিট)
ওএস: উইন্ডোজ 7 64 বিট
র্যাম: 16.0 জিবি