আমি নথিগুলির মধ্যে সাদৃশ্য খুঁজে পেতে সুপ্ত সিমেটিক ইনডেক্সিং ব্যবহার করছি ( ধন্যবাদ, জেএমএস! )
মাত্রা হ্রাসের পরে, আমি কে-মানে ক্লাস্টার করে ডকুমেন্টগুলিকে ক্লাস্টারে গ্রুপ করার জন্য চেষ্টা করেছি, যা খুব ভাল কাজ করে। তবে আমি আরও কিছুটা এগিয়ে যেতে চাই এবং নোডগুলির সেট হিসাবে নথিগুলি ভিজ্যুয়ালাইজ করতে চাই, যেখানে দুটি নোডের মধ্যকার দূরত্বটি তাদের মিলের সাথে বিপরীতভাবে সমানুপাতিক হয় (যে নোডগুলি খুব বেশি অনুরূপ থাকে তারা একে অপরের কাছাকাছি থাকে)।
এটি আমাকে আঘাত করে যে আমার ডেটা> ২ মাত্রা হওয়ায় আমি সঠিকভাবে একটি 2-মাত্রিক গ্রাফের সাথে একটি মিলের ম্যাট্রিক্স হ্রাস করতে পারি না। সুতরাং আমার প্রথম প্রশ্ন: এটি করার কোনও মানক উপায় আছে?
আমি কি কেবল আমার ডেটা দুটি মাত্রায় কমাতে এবং তারপরে এটিকে এক্স এবং ওয়াই অক্ষ হিসাবে প্লট করতে পারি, এবং এটি কি -2 100-200 ডকুমেন্টের একটি গ্রুপের জন্য যথেষ্ট? যদি এটি সমাধান হয় তবে আমার ডেটাটি শুরু থেকে ২ টি মাত্রায় কমিয়ে আনাই ভাল, বা আমার বহুমাত্রিক ডেটা থেকে দুটি "সেরা" মাত্রা বাছাই করার কোনও উপায় আছে কি?
আমি পাইথন এবং জিনসিম লাইব্রেরি ব্যবহার করছি যদি এতে কোনও পার্থক্য আসে।