ধরে নেওয়া যাক মাদ_পৃষ্ঠাগুলি [] এর কলামগুলিতে পৃষ্ঠা রয়েছে (যা আপনি ক্লাস্টার করতে চান) এবং সারিগুলিতে থাকা ব্যক্তিদের individuals আপনি নিম্নলিখিত কমান্ডটি ব্যবহার করে আরবিতে পৃথক তথ্যের ভিত্তিতে পৃষ্ঠাগুলি ক্লাস্টার করতে পারেন:
pc <- prcomp(x=mat_pages,center=TRUE,scale=TRUE)
লোডিংস ম্যাট্রিক্স ডেটাগুলির এসভিডি পচানোর ইগেনভেেক্টরগুলির ম্যাট্রিক্স। স্কোরের গণনায় তারা প্রতিটি পৃষ্ঠার আপেক্ষিক ওজন দেয়। বৃহত্তর পরম মান সহ লোডিংগুলির সাথে সংশ্লিষ্ট নীতি উপাদানটির স্কোর নির্ধারণে আরও প্রভাব থাকে।
যাইহোক, আমার ক্লাস্টার পৃষ্ঠাগুলিতে পিসিএ ব্যবহারের সংক্ষিপ্ত আগমনটিও নির্দেশ করা উচিত । এর কারণ হ'ল লোডিংগুলি PAGES কে উচ্চতর প্রকরণের সাথে আরও বেশি ওজন দেয়, এই পরিবর্তনের কারণটি PAGE সামগ্রী বা অন্য কোনও কারণে (প্রযুক্তিগত বা স্বতন্ত্র প্রকরণ হতে পারে) of লোডিংগুলি অগত্যা গ্রুপগুলির মধ্যে সত্য পার্থক্য প্রতিফলিত করে না, যা (সম্ভবত) আপনার মূল আগ্রহ। কিন্তু, এই ক্লাস্টারিংটি সত্যই এই অনুমানের অধীনে গ্রুপের পার্থক্যগুলি প্রতিফলিত করে যে সমস্ত পৃষ্ঠাগুলির একই বৈচিত্র রয়েছে (আমি জানি না এটি বৈধ অনুমান কিনা))
আপনার যদি একটি শক্তিশালী কম্পিউটিং সুবিধা থাকে (যা আপনার ডেটার আকার দিয়ে দেওয়া সম্ভব হতে পারে) - শ্রেণিবদ্ধ মডেলগুলি ব্যবহার করা ভাল ধারণা হতে পারে। আর এ, এটি lme4 প্যাকেজ ব্যবহার করে করা যেতে পারে।
আপনি স্কোর পরে কি করবেন?
এটি একটি অপরিশোধিত পরামর্শ এবং বিশ্লেষণগুলি ডেটা দেখতে কেমন লাগে তার উপর নির্ভর করে। এছাড়াও, আমি অনুমান করব যে এই প্রক্রিয়াটি আপনার যে পরিমাণের ডেটা রয়েছে তা গোষ্ঠীকরণের জন্য অত্যন্ত অপরিজ্ঞাত।
pc.col <- paste("page", 1:27000, sep=".")
pdf("principle-components.pdf")
plot(pc$x[,1:2]) ## Just look at the 1st two loadings (as you can see the groupings in a plane)
dev.off()
আশা করি, এটি আপনাকে কীভাবে ডেটাগুলিতে ভাগ করা হয়েছে তার একটি চিত্র দিতে পারে can
সতর্কতা: এটি আমি সুপারিশ করব না।
আমার সুপারিশ:
জিনোমিক্সে এ জাতীয় সমস্যাগুলি ঘন ঘন দেখা দেয় your আপনার ক্ষেত্রে পৃষ্ঠাগুলি জিনের সাথে মিলিত হয় এবং ব্যক্তিরা রোগীদের সাথে মিল রাখে (মূলত ব্যক্তিরা জিনোমিক্সের মতো একই অর্থ)
আপনি ডেটা ভিত্তিক পৃষ্ঠাগুলি গুচ্ছ করতে চান।
আপনি আর-তে প্রচুর ক্লাস্টারিং প্যাকেজ ব্যবহার করতে পারেন এবং অন্যান্য উত্তরের দিকে নির্দেশ করা হয়েছে। প্যাকেজগুলির সাথে একটি মৌলিক সমস্যা হ'ল ক্লাস্টের মতো যা ক্লাস্টারের সংখ্যা নির্ধারণ করতে হয়। আমার প্রিয় কয়েকটি হ'ল:
- পিভিক্লাস্ট (আপনাকে ক্লাস্টার দেয় এবং প্রতিটি ক্লাস্টারের জন্য পি-ভ্যালুও দেয়। পি-মান ব্যবহার করে আপনি পরিসংখ্যানগতভাবে উল্লেখযোগ্য ক্লাস্টার নির্ধারণ করতে পারেন Pro সমস্যা : অনেকগুলি গণনা শক্তি প্রয়োজন এবং আমি নিশ্চিত নই যে এটি আপনার ডেটার সাথে কাজ করবে কিনা) সাইজ)
- হোপাচ (আপনাকে ক্লাস্টারের আনুমানিক সংখ্যা এবং ক্লাস্টার দেয়)
- বায়োকন্ডাক্টরে অন্যান্য প্যাকেজ উপলব্ধ রয়েছে, দয়া করে টাস্ক ভিউতে তাদের পরীক্ষা করে দেখুন।
আপনি ক্লাস্টারিং অ্যালগোস যেমন কে-মানে ইত্যাদিরও ব্যবহার করতে পারেন am উত্তরগুলি খুব বিস্তারিত ছিল। এটি তাল গালিলি জিজ্ঞাসা করেছিলেন আমি সঠিকভাবে মনে করি কিনা।