আরে মাত্রিকতা হ্রাস কিভাবে করবেন


28

আমার একটি ম্যাট্রিক্স রয়েছে যেখানে একটি (i, j) আমাকে জানায় আমি ব্যক্তিগতভাবে পৃষ্ঠা j কতবার দেখেছি। 27 কে ব্যক্তি এবং 95 কে পৃষ্ঠাগুলি রয়েছে। পৃষ্ঠাগুলির জায়গাগুলিতে আমি মুষ্টিমেয় "মাত্রা" বা "দিকগুলি" রাখতে চাই যা প্রায়শই একসাথে দেখা পৃষ্ঠাগুলির সেটের সাথে মিলে যায়। আমার চূড়ান্ত লক্ষ্যটি হল তখন আমি ব্যক্তিগতভাবে যে পৃষ্ঠাগুলি 1, মাত্রা 2 ইত্যাদির মধ্যে পড়েছি সেগুলি কতবার ব্যক্তিগতভাবে দেখেছি তা গণনা করতে সক্ষম হব is

আমি মূল উপাদান বিশ্লেষণ এবং একক মান পচন নিয়ে আর ডকুমেন্টেশন পড়েছি এবং এই আদেশগুলি কার্যকর করেছি, তবে কীভাবে এগিয়ে যেতে হবে তা সম্পর্কে আমি নিশ্চিত নই।

এটি করার জন্য আমি কীভাবে মাত্রিকতা হ্রাস ব্যবহার করতে পারি? বা এটি কি আসলেই একটি ক্লাস্টারিং সমস্যা এবং আমার পরিবর্তে ক্লাস্টারিং অ্যালগরিদমগুলিতে নজর দেওয়া উচিত?

কোনও অন্তর্দৃষ্টি জন্য অনেক ধন্যবাদ ~ l

উত্তর:


10

ধরে নেওয়া যাক মাদ_পৃষ্ঠাগুলি [] এর কলামগুলিতে পৃষ্ঠা রয়েছে (যা আপনি ক্লাস্টার করতে চান) এবং সারিগুলিতে থাকা ব্যক্তিদের individuals আপনি নিম্নলিখিত কমান্ডটি ব্যবহার করে আরবিতে পৃথক তথ্যের ভিত্তিতে পৃষ্ঠাগুলি ক্লাস্টার করতে পারেন:

  pc <- prcomp(x=mat_pages,center=TRUE,scale=TRUE)

লোডিংস ম্যাট্রিক্স ডেটাগুলির এসভিডি পচানোর ইগেনভেেক্টরগুলির ম্যাট্রিক্স। স্কোরের গণনায় তারা প্রতিটি পৃষ্ঠার আপেক্ষিক ওজন দেয়। বৃহত্তর পরম মান সহ লোডিংগুলির সাথে সংশ্লিষ্ট নীতি উপাদানটির স্কোর নির্ধারণে আরও প্রভাব থাকে।

যাইহোক, আমার ক্লাস্টার পৃষ্ঠাগুলিতে পিসিএ ব্যবহারের সংক্ষিপ্ত আগমনটিও নির্দেশ করা উচিত । এর কারণ হ'ল লোডিংগুলি PAGES কে উচ্চতর প্রকরণের সাথে আরও বেশি ওজন দেয়, এই পরিবর্তনের কারণটি PAGE সামগ্রী বা অন্য কোনও কারণে (প্রযুক্তিগত বা স্বতন্ত্র প্রকরণ হতে পারে) of লোডিংগুলি অগত্যা গ্রুপগুলির মধ্যে সত্য পার্থক্য প্রতিফলিত করে না, যা (সম্ভবত) আপনার মূল আগ্রহ। কিন্তু, এই ক্লাস্টারিংটি সত্যই এই অনুমানের অধীনে গ্রুপের পার্থক্যগুলি প্রতিফলিত করে যে সমস্ত পৃষ্ঠাগুলির একই বৈচিত্র রয়েছে (আমি জানি না এটি বৈধ অনুমান কিনা))

আপনার যদি একটি শক্তিশালী কম্পিউটিং সুবিধা থাকে (যা আপনার ডেটার আকার দিয়ে দেওয়া সম্ভব হতে পারে) - শ্রেণিবদ্ধ মডেলগুলি ব্যবহার করা ভাল ধারণা হতে পারে। আর এ, এটি lme4 প্যাকেজ ব্যবহার করে করা যেতে পারে।


আপনি স্কোর পরে কি করবেন?

এটি একটি অপরিশোধিত পরামর্শ এবং বিশ্লেষণগুলি ডেটা দেখতে কেমন লাগে তার উপর নির্ভর করে। এছাড়াও, আমি অনুমান করব যে এই প্রক্রিয়াটি আপনার যে পরিমাণের ডেটা রয়েছে তা গোষ্ঠীকরণের জন্য অত্যন্ত অপরিজ্ঞাত।

pc.col <- paste("page", 1:27000, sep=".")

pdf("principle-components.pdf")
plot(pc$x[,1:2]) ## Just look at the 1st two loadings (as you can see the groupings in a plane)
dev.off()

আশা করি, এটি আপনাকে কীভাবে ডেটাগুলিতে ভাগ করা হয়েছে তার একটি চিত্র দিতে পারে can

সতর্কতা: এটি আমি সুপারিশ করব না।


আমার সুপারিশ:

জিনোমিক্সে এ জাতীয় সমস্যাগুলি ঘন ঘন দেখা দেয় your আপনার ক্ষেত্রে পৃষ্ঠাগুলি জিনের সাথে মিলিত হয় এবং ব্যক্তিরা রোগীদের সাথে মিল রাখে (মূলত ব্যক্তিরা জিনোমিক্সের মতো একই অর্থ)

আপনি ডেটা ভিত্তিক পৃষ্ঠাগুলি গুচ্ছ করতে চান।

আপনি আর-তে প্রচুর ক্লাস্টারিং প্যাকেজ ব্যবহার করতে পারেন এবং অন্যান্য উত্তরের দিকে নির্দেশ করা হয়েছে। প্যাকেজগুলির সাথে একটি মৌলিক সমস্যা হ'ল ক্লাস্টের মতো যা ক্লাস্টারের সংখ্যা নির্ধারণ করতে হয়। আমার প্রিয় কয়েকটি হ'ল:

  • পিভিক্লাস্ট (আপনাকে ক্লাস্টার দেয় এবং প্রতিটি ক্লাস্টারের জন্য পি-ভ্যালুও দেয়। পি-মান ব্যবহার করে আপনি পরিসংখ্যানগতভাবে উল্লেখযোগ্য ক্লাস্টার নির্ধারণ করতে পারেন Pro সমস্যা : অনেকগুলি গণনা শক্তি প্রয়োজন এবং আমি নিশ্চিত নই যে এটি আপনার ডেটার সাথে কাজ করবে কিনা) সাইজ)
  • হোপাচ (আপনাকে ক্লাস্টারের আনুমানিক সংখ্যা এবং ক্লাস্টার দেয়)
  • বায়োকন্ডাক্টরে অন্যান্য প্যাকেজ উপলব্ধ রয়েছে, দয়া করে টাস্ক ভিউতে তাদের পরীক্ষা করে দেখুন।

আপনি ক্লাস্টারিং অ্যালগোস যেমন কে-মানে ইত্যাদিরও ব্যবহার করতে পারেন am উত্তরগুলি খুব বিস্তারিত ছিল। এটি তাল গালিলি জিজ্ঞাসা করেছিলেন আমি সঠিকভাবে মনে করি কিনা।


@ সানকুলসু: অনেক ধন্যবাদ! আমি আপনার পরামর্শ অনুসরণ করেছি এবং prcomp চালানো। আমি এটি উত্পাদিত লোডিং ম্যাট্রিক্সও সঞ্চয় করেছি। তবে আমি কীভাবে এই ম্যাট্রিক্সকে পৃষ্ঠাগুলির একসাথে গোষ্ঠী ব্যবহার করতে পারি?
ল্যারামিচেল

হ্যালো ল্যারামিহেলস, দয়া করে নীচে আমার উত্তরটি সন্ধান করুন।
সানকুলসু

@ সানকুলসু: আমিও একই ধরণের সমস্যার সাথে লড়াই করছি, তবে আমি একই "গতিশীল" ব্যক্তিদের "ক্লাস্টার" করতে চাই (আসলে অঞ্চলগুলির প্রতি আমার বিশাল সংখ্যক টাইমসিরিজ রয়েছে এবং আমি সেগুলি মডেল করতে চাই)। আমি পারস্পরিক সম্পর্কের দূরত্ব (1-rho) এর সাথে পাম ব্যবহার করার কথা ভাবছিলাম। এটি কি প্রস্তাবিত উপায়? আপনি কি দয়া করে অন্বেষণের জন্য কিছু পথের পরামর্শ দিতে পারেন?
টিউসার

@ মুসা .. আপনি কি আরও পরিষ্কার হতে পারেন? আপনার দ্বারা বর্ণিত "গতিশীলতা" আমি বুঝতে পারি বলে আমি মনে করি না। ক্লাস্টারিংয়ের জন্য অবশ্যই পাম ঠিক আছে। তবে আপনি আমার দ্বারা উল্লিখিত আর প্যাকেজগুলি পিভক্লাস্ট এবং হ্যাপচও চেষ্টা করতে পারেন। এছাড়াও, এসওএম (স্ব-সংগঠিত মানচিত্র) ক্লাস্টারিংয়ের দিকে দেখার এক অন্যরকম উপায়। আরও তথ্যের জন্য দয়া করে রিপলি এবং ভেনেবল (2002) বইটি দেখুন - ম্যাসস। বইটি ক্লাস্টারিংয়ের একটি সম্পূর্ণ চিকিত্সা সরবরাহ করে।
সানকুলসু

@ সানকুলসু: দুর্বল গঠনের জন্য দুঃখিত! আমার 200 টি টাইমসিরি রয়েছে যা আমি মডেল করতে চাই (অর্থাত্ সিমুলেট করতে)। আমি মনে করি যে আমি ক্লাস্টারের করতে পারেন "অনুরূপ" (অর্থাত সময়ের একই আচরণ থাকার: সরাসরি এগিয়ে পদ্ধতির পারস্পরিক সম্পর্ক ব্যবহার করতে হয়) timeseries এবং শুধুমাত্র ক্লাস্টার timeseries ভান ...
teucer

4

এটি অবশ্যই একটি ক্লাস্টারিং সমস্যা। clusterঅ্যালগরিদম বিকল্পগুলির ওভারভিউ পেতে রুপির প্যাকেজটি দেখুন ( pamএবং agnesশুরু করার সেরা বিকল্পগুলি; তারা ক্লাস্টারিংয়ে দুটি মূল স্ট্রিম উপস্থাপন করে - সেন্ট্রয়েড এবং স্তরক্রম )।
আপনার ডেটাতে ক্লাস্টার ব্যবহার করার প্রধান সমস্যা হ'ল পৃষ্ঠাগুলির মধ্যে একটি ভাল মিলের পরিমাপকে সংজ্ঞায়িত করা; ম্যানহাটনের দূরত্ব ব্যবহার করা সহজ; সাধারণ দর্শকদের সংখ্যা গণনা করা এবং এটিকে সাধারণকরণের জন্য কিছুটা জটিল করে বলা যাক, প্রথম এবং দ্বিতীয় পৃষ্ঠার দর্শকের সংখ্যাটির গড় অর্থ - এটি জনপ্রিয়তার প্রভাবগুলিকে নিঃশব্দ করা উচিত।

সম্পাদনা: ঠিক আছে, এখন আমি তথ্য আকার দেখেছি ... এটি সম্ভবত আর বিস্ফোরিত হবে, যেহেতু এটির জন্য ম্যাট্রিক্সের একটি ত্রিভুজ দরকার দোকান দূরত্ব। সম্ভাব্য সমাধানের জন্য এই প্রতিবেদনটি দেখুন ।(number of pages)×(number of pages)


আমি আপনার উত্তর upvated। তবে, আপনি দয়া করে শেষ বাক্যে রিপোর্টের জন্য নতুন লিঙ্কগুলি সরবরাহ করতে পারেন। বৃদ্ধটি মারা গেছে।
শৃঙ্খলা

1
আমি তার চিরকালের জন্য হারিয়ে যাওয়ার ভয় পাচ্ছি ... সাধারণত এটি ক্লাস্টারিংয়ের পদ্ধতিগুলির বাস্তবায়ন সম্পর্কে ছিল যা স্পষ্টভাবে প্রতিটি থেকে প্রতিটি মিলের ম্যাট্রিক্স তৈরি করে না তবে চাহিদা অনুযায়ী বস্তুগুলি তদন্ত করে।

1

মাত্রা হ্রাস হ'ল মূলত বৈশিষ্ট্যগুলিতে (কলাম) ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করা হয়। আপনার ডেটাসেটের মোটামুটি বড় মাত্রিকতার কারণে, আপনি ব্যক্তি বা পৃষ্ঠাগুলির জন্য একটি মানচিত্র তৈরি করতে SOM (স্ব-সংগঠিত মানচিত্র / কোহোনেন নেট) ব্যবহার করার চেষ্টা করতে পারেন। এরপরে আপনি দেখতে পাবেন যে এটি অর্থবহ (ব্যাখ্যাযোগ্য) নিদর্শন কিনা।


1

আপনি যদি পিসিএ করেন তবে আমার পরামর্শটি হ'ল প্রথম দুটি ছাড়া সংক্ষেপে অন্যান্য উপাদানগুলি স্ক্রিন করা উচিত। একবার আপনার কাছে prcompবস্তুটি থাকলে pc(সানকুলসু পোস্ট দেখুন), আপনি plot(pc)বিভিন্ন মূল উপাদানগুলির সাথে আলাদা আলাদা পরিমাণের পরিমাণ দেখতে পারবেন । এছাড়াও আপনি সহজে সঙ্গে বিভিন্ন (সাধারণত তিন অথবা চার) তাদের মধ্যে দৃশ্য কল্পনা করতে পারেন pairs(pc$x[,1:3])বা ব্যবহার lattice, splom(pc$x[,1:3])

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.