দ্রাঘিমাংশীয় তথ্যের মধ্যে গোষ্ঠীগুলি (ট্রাজেক্টোরিজগুলি) কীভাবে সন্ধান করবেন?


11

প্রসঙ্গ

প্রশ্নটিতে কিছুটা প্রসারণের আগে আমি দৃশ্যটি সেট করতে চাই।

আমার দ্রাঘিমাংশীয় তথ্য রয়েছে, প্রতি 3 মাস অন্তর্ভুক্ত বিষয়গুলির উপর পরিমাপ করা হয়, প্রাথমিক ফলাফল 5 থেকে 14 পরিসরে সংখ্যাযুক্ত (1dp অবিরত হিসাবে) বাল্ক (সমস্ত ডেটার পয়েন্টগুলির) 7 থেকে 10 এর মধ্যে থাকে যদি আমি এটি করি তবে স্প্যাগেটি প্লট (এক্স অক্ষের উপর বয়স এবং প্রতিটি ব্যক্তির জন্য একটি লাইন) এটি আমার কাছে> 1500 বিষয় হিসাবে স্পষ্টতই একটি জগাখিচুড়ি, তবে বর্ধিত বয়সের সাথে উচ্চতর মানের দিকে একটি স্পষ্ট পদক্ষেপ রয়েছে (এবং এটি জানা যায়)।

বিস্তৃত প্রশ্ন: আমরা যা করতে চাই তা হ'ল প্রথমে ট্রেন্ডিং গ্রুপগুলি সনাক্ত করতে সক্ষম হওয়া (যারা উচ্চ শুরু করে এবং উচ্চে থাকে, যারা কম শুরু করে এবং কম থাকে, যারা কম শুরু করে এবং উচ্চে বেড়ে যায় ইত্যাদি) এবং তারপরে আমরা পারি 'ট্রেন্ড গ্রুপ' সদস্যতার সাথে সম্পর্কিত এমন পৃথক কারণগুলি দেখুন।

এখানে আমার প্রশ্নটি বিশেষভাবে প্রথম অংশ সম্পর্কিত, প্রবণতা অনুসারে গোষ্ঠীকরণ।

প্রশ্ন

  • কীভাবে আমরা স্বতন্ত্র অনুদৈর্ঘ্য ট্রাজেক্টরিগুলি গ্রুপ করতে পারি?
  • এটি বাস্তবায়নের জন্য কোন সফ্টওয়্যার উপযুক্ত হবে?

আমি এসএএস-এর প্রোস ট্রাজ এবং এম-প্লাসের একজন সহকর্মীর পরামর্শ দিয়েছিলাম, যা আমি সন্ধান করছি, তবে এটি সম্পর্কে অন্যদের কী ধারণা রয়েছে তা জানতে চাই।


1
এটি শুধু একটি শুরুর স্থান, কিন্তু সম্ভবত এই প্রশ্নের উত্তর কিছু চেক আউট: stats.stackexchange.com/questions/2777/...
Jeromy Anglim

ধন্যবাদ জেরোমি, কিলোমিটার বিকল্পটি আকর্ষণীয়, আমি এটি আর এ দেওয়া মতামতটি পছন্দ করি, তবে 'ভিজিট 1' এর বিপরীতে বিষয়গুলি বিভিন্ন যুগে এসে তাদের ডেটা দিয়ে আমি তাদের কাঠামোটি ব্যবহার করতে পারি তা নিশ্চিত নই। পরিদর্শন 2 'ইত্যাদি এবং কিছু 10 বার দেখা হয়েছে আছে অন্যরা 50 আছে ...
nzcoops

kml প্যাকেজ চেক করুন - এটি আপনার প্রয়োজনীয় কার্যকারিতা সরবরাহ করে বলে মনে হচ্ছে। কাগজ জস বিস্তারিতভাবে এটা বর্ণনা করা হয়েছে। এছাড়াও kml3dএবং kmlShapeআগ্রহী হতে পারে।
রাদেক

উত্তর:


11

আমি ব্যবহার করেছি Mfuzz মধ্যে আর সময় অবশ্যই Microarray ডেটা সেট ক্লাস্টারিং জন্য। এমফুজ "সফট-ক্লাস্টারিং" ব্যবহার করে। মূলত, ব্যক্তিরা একাধিক গ্রুপে উপস্থিত হতে পারে।

@ অ্যান্ডি মন্তব্যটিতে উল্লেখ করেছেন যে, মূল কাগজটি সিটিএন ডেটা ব্যবহার করে। তবে আমার সন্দেহ হয় যে এটি আপনার বিযুক্ত ডেটার জন্য ঠিক কাজ করা উচিত। বিশেষত যেহেতু আপনি কেবল ডেটা সেটটি অন্বেষণ করছেন। এখানে আর এর একটি দ্রুত উদাহরণ রয়েছে:

##It's a bioconductor package
library(Mfuzz)
library(Biobase)

## Simulate some data
## 6 time points and 90 individuals
tps = 6;cases = 90
d = rpois(tps*cases, 1)  ##Poisson distribution with mean 1
m = matrix(d, ncol=tps, nrow=cases)

##First 30 individuals have increasing trends
m[1:30,] = t(apply(m[1:30,], 1, cumsum))

##Next 30 have decreasing trends
##A bit hacky, sorry
m[31:60,] = t(apply(t(apply(m[31:60,], 1, cumsum)), 1, rev))

##Last 30 individuals have random numbers from a Po(1)

##Create an expressionSet object
tmp_expr = new('ExpressionSet', exprs=m)

##Specify c=3 clusters
cl = mfuzz(tmp_expr, c=3, m=1.25)
mfuzz.plot(tmp_expr,cl=cl, mfrow=c(2, 2))

নিম্নলিখিত প্লট দেয়:

এমফুজ ক্লাস্টারিং


রেফারেন্সের জন্য ধন্যবাদ, আমি এর আগেও আসিনি। এই ক্লাস্টারিং অ্যালগরিদমটি কি অপেক্ষাকৃত কম গণনা বিতরণকারী ডেটার সাথে উপযুক্ত হবে যেমন ওপি উল্লিখিত হয়েছে (বা দ্বিগুণ তথ্য)? রেফারেন্স পেপার (ফুচচিক এবং কার্লিসিল 2005) ব্যবহৃত ডেটা অবিচ্ছিন্ন হওয়ার জন্য রূপান্তরিত হয়েছিল।
অ্যান্ডি ডাব্লু

@ অ্যান্ডি: ভালো কথা। আমি একটি দ্রুত সিমুলেশন অন্তর্ভুক্ত করেছি। সবকিছু ঠিক আছে বলে মনে হচ্ছে তবে এর থেকে আরও অনুকূল সমাধান হতে পারে।
csgillespie

ধন্যবাদ @ এসসিগিলিস্পি, এটি চেষ্টা করে দেখুন। যাইহোক, আমার ডেটা ধারাবাহিকভাবে পৃথক নয়, প্রশ্নটি যথেষ্ট পরিমাণে পরিষ্কার ছিল না তা নিশ্চিত নয় বা এটি আপনার উত্তরটিতে টাইপ ছিল কিনা? এমফুজ ইনস্টল করতে আমার আরকে রোলব্যাক করতে হবে, মজা শুরু করতে দিন।
nzcoops

@ সিএসগিলিসপি - এটি খুব দুর্দান্ত। আমি এখনই এটির সাথে কিছু বাস্তব তথ্য নিয়ে খেলছি। এটি কীভাবে গ্রুপ সংখ্যার অনুমান করার উপায় আছে তা জানতে পেরেছেন?
ম্যাক্রো

4

আমি আশা করব যে আপনার প্রয়োজন মতো করার জন্য একটি এমপিএলএস প্যাকেজ রয়েছে। সাইকোমেট্রিকায় একটি বিষয় আছে প্রায় এই বিষয় সম্পর্কে

springerlink.com/content/25r110007g417187

ডেটা বাইনারি এবং ট্র্যাজেক্টরিগুলি ব্যতীত সম্ভাবনার ট্রাজেক্টরিগুলি। লেখকরা গ্রুপ ট্রাজেক্টোরিগুলিতে সুপ্ত শ্রেণীর বিশ্লেষণ (একটি দণ্ডিত সসীম মিশ্রণ মডেল ব্যবহার করে প্রয়োগ করা হয়) ব্যবহার করেন। আমি জানি যে প্রথম লেখক প্রায় 10 বছর আগে বেন্ট মুথেন (এমপিএলএসের স্রষ্টা) এর সাথে অনুরূপ সেটিংসে (ট্র্যাজেক্টোরিজ সহ) সুপ্ত শ্রেণির বিশ্লেষণ সম্পর্কে আরও কিছু কাগজপত্র লিখেছিলেন। উদাহরণ স্বরূপ,

http://onlinelibrary.wiley.com/doi/10.1111/j.0006-341X.1999.00463.x/abstract

ফলাফলটি বাইনারি না হয়ে আপনি যে বিষয়ে কথা বলছেন তার সাথে খুব মিল রয়েছে। অবিচ্ছিন্ন ক্ষেত্রেটি খুব সহজ, সুতরাং আপনি আরও সুনির্দিষ্টভাবে বর্ণনা করেছেন এমন কিছু মেলে এমন কোনও সন্ধানের জন্য আমি পিছনের দিকে সাহিত্যের অনুসন্ধান করব (অর্থাত্ এই কাগজগুলির রেফারেন্সগুলি দেখুন)

আরও অনুসন্ধানের জন্য, আপনি এমপিএলএস এর স্বত্বাধিকারীদের সরাসরি আপনার কী প্রয়োজন তা করতে আপনাকে কী প্যাকেজটি ব্যবহার করতে হবে তা জিজ্ঞাসা করতে পারেন। তারা সাধারণত প্রতিক্রিয়া জানাতে খুব দ্রুত এবং খুব সহায়ক:

http://www.statmodel.com/cgi-bin/discus/discus.cgi

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.