অনুদৈর্ঘ্য ভেরিয়েবলগুলি কীভাবে ক্লাস্টার করবেন?


10

আমার কাছে ভেরিয়েবলগুলির একটি গুচ্ছ রয়েছে যার মধ্যে 0 থেকে দিন 7 পর্যন্ত অনুদায়ী তথ্য রয়েছে I আমি একটি উপযুক্ত ক্লাস্টারিং পদ্ধতির সন্ধান করছি যা এই অনুদৈর্ঘ্য ভেরিয়েবলগুলি (কেস নয়) বিভিন্ন গ্রুপে ক্লাস্টার করতে পারে। আমি এই ডেটা সেট করে আলাদাভাবে বিশ্লেষণ করার চেষ্টা করেছি সময় মতো, তবে ফলাফলটি যথাযথভাবে ব্যাখ্যা করা বেশ কঠিন ছিল।

আমি এসএএস পদ্ধতির প্রাপ্যতা অনুসন্ধান করেছি PROC SIMILARITYকারণ এর ওয়েবসাইটে একটি উদাহরণ রয়েছে ; তবে, আমি মনে করি এটি সঠিক উপায় নয়। পূর্ববর্তী কিছু অধ্যয়নগুলি প্রতিটি সময় পর্বে অনুসন্ধানী ফ্যাক্টর বিশ্লেষণ ব্যবহার করেছিল, তবে অযৌক্তিক ফলাফলের কারণে এটি আমার গবেষণায় কোনও বিকল্প নয়।

আশা করি এখানে কিছু ধারণা সরবরাহ করা যেতে পারে এবং এসএএস বা আর এর মতো একটি সংকলিত প্রোগ্রাম প্রক্রিয়া করার জন্য উপলব্ধ হতে পারে। কোন পরামর্শ প্রশংসা করা হয় !!


এখানে একটি সংক্ষিপ্ত উদাহরণ (ডেটা এবং ভেরিয়েবল নামের মধ্যে অসামঞ্জস্যপূর্ণ অবস্থানের জন্য দুঃখিত):

id time   V1  V2   V3   V4   V5   V6   V7   V8   V9   V10
2    0    8    7    3    7    6    6    0    0    5    2
2    1    3    5    2    6    5    5    1    1    4    2
2    2    2    3    2    4    4    2    0    0    2    2
2    3    6    4    2    5    3    2    1    2    3    3
2    4    5    3    4    4    3    3    4    3    3    3   
2    5    6    4    5    5    6    3    3    2    2    2
2    6    7    5    2    4    4    3    3    4    4    5
2    7    7    7    2    6    4    4    0    0    4    3
4    0   10    7    0    2    2    6    7    7    0    9
4    1    8    7    0    0    0    9    3    3    7    8
4    2    8    7    0    0    0    9    3    3    7    8
4    3    8    7    0    0    0    9    3    3    7    8
4    4    5    7    0    0    0    9    3    3    7    8
4    5    5    7    0    0    0    9    3    3    7    8
4    6    5    7    0    0    0    9    3    3    7    8
4    7    5    7    0    0    0    9    3    3    7    8
5    0    9    6    1    3    2    2    2    3    3    5
5    1    7    3    1    3    1    3    2    2    1    3
5    2    6    4    0    4    2    4    2    1    2    4
5    3    6    3    2    3    2    3    3    1    3    4
5    4    8    6    0    5    3    3    2    2    3    4
5    5    9    6    0    4    3    3    2    3    2    5
5    6    8    6    0    4    3    3    2    3    2    5
5    7    8    6    0    4    3    3    2    3    2    5

আপনি কি আরও কিছুটা তথ্য ব্যাখ্যা করতে পারেন বা একটি সংক্ষিপ্ত নমুনা সরবরাহ করতে পারেন? আপনি যখন বলছেন "ভেরিয়েবলগুলি দ্রাঘিমাংশীয় ডেটা ধারণ করে" আপনি কী বোঝাতে চেয়েছেন যে এগুলি একই ব্যক্তি বা জিনিসটির উপর 7 দিনের মধ্যে সমস্ত পুনরাবৃত্তি পরিমাপ হয় (এবং সম্ভবত এটি সম্পর্কযুক্ত হতে পারে)।
রোজার

রোজারকে: আমি ডেটার একটি অংশ যুক্ত করেছি। আপনি যেমনটি উল্লেখ করেছেন, সেগুলি পুনরাবৃত্তি হিসাবে পরিমাপ করা হয়: প্রতিটি রোগীর (আইডি) 10 টি পরিমাপ হয় (ভি 1 ~ ভি 10) বেশ কয়েক দিন স্থায়ী হয় (দিন0 ~ দিন 7)।
cchien

উত্তর:


5

আর Hmiscপ্যাকেজটিতে curveRepফাংশনটির জন্য সহায়তা ফাইলটি দেখুন যা "প্রতিনিধি বক্ররেখা" for curveRepক্লাস্টারগুলি বক্র আকার, অবস্থান এবং নিখোঁজ সময়ের পয়েন্টগুলির নিদর্শনগুলিতে।


আপনার উপদেশের জন্য ধন্যবাদ. এটা করণীয় শোনাচ্ছে। আমি এখনই এর ম্যানুয়াল পড়ব।
cchien

ফ্রাঙ্ক। ম্যানুয়ালটিতে উদাহরণটি কাজ করছে বলে মনে হচ্ছে না। টাইপো আছে? আমি এটির জন্য অনুভূতি পেতে উদাহরণটি চালাতে চেয়েছিলাম। এখানে কোডটি রয়েছে: সেট.সিড (1) এন <- 200 এনসি <- নমুনা (1:10, এন, ট্রু) আইডি <- রেপ (1: এন, এনসি) x <- y <- আইডি (আমি ইন 1: এন) {x [আইডি == i] <- যদি (আইই আইডি == আই] <- আই + 10 * (এক্স [আইডি == i] - .5) + রানিফ (এনসি [আমি], - 10, 10)}
বি_মিনার

1
উপস। আমি ভুলে গিয়েছিলাম যে কোনও আর সহায়তা ফাইলে শতকরা সাইনটি এড়াতে হবে। উদাহরণস্বরূপ একটি রেখা কেটে ফেলা হয়েছে। অসম্পূর্ণ লাইনটি এর সাথে প্রতিস্থাপন করুন:x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
ফ্রাঙ্ক হ্যারেল

আমি নিশ্চিত নই যে "পি: ক্লাস্টারিংয়ের জন্য প্রতিটি বক্ররেখার মূল্যায়ন করার জন্য পয়েন্টগুলির সংখ্যা" কার্ভেরেপ (এক্স, ওয়াই, আইডি, কেএক্সডিস্ট = 2, পি = 10)
গ্রেগ 121

1
p>3p=10p

5

আমি নিশ্চিত নই যে আপনি যা খুঁজছেন তা হ'ল, তবে kmlআর- এর প্যাকেজটি পুনরাবৃত্তি ব্যবস্থার ক্রম ক্লাস্টার করার জন্য কে-অর্থ ব্যবহার করে। এখানে প্যাকেজ পৃষ্ঠা এবং কাগজের একটি লিঙ্ক রয়েছে (দুর্ভাগ্যক্রমে, এটি গেটেড)। আপনার যদি মোটামুটি ছোট ডেটাসেট থাকে (কয়েকশত সিকোয়েন্স) থাকে তবে এটি কেবলমাত্র ভাল কাজ করে।

এখানে কাগজের একটি অ-গেটেড সংস্করণ রয়েছে (রেফারেন্স সমস্যা ছাড়াই): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf


এই প্রশ্নটি পোস্ট করার আগে আমি আসলে এই পদ্ধতিটি পর্যালোচনা করেছি। আমি ধরে নিয়েছি যে কেমিএল পদ্ধতির মূল কাগজের কয়েকটি উদাহরণ থেকে গোষ্ঠী ব্যক্তিদের কাছে এটি একটি গুচ্ছ পথ। আমি আবার এটি একবার দেখে নেব। ধন্যবাদ !!
cchien

@ সচ্চিইঁ হ্যাঁ, তারা এটি পৃথক ট্র্যাজেক্টোরিগুলি একসাথে গুচ্ছ করার জন্য ব্যবহার করে তবে আপনি ধরে নিতে পারেন যে আপনার পৃথক প্রতি দশটি ট্র্যাজেক্টোরি রয়েছে (আপনার প্রতিটি ভেরিয়েবলের জন্য একটি)। কিলোমিটার পদ্ধতিটি সঠিকভাবে কাজ করার জন্য আপনাকে সম্ভবত আপনার ভেরিয়েবলগুলি স্বাভাবিক করতে হবে। সমস্যাটি হ'ল, যতদূর আমি জানি, কিমিএল কে বলার কোনও উপায় নেই যে আপনার ট্র্যাজেক্টরিগুলি ব্যক্তিগতভাবে বাসা বাঁধে। সুতরাং এটি আপনি কী অর্জন করার চেষ্টা করছেন তার সাথে পুরোপুরি ফিট না হয়ে থাকতে পারে।
এন্টোইন ভার্নেট

@ গ্রেগ 121, কাগজের অবাধে উপলভ্য সংস্করণটির লিঙ্কটির জন্য ধন্যবাদ। দেখে মনে হচ্ছে ইন-টেক্সট রেফারেন্সগুলি বাদ দেওয়া হয়েছে, সম্ভবত লেটেক্স ফাইলটি আবারও সংযুক্ত করা উচিত (রেফারেন্স তালিকাটি যদিও সেখানে রয়েছে)।
এন্টোইন ভার্নেট

@ অ্যান্টাইন ভার্নেট হ্যাঁ, আপনি ঠিক বলেছেন। তবে আমি অন্য কোনও সংস্করণ খুঁজে পাইনি
গ্রেগ 121

4

সুতরাং, আপনি পি ভেরিয়েবল একই এন ব্যক্তিদের উপর প্রতি টি বার পরিমাপ করা হয় । এগিয়ে যাওয়ার এক উপায় হ'ল টি পিএক্সপি (ডিস) অনুরূপ ম্যাট্রিকগুলি গণনা করা এবং INDSCAL- মডেল বহুমাত্রিক স্কেলিং প্রয়োগ করা। এটি আপনাকে দুটি নিম্ন-মাত্রিক মানচিত্র দেবে (বলুন, 2 মাত্রার)। প্রথম মানচিত্র দেখায় স্থানাঙ্ক এর পি মাত্রার স্থান ভেরিয়েবল এবং তাদের মধ্যে সম্পর্কিত প্রতিফলিত, যদি থেকে থাকে তাহলে। দ্বিতীয় মানচিত্রে টি এর প্রতিটি ম্যাট্রিক্সের মাত্রাগুলির ওজন (অর্থাত্ গুরুত্ব বা প্রশ্রয়) দেখায় ।

এখানে চিত্র বর্ণনা লিখুন


আমার কাছে এন-ডাইমেনশনকে 2-মাত্রায় রূপান্তর করার ধারণাও রয়েছে তবে কেবল এটি নির্দিষ্ট করতে পারে এমন কোনও পদ্ধতি সম্পর্কে ধারণা নেই। এখন আমি পেয়েছি এসএএসের কোনও পদ্ধতি এটি প্রয়োগ করতে পারে। আমি আমার ডেটা ব্যবহার করার সময় এর উপলব্ধতা দেখতে এটি শিখব।
cchien

ওজন ব্যাখ্যা করার সর্বোত্তম উপায় কী?
মিং কে

ওজন দেখায় যে এই নির্দিষ্ট উত্সের জন্য একটি মাত্রা কতটা প্রাসঙ্গিক, বা বৈষম্যমূলক (উত্স ব্যক্তিগুলি বা, যেমন উদাহরণ হিসাবে, সময়)। টাইম 1 এর চিত্রটিতে উদাহরণস্বরূপ, দ্বিতীয় মাত্রা শক্তিশালী বা প্রাসঙ্গিক এবং মাত্রা আমি দুর্বল।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.