ক্লাস্টারিং বিতরণ

10

আমার বেশ কয়েকটি বিতরণ রয়েছে (নীচের চিত্রে 10 টি বিতরণ)। ডিস্ট্রিবিউশন

প্রকৃতপক্ষে এগুলি হিস্টোগ্রামগুলি: এক্স-অক্ষের উপর 70 টি মান রয়েছে যা একটি দ্রবণে কিছু কণার আকার এবং x এর প্রতিটি মানের জন্য y এর সাথে সম্পর্কিত মান হ'ল কণার অনুপাত যা এর আকার x এর মানের কাছাকাছি is

আমি এই বিতরণগুলি গুচ্ছ করতে চাই। বর্তমানে আমি উদাহরণস্বরূপ ইউক্লিডিয়ান দূরত্ব সহ একটি শ্রেণিবিন্যাসের ক্লাস্টারিং ব্যবহার করি। আমি দূরত্ব পছন্দ করে সন্তুষ্ট না। আমি তথ্য-তাত্ত্বিক দূরত্ব যেমন কুলব্যাক-লেবেলারের চেষ্টা করেছি তবে তথ্যগুলিতে অনেকগুলি শূন্য রয়েছে এবং এটি অসুবিধার কারণ হয়। আপনার কাছে কি কোনও উপযুক্ত দূরত্ব এবং / অথবা অন্য কোনও ক্লাস্টারিং পদ্ধতির প্রস্তাব রয়েছে?

clustering

— স্টাফেন লরেন্ট
সূত্র

16

আমি আপনাকে এমন বুঝতে পেরেছি যে সমস্ত বিতরণগুলি একই 70 টি পৃথক মানকে গ্রহণ করতে পারে। তারপরে আপনার পক্ষে বিতরণগুলির संचयी রেখাগুলি তুলনা করা সহজ হবে (সংযোজনীয় বক্ররেখার তুলনা করা সাধারণভাবে বিতরণের তুলনা করার জন্য)। আকার, অবস্থান এবং স্প্রেডের পার্থক্যের জন্য এটি সর্বজনীন তুলনা হবে।

সুতরাং, ফর্মের মধ্যে ডেটা প্রস্তুত করুন (যেমন, এ, বি, ... ইত্যাদি বিতরণগুলি)

Value CumProp_A CumProp_B ...
1       .01       .05
2       .12       .14
...     ...       ...
70      1.00      1.00

এবং বিতরণগুলির মধ্যে একটি দূরত্বের ম্যাট্রিক্স গণনা করুন। শ্রেণিবদ্ধ ক্লাস্টারিংগুলিতে জমা দিন (আমি সম্পূর্ণ লিঙ্কেজ পদ্ধতিটি সুপারিশ করব)। কত দূরত্ব? ঠিক আছে, আপনি যদি ভাবেন যে দুটি ক্রমযুক্ত বক্ররেখা কেবলমাত্র একটি মূল্যের ( বি ) থেকে অনেক দূরে থাকে তবে চেবিশেভ দূরত্ব ব্যবহার করুন। আপনি যদি ভাবেন যে দুটি ক্রমযুক্ত বক্ররেখা কেবল তখনই পৃথক হয় যখন একটির স্টুওলিওর বিস্তৃত মান ( গ ) এর সাথে অন্যের চেয়ে উপরে থাকে তবে স্বতঃআরক্ষামূলক দূরত্ব ব্যবহার করুন। কার্ভগুলির মধ্যে স্থানীয় কোনও পার্থক্য গুরুত্বপূর্ণ ( ক ), ম্যানহাটনের দূরত্ব ব্যবহার করুন।

এখানে চিত্র বর্ণনা লিখুন

পিএস অটোকোররিলেটিভ দূরত্বটি কেবলমাত্র ক্রমযুক্ত বক্ররেখা এক্স এবং ওয়াইয়ের মধ্যে পার্থক্যের স্ব-সংশ্লেষণের একটি অ-স্বাভাবিকীকরণ সহগ:

$\sum_{i=2}^N (X-Y)_i*(X-Y)_{i-1}$

— ttnphns
সূত্র

দুর্দান্ত - অনেক ধন্যবাদ! আমি আগামীকাল এটি করব

— স্টাফেন লরেন্ট

স্বতঃসংশ্লিষ্ট দূরত্ব সম্ভবত নেতিবাচক। এটা কি আসলেই ভাল সংজ্ঞা?

— স্টাফেন লরেন্ট

আমি অন্য একটি প্রশ্ন জিজ্ঞাসা করতে ভুলে গেছি: আপনি কেন সম্পূর্ণ লিঙ্কেজের সুপারিশ করবেন?

— স্টাফেন লরেন্ট

আপনি যদি শূন্য নেতিবাচক পণ্যের শর্তাদি সেট করতে পারেন, যদি থাকে। আমি সম্পূর্ণ লিঙ্কেজের উপর জোর দিচ্ছি না, বরং আমি ওয়ার্ড বা সেন্ট্রয়েডের মতো "জ্যামিতিক" পদ্ধতির বিরুদ্ধে সতর্ক করব কারণ দূরত্বগুলি ইউক্যালিডিয়ান নয়। আমি ভেবেছিলাম সম্পূর্ণ সংযোগের মতো একটি "বিচ্ছিন্ন" পদ্ধতিটি আপনার পছন্দ অনুসারে হবে

— ttnphns

4

যদি আপনার ডেটা হিস্টোগ্রাম হয় তবে আপনি "হিস্টোগ্রাম ছেদ দূরত্ব" এর জন্য অ্যাপোসিয়েট দূরত্বের ফাংশনগুলি সন্ধান করতে পারেন।

ELKI নামে একটি সরঞ্জাম রয়েছে যার বিভিন্ন ধরণের ক্লাস্টারিং অ্যালগরিদম রয়েছে (কে-মানে এবং হায়ারারিকিকাল ক্লাস্টারিংয়ের চেয়ে অনেক বেশি আধুনিক) এবং এটিতে হিস্টগ্রাম ছেদ দূরত্বের একটি সংস্করণ রয়েছে যা আপনি বেশিরভাগ অ্যালগরিদমে ব্যবহার করতে পারেন। আপনি এটিতে উপলব্ধ কয়েকটি অ্যালগোরিদম চেষ্টা করে দেখতে পারেন। আপনি উপরে যে প্লট দিয়েছিলেন তা থেকে আপনি কী করতে চান তা আমার কাছে অস্পষ্ট। পৃথক হিস্টোগ্রামগুলি গ্রুপ করুন, তাই না? আপনি উপরে প্রদর্শিত 10 টি বিচার করে কোনও ক্লাস্টার নাও থাকতে পারে।

— কুইট আছে - অ্যানি-মুউসে
সূত্র

ধন্যবাদ। তবে আমি আর বা এসএএস-তে উপলব্ধ একটি সরঞ্জাম সন্ধান করছি। তারপরে উপরের দশটি বিতরণ কেবল একটি উদাহরণ, আমার কাছে ক্লাস্টারে প্রচুর বিতরণ।

— স্টাফেন লরেন্ট

2

আপনি কে-মানে বা অন্য ধরণের ক্লাস্টারিংয়ের জন্য বর্ণনাকারী সংগ্রহ করতে কিছু বৈশিষ্ট্য নিষ্কাশন কৌশল ব্যবহার করতে চাইতে পারেন।

আপনার হিস্টোগ্রামগুলিতে একটি নির্দিষ্ট বিতরণ মাপসই করা এবং বর্ণনাকারী হিসাবে এর পরামিতিগুলি ব্যবহার করার জন্য একটি প্রাথমিক পদ্ধতির প্রয়োজন। উদাহরণস্বরূপ, আপনার কাছে বাইমোডাল বিতরণ রয়েছে বলে মনে হচ্ছে, আপনি 2 টি উপায় এবং 2 মানক বিচ্যুতি দিয়ে বর্ণনা করতে পারবেন।

আরেকটি সম্ভাবনা হিস্টোগ্রামের গণনাগুলির প্রথম দুটি বা তিনটি মূল উপাদানটির উপরে ক্লাস্টার।

বিকল্পভাবে ওয়েভলেট পন্থাগুলি ব্যবহার করা যেতে পারে।

এই পৃষ্ঠাটি বহির্মুখী স্পাইকগুলির সাথে ডিল করার সময় এটি কীভাবে করবেন তা ব্যাখ্যা করে। ডেটা আলাদা, তবে ধারণাটি আপনার ক্ষেত্রে প্রযোজ্য। নীচে অনেকগুলি রেফারেন্সও পাবেন।

http://www.scholarpedia.org/article/Spike_sorting

আর-তে আপনি কোনওটি princompবা prcompফাংশন ব্যবহার করে আপনার পিকের মূল উপাদানগুলি গণনা করতে পারেন । এখানে আপনি পিসিএ-তে একটি টিউটোরিয়াল পাবেন।

ওয়েভলেটগুলির জন্য আপনি waveletsপ্যাকেজটি দেখতে পারেন ।

কে-মানে ক্লাস্টারিং kmeansফাংশনটি ব্যবহার করে অর্জন করা যেতে পারে ।

— নিকো
সূত্র

ধন্যবাদ, আমি যখনই সম্ভব আপনার প্রস্তাবটি একবার দেখে নেব।

— স্টাফেন লরেন্ট