গুচ্ছের আকার কীভাবে পরিমাপ করা যায়?


14

আমি জানি যে এই প্রশ্নটি যথাযথভাবে সংজ্ঞায়িত নয়, তবে কিছু ক্লাস্টারগুলি উপবৃত্তাকার বা নিম্ন মাত্রিক স্থানে থাকতে পারে অন্যদিকে ননলাইনার আকার রয়েছে (2 ডি বা 3 ডি উদাহরণে)।

গুচ্ছগুলির আনলাইনারিটির (বা "আকৃতি") কোনও মাপকাঠি আছে কি?

নোট করুন যে 2 ডি এবং 3 ডি স্পেসে কোনও ক্লাস্টারের আকৃতি দেখতে কোনও সমস্যা নয়, তবে উচ্চ মাত্রিক জায়গাগুলিতে আকার সম্পর্কে কিছু বলতে সমস্যা হয়। বিশেষত, উত্তল গুচ্ছটি কীভাবে হয় তার কোনও ব্যবস্থা আছে?

আমি এই প্রশ্নটির জন্য অনুপ্রাণিত হয়েছি এমন আরও অনেক ক্লাস্টারিং প্রশ্ন যেখানে লোকেরা গুচ্ছ সম্পর্কে কথা বলেন তবে তাদের কেউ দেখতে পায় না (উচ্চতর মাত্রায়)। তদুপরি, আমি জানি যে 2 ডি বক্ররেখার জন্য অরেণ্যতার কিছু ব্যবস্থা রয়েছে।


1
en.wikedia.org/wiki/Topological_data_analysis সাহায্য করতে পারে, যেখানে আকৃতিটি আপনি যা বোঝাতে চেয়েছেন ঠিক তেমন নয়।
জিয়ুয়াং

1
সম্ভবত আপনি নিজের উদ্দেশ্যে কমপ্যাক্টনেস ধারণাটি মানিয়ে নিতে পারেন could
ব্যবহারকারী 12719

উত্তর:


4

আমি গাউসিয়ান মিশ্রণ মডেলগুলি (জিএমএম এর) পছন্দ করি।

তাদের বৈশিষ্ট্যগুলির মধ্যে একটি হ'ল, প্রবিট ডোমেনে তারা টুকরোজ ইন্টারপোলটারগুলির মতো কাজ করে। এর একটি নিহিততা হ'ল তারা প্রতিস্থাপনের ভিত্তিতে, সর্বজনীন আনুমানিকর মতো কাজ করতে পারে। এর অর্থ হ'ল লগনরমাল, ওয়েইবুল বা ক্রেজিয়ার অ-বিশ্লেষণকারীগুলির মতো নন-গাউসীয় বিতরণগুলির জন্য, যতক্ষণ না কিছু মানদণ্ড পূরণ করা হয় - জিএমএম বিতরণটি আনুমানিক করতে পারে।

সুতরাং আপনি যদি GMC ব্যবহার করে AICc বা BIC অনুকূল আনুমানিকতার প্যারামিটারগুলি জানেন তবে আপনি এটি ছোট মাত্রায় প্রজেক্ট করতে পারেন। আপনি এটিকে ঘোরান, এবং আনুমানিক GMM এর উপাদানগুলির প্রধান অক্ষগুলি দেখুন।

ফলাফলটি 3 ডি-ভিউয়ের চাক্ষুষ উপলব্ধি ব্যবহার করে উচ্চতর মাত্রিক তথ্যের সর্বাধিক গুরুত্বপূর্ণ অংশগুলি দেখার জন্য একটি তথ্যবহুল এবং দর্শনীয়ভাবে অ্যাক্সেসযোগ্য উপায় হবে।

সম্পাদনা: (নিশ্চিত জিনিস, ঝোঁক)

আকৃতিটি দেখার জন্য বিভিন্ন উপায় রয়েছে।

  • আপনি এর মাধ্যমে প্রবণতাগুলি দেখতে পারেন। লগনোরমাল এমন একটি গৌসিয়ানদের সিরিজ দ্বারা সমীকরণিত হয় যার অর্থ ধীরে ধীরে নিকটবর্তী হয় এবং যার ওজন অগ্রগতির সাথে সাথে ছোট হয়। যোগফলটি ভারী লেজের সমান করে। এন-মাত্রায়, এই জাতীয় উপাদানগুলির একটি ক্রম একটি লব তৈরি করে। আপনি পাশাপাশি মধ্যবর্তী দূরত্বগুলি (উচ্চ মাত্রায় রূপান্তর করতে পারেন) এবং দিকনির্দেশ কোজিনগুলির মধ্যে ট্র্যাক করতে পারেন। এটি অনেক বেশি অ্যাক্সেসযোগ্য মাত্রায় রূপান্তরিত করবে।
  • আপনি একটি 3 ডি সিস্টেম তৈরি করতে পারেন যার অক্ষগুলি হ'ল ওজন, গড়ের দৈর্ঘ্য এবং বৈকল্পিক / covariance এর প্রস্থতা। আপনার যদি খুব বেশি ক্লাস্টার-গণনা থাকে তবে একে অপরের সাথে তুলনা করে দেখার উপায় এটি। 2 কে পরিমাপের সাথে 50 ক অংশকে 3 ডি স্পেসে কয়েক মেঘে রূপান্তর করার এটি একটি মূল্যবান উপায়। আমি যদি এটি চয়ন করি তবে আমি সেই জায়গাতে প্রক্রিয়া নিয়ন্ত্রণ করতে পারি। আমি গাউসিয়ান মিশ্রণ মডেলের উপাদানগুলির উপর গাউসীয় মিশ্রণ মডেল ভিত্তিক নিয়ন্ত্রণ ব্যবহারের পুনরাবৃত্তি পছন্দ করি যা অংশের পরামিতিগুলির সাথে খাপ খায়।
  • ডি-ক্লাটারিংয়ের ক্ষেত্রে আপনি খুব অল্প ওজন দ্বারা, বা প্রতি ওজন বা সমবায় দ্বারা বা এড়িয়ে যেতে পারেন।
  • আর2
  • আপনি একে একে বুদ্বি ছেদ করার মতো দেখতে পারেন । জিএমএম ক্লাস্টারের প্রতিটি জুটির মধ্যে সমান সম্ভাবনার অবস্থান (শূন্য কুলব্যাক-লেবেলার বিচ্যুতি) অবস্থান। আপনি যদি সেই অবস্থানটি ট্র্যাক করেন তবে আপনি সেই স্থানে সদস্যতার সম্ভাবনা দ্বারা ফিল্টার করতে পারেন। এটি আপনাকে শ্রেণিবিন্যাসের সীমানার পয়েন্ট দেবে। এটি আপনাকে "লোনার্স" বিচ্ছিন্ন করতে সহায়তা করবে। আপনি প্রতি সদস্যের প্রান্তিকের উপরে এই জাতীয় সীমার সংখ্যা গণনা করতে পারেন এবং উপাদান হিসাবে "সংযুক্তি" এর একটি তালিকা পেতে পারেন। আপনি অবস্থানগুলির মধ্যে কোণ এবং দূরত্বগুলিও দেখতে পারেন।
  • গাউসিয়ান পিডিএফ প্রদত্ত এলোমেলো সংখ্যা ব্যবহার করে আপনি স্থানটির পুনরায় নমুনা করতে পারেন এবং তারপরে নীতি উপাদান উপাদান বিশ্লেষণ করতে পারেন এবং তাদের সাথে সম্পর্কিত ইগেন-আকারগুলি এবং ইগেনভ্যালুগুলি দেখুন।

সম্পাদনা করুন:

আকৃতি মানে কি? তারা বলেছে যে সুনির্দিষ্টতা হ'ল সমস্ত ভাল যোগাযোগের প্রাণ। "পরিমাপ" সম্পর্কে আপনার অর্থ কী?

এর অর্থ কী হতে পারে সে সম্পর্কে ধারণাগুলি:

  • আইবোলের আদর্শ জ্ঞান / সাধারণ রূপের অনুভূতি। (অত্যন্ত গুণগত, চাক্ষুষ অ্যাক্সেসযোগ্যতা)
  • জিডি অ্যান্ড টি আকৃতির পরিমাপ (তাত্পর্য, ঘনত্ব ইত্যাদি) (অত্যন্ত পরিমাণগত)
  • সংখ্যার কিছু (ইগেনভ্যালু, কোভেরিয়েনস, ইত্যাদি ...)
  • একটি কার্যকর হ্রাস মাত্রা স্থানাঙ্ক (যেমন GMM পরামিতি আকার হয়ে উঠছে)
  • একটি হ্রাস শব্দ সিস্টেম (কিছু উপায়ে স্মুথড, তারপর উপস্থাপিত)

বেশিরভাগ "বেশ কয়েকটি উপায়ে" এগুলির মধ্যে কিছুটা ভিন্নতা।


3

এটি বরং সরল হতে পারে তবে আপনার প্রতিটি ক্লাস্টারের একটি ইগেনুয়ালু বিশ্লেষণ করে আপনি কিছুটা অন্তর্দৃষ্টি পেতে পারেন।

আমি যা চেষ্টা করব তা হ'ল একটি ক্লাস্টারে নির্ধারিত সমস্ত পয়েন্টগুলি গ্রহণ এবং একটি মাল্টিভিয়ারেট গাউসিয়ান সঙ্গে এটি ফিট করা। তারপরে আপনি লাগানো কোভেরিয়েন্স ম্যাট্রিক্সের ইগোনালগুলি গণনা করতে পারেন এবং তাদের প্লট করতে পারেন। এটি করার বিভিন্ন উপায় রয়েছে; সম্ভবত সবচেয়ে সুপরিচিত এবং বহুল ব্যবহৃত ব্যবহৃত হয় প্রধান উপাদান বিশ্লেষণ বা পিসিএ

একবার আপনার ইগেনভ্যালুগুলি (একে বর্ণালী বলা হয়) হয়ে গেলে, গুচ্ছটি নির্দিষ্ট মাত্রায় কীভাবে "প্রসারিত" হয় তা নির্ধারণ করতে আপনি তাদের সম্পর্কিত আকারগুলি পরীক্ষা করতে পারেন। বর্ণালী যত কম ইউনিফর্ম হবে, তত বেশি "সিগার-আকৃতির" গুচ্ছ হবে এবং বর্ণালীটি যত বেশি ইউনিফর্ম হবে, তত বেশি গোলাকার হবে us এমনকি ইগেনভ্যালুগুলি (বর্ণালী এনট্রপি?) কীভাবে অ-ইউনিফর্ম রয়েছে তা নির্দেশ করার জন্য আপনি কিছু মেট্রিকের সংজ্ঞা দিতেও পারেন; দেখতে http://en.wikipedia.org/wiki/Spectral_flatness

পার্শ্ব সুবিধা হিসাবে, আপনি "ডেটার স্পেসে" "সিগার-আকৃতির" ক্লাস্টারগুলি কোথায় নির্দেশ করছেন "তা দেখতে প্রধান উপাদানগুলি (বড় ইগেনভ্যালুগুলির সাথে সম্পর্কিত ইগেনভেেক্টর) পরীক্ষা করতে পারেন।

স্বাভাবিকভাবেই এটি একটি স্বেচ্ছাসেবী ক্লাস্টারের অপরিশোধিত অনুমান, কারণ এটি ক্লাস্টারের পয়েন্টগুলিকে একক উপবৃত্ত হিসাবে মডেল করে। তবে, যেমনটি আমি বলেছিলাম, এটি আপনাকে কিছুটা অন্তর্দৃষ্টি দিতে পারে।


+1 সরল, সম্ভবত; তবে এটি কার্যকর এবং ব্যবহারিক বলে মনে হচ্ছে। মাল্টিভিয়ারেট গাউসিয়ান ফিটিংয়ের কোনও সুবিধা হবে বলে মনে হয় না: কেবল কেন্দ্রের মধ্যে-ক্লাস্টার ডেটার (যা মূলত ক্লাস্টারের পিসিএ হয়) এর এসভিডি ব্যবহার করুন।
হোবার

@ যাহা হ্যাঁ, আমি তাদেরকে একই জিনিস হিসাবে মনে করি! তত্ত্বটি পর্দার আড়ালে যা ঘটছে তার চেয়ে বেশি মানানসই ফিটিং হ'ল, পিসিএ সেই প্রক্রিয়াটির একটি দৃ implementation় বাস্তবায়ন। আমি আরও উত্তর পরিষ্কার করতে আমার উত্তর সম্পাদনা করব।
lmjohns3

2

4C, ERiC বা LMCLUS এর মতো সম্পর্কযুক্ত ক্লাস্টারিং অ্যালগরিদমগুলি সাধারণত ক্লাস্টারগুলিকে লিনিয়ার ম্যানিফোল্ড হিসাবে বিবেচনা করে। অর্থাত্ ডি-ডাইমেনশনাল স্পেসে কে-মাত্রিক হাইপারপ্লেন। ঠিক আছে, 4 সি এবং ERiC এর জন্য কেবল স্থানীয়ভাবে লিনিয়ার, যাতে তারা বাস্তবে নন-উত্তল হতে পারে। তবে তারা এখনও একটি হ্রাস স্থানীয় মাত্রিকতার ক্লাস্টারগুলি সনাক্ত করার চেষ্টা করে।

উচ্চ মাত্রিক ডেটাতে স্বেচ্ছাসেবী আকারের ক্লাস্টার সন্ধান করা বেশ শক্ত সমস্যা। বিশেষত, মাত্রিকতার অভিশাপের কারণে যা অনুসন্ধানের স্থানটি বিস্ফোরিত হতে দেয় এবং একই সাথে আপনি যদি এখনও উল্লেখযোগ্য ফলাফল চান তবে আপনার আরও অনেক বড় ইনপুট ডেটা থাকা দরকার । অনেকগুলি অ্যালগোরিদম তারা কী খুঁজে পায় তা এখনও তাৎপর্যপূর্ণ বা এলোমেলো হতে পারে কিনা সেদিকে মনোযোগ দেয় না।

সুতরাং প্রকৃতপক্ষে আমি বিশ্বাস করি যে উচ্চ মাত্রিক জায়গাতে জটিল গুচ্ছগুলির জঞ্জালতার বেহালতা সম্পর্কে চিন্তা করার আগে সমাধানের অন্যান্য সমস্যা রয়েছে।

উচ্চতর মাত্রায় উত্তল হালকে গণনা করার জটিলতাটি দেখুন ...

এছাড়াও, আপনার কি কৌতূহলের বাইরেও সত্যিকারের ব্যবহারের কেস রয়েছে?


2

যদি আপনার মাত্রিকতা 2 বা 3 এর চেয়ে বেশি না হয়, তবে 2D স্পেসে একাধিকবার আগ্রহের ক্লাস্টারটি প্রজেক্ট করা এবং ফলাফলগুলি কল্পনা করা বা আপনার অনাবলম্বনের 2D পরিমাপটি ব্যবহার করা সম্ভব হতে পারে। আমি এটিকে র্যান্ডম প্রজেক্টস http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf পদ্ধতির কারণে ভেবেছিলাম ।

একটি সূচী তৈরি করতে মাত্রিকতা হ্রাস করতে এলোমেলো অনুমানগুলি ব্যবহার করা যেতে পারে। থিয়োরিটি হ'ল যদি দুটি পয়েন্ট ডি-ডাইমেনেশনের কাছাকাছি থাকে এবং আপনি d এর সাথে d মাত্রায় একটি এলোমেলো প্রক্ষেপণ নেন

সংক্ষিপ্ততার জন্য, আপনি একটি সমতল পৃষ্ঠে গ্লোব প্রজেক্ট করার কথা ভাবতে পারেন। আপনি এটি কীভাবে প্রজেক্ট করবেন তা নিউইয়র্ক এবং নিউ জার্সি একসাথে হতে চলেছে তবে আপনি খুব কমই নিউইয়র্ক এবং লন্ডনকে একসাথে ঠেলাবেন।

আমি জানি না এটি আপনাকে কঠোরভাবে সহায়তা করতে পারে কিনা তবে এটি ক্লাস্টারগুলিকে কল্পনা করার একটি দ্রুত উপায় হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.