আমি কীভাবে জানব যে আমার কে-মানে ক্লাস্টারিং অ্যালগরিদম মাত্রিকতার অভিশাপে ভুগছে?


12

আমি বিশ্বাস করি যে এই প্রশ্নের শিরোনামটি সব বলে।


3
আমি মনে করি আপনি একটি লক্ষণ দ্বারা কী বোঝাতে চাইছেন তা আমাদের জন্য আপনাকে পরিষ্কার করতে হবে।
mdewey

যদি "লক্ষণ" হ'ল "পরীক্ষা" এর একটি হস্তক্ষেপের সংস্করণ হয়, তবে সম্ভবত আপনি আপনার ডেটাসেটের নমুনা গ্রহণ করতে পারেন - নমুনা আকারের সম্ভবত% 66%, আপনার বিশ্লেষণ করতে পারেন (kmeans, আপনার ক্ষেত্রে), এবং তারপরে দেখুন কতটা ঝাপটায় y ফলাফল হয়। উদাহরণস্বরূপ, আপনি দেখতে পাচ্ছিলেন যে একই ক্লাস্টারে প্রায়শই নির্দিষ্ট পর্যবেক্ষণ বরাদ্দ করা হয়। তারপরে আবার এটি চেষ্টা করার মতো নাও হতে পারে। যদি আপনি একটি মাত্রিক সমস্যার সম্ভাবনা সম্পর্কে চিন্তিত হন তবে আপনার সম্ভাবনা রয়েছে। আপনি অন্যান্য ক্লাস্টারিং পদ্ধতিকে বিবেচনা করতে পারেন যা কিছু মাত্রায় মাত্রা হ্রাস করে।
জেনেরিক_উজার

@ জেনারিক_উজার যদি মন্তব্যটি উত্তর হয় তবে আমি এটিকে একটি গৃহীত উত্তর হিসাবে গণনা করব :)
ম্যাথিউ

1
এই প্রশ্নটি খোলা থাকার জন্য যথেষ্ট স্পষ্ট, আইএমও।
গুং - মনিকা পুনরায়

1
প্রায়শই যথেষ্ট, আপনি "মাত্রিকতার অভিশাপ" এর চেয়ে বেশি আগে কে-ইস্যুতে আরও গুরুতর সমস্যার মধ্যে পড়েছেন। K-মানে পারেন 128 মাত্রিক তথ্য (উদাঃ টালা রঙ ভেক্টর) যদি বৈশিষ্ট্যাবলী ভাল স্বভাবের উপর কাজ করে। কিছু পরিমাণে, এটি কখনও কখনও 10000-মাত্রিক পাঠ্য ডেটাতেও কাজ করতে পারে। অভিশাপের তাত্ত্বিক মডেল কখনই আসল ডেটার জন্য ধারণ করে না । বৃহত্তর সমস্যা হ'ল অতুলনীয় বৈশিষ্ট্য, স্পারসিটি এবং ফলাফলটি ভিজ্যুয়ালাইজ করতে এবং অক্ষম করার জন্য অক্ষম।
কিউইট আছে - অ্যানি-মুউসে

উত্তর:


18

এটি ডাইমেনশনালিটির অভিশাপ কী তা সম্পর্কে ভাবতে সহায়তা করে । সিভিতে বেশ কয়েকটি খুব ভাল থ্রেড রয়েছে যা পড়ার মতো। এখানে শুরু করার জায়গা: কোনও সন্তানের কাছে "মাত্রিকতার অভিশাপ" ব্যাখ্যা করুন

আমি নোট করেছি যে আপনি কীভাবে এটি প্রযোজ্য সে সম্পর্কে আগ্রহী k- ক্লাস্টারিং মানে। এটা সচেতন হওয়া মূল্যবানk-মানগুলি স্কোয়ারড ইউক্লিডিয়ান দূরত্বকে হ্রাস করার জন্য (কেবল) একটি অনুসন্ধান কৌশল। এর আলোকে, ইউক্লিডিয়ান দূরত্বটি মাত্রিকতার অভিশাপের সাথে কীভাবে সম্পর্কযুক্ত তা ভেবে দেখার মূল্য রয়েছে (দেখুন: ইউক্লিডিয়ান দূরত্ব উচ্চ মাত্রায় কেন ভাল মেট্রিক নয়? )।

এই থ্রেডগুলির সংক্ষিপ্ত উত্তরটি হ'ল জায়গার ভলিউম (আকার) মাত্রা সংখ্যার তুলনায় অবিশ্বাস্য হারে বৃদ্ধি পায়। এমন কি10মাত্রা (যা এটি আমার কাছে খুব 'উচ্চ-মাত্রিক' বলে মনে হয় না) অভিশাপটি বয়ে আনতে পারে। যদি আপনার ডেটা সেই স্থান জুড়ে সমানভাবে বিতরণ করা হয় তবে সমস্ত বস্তু একে অপরের থেকে প্রায় সমানতুল্য হয়ে পড়ে। যাইহোক, @ অ্যাননি-মৌসে সেই প্রশ্নের উত্তরে নোট হিসাবে , এই ঘটনাটি কীভাবে স্থানের মধ্যে ডেটা সাজানো যায় তার উপর নির্ভর করে; যদি তারা অভিন্ন না হয়, আপনার অগত্যা এই সমস্যা হবে না। এটি সমানভাবে বিতরণ করা উচ্চ-মাত্রিক ডেটা আদৌ খুব সাধারণ কিনা কিনা তা নিয়ে প্রশ্ন উত্থাপিত হয় (দেখুন: "মাত্রিকতার অভিশাপ" কি সত্যিকারের ডেটাতে উপস্থিত রয়েছে? )

আমি যুক্তি দিয়ে বলব যে বিষয়টি গুরুত্বপূর্ণ তা ভেরিয়েবলের সংখ্যা (আপনার ডেটার আক্ষরিক মাত্রিকতা) নয়, তবে আপনার ডেটার কার্যকর মাত্রিকতা। অনুমানের অধীনে যে10 মাত্রা 'খুব বেশি' এর জন্য k-মিনস, সহজ কৌশলটি আপনার কাছে থাকা বৈশিষ্ট্যের সংখ্যা গণনা করা। তবে আপনি যদি কার্যকর মাত্রিকতার দিক বিবেচনা করতে চান, আপনি একটি নীতিগত উপাদান বিশ্লেষণ (পিসিএ) সম্পাদন করতে পারেন এবং কীভাবে এগেনভ্যালুগুলি ছেড়ে যায় তা দেখতে পারেন। এটি বেশ সাধারণ যে বেশিরভাগ প্রকরণের উপস্থিতি কয়েকটি মাত্রায় বিদ্যমান (যা সাধারণত আপনার ডেটাসেটের মূল মাত্রাগুলি কেটে দেয়)। এটি বোঝায় যে আপনার সাথে সমস্যা হওয়ার সম্ভাবনা কমk-মানের দিক থেকে আপনার কার্যকর মাত্রাটি আসলে অনেক ছোট।

আরো জড়িত পদ্ধতির লাইন বরাবর আপনার ডেটাসেটে pairwise দূরত্বের বিতরণের পরীক্ষা হবে @ hxd1011 তার মধ্যে প্রস্তাব দেওয়া উত্তর । সাধারণ প্রান্তিক বিতরণগুলি অনুসন্ধান করা আপনাকে সম্ভাব্য অভিন্নতার কিছুটা ইঙ্গিত দেবে। যদি আপনি ব্যবধানের মধ্যে থাকা সমস্ত ভেরিয়েবলকে স্বাভাবিক করেন[0, 1], যুগলভাবে দূরত্ব অবশ্যই ব্যবধানের মধ্যে থাকা উচিত [0, D]। উচ্চ ঘনত্বযুক্ত দূরত্বগুলি সমস্যা সৃষ্টি করবে; অন্যদিকে, একটি বহু-মডেল বিতরণ আশাবাদী হতে পারে (আপনি এখানে আমার উত্তরের একটি উদাহরণ দেখতে পাচ্ছেন: ক্লাস্টারিংয়ে বাইনারি এবং অবিচ্ছিন্ন উভয় ভেরিয়েবলগুলি কীভাবে একসাথে ব্যবহার করবেন? )।

তবে, কিনা k-মানুষ 'কাজ করবে' এখনও একটি জটিল প্রশ্ন। আপনার ডেটাতে অর্থপূর্ণ সুপ্ত গোষ্ঠী রয়েছে এমন অনুমানের অধীনে এগুলি অগত্যা আপনার সমস্ত মাত্রা বা নির্মিত মাত্রাতে বিদ্যমান নয় যা বৈচিত্রকে সর্বাধিক করে তোলে (যেমন, মূল উপাদানগুলি)। গুচ্ছগুলি নিম্ন-প্রকরণের মাত্রায় থাকতে পারে (দেখুন: পিসিএর উদাহরণ যেখানে কম ভেরিয়েন্সযুক্ত পিসিগুলি "দরকারী" )। এটি হ'ল, আপনার পয়েন্টগুলির সাথে ক্লাস্টারগুলি থাকতে পারে যা আপনার মাত্র কয়েকটি মাত্রায় বা নিম্ন-ভেরিয়েশন পিসিগুলির মধ্যে খুব কাছাকাছি এবং ভালভাবে পৃথক হয়েছে, তবে উচ্চ-প্রকরণের পিসিগুলিতে দূরবর্তীভাবে অনুরূপ নয়, যার কারণ হতে পারেk-আপনি যে ক্লাস্টারগুলি পরেছেন তা উপেক্ষা করে এর পরিবর্তে ভুয়া ক্লাস্টারগুলি বেছে নেওয়ার জন্য (কিছু উদাহরণ এখানে দেখা যাবে: কে- মানেগুলির ত্রুটিগুলি কীভাবে বোঝা যায় )।


এটি দেখা গেছে যে বহুগুণ শেখার জন্য ইতিমধ্যে একটি ট্যাগ রয়েছে (আগে দেখা উচিত ছিল!)। যারা জানেন না তাদের সংক্ষিপ্তসার হিসাবে, ধারণাটি হ'ল উচ্চ-মাত্রিক ডেটা পুরো জায়গার দিক থেকে বিচ্ছিন্ন হতে থাকে, তবে এটি সেই জায়গার মধ্যে কিছু হাইপারসফেসে ঘন হতে পারে ।
জিওম্যাট 22 22

চমৎকার উত্তরের জন্য +1। আপনি কি দয়া করে ইগেনভ্যালু অংশে আরও কিছুটা ব্যাখ্যা করতে পারবেন? কার্যকর মাত্রাটি যদি ছোট হয় তবে আপনি কি পিসিএ করার পরামর্শ দিচ্ছেন এবং উচ্চ ইগেনভ্যালুগুলির সাথে কেবল প্রথম কয়েকটি স্কোর ধরে রাখবেন?
ডেটাডাহ '

@ ডেটাডোহ, এটি অবশ্যই একটি সম্ভাবনা, তবে আমি যা বলছি তা হ'ল আপনার এটি করা উচিত নয়। ফলস্বরূপ, ডেটা উচ্চ-মাত্রিক নয় (যখন কেবলমাত্র প্রথম কয়েকটি ইগেনভেেক্টরগুলিতে উচ্চ উচ্চমূল্য থাকে), তাই আপনাকে অগত্যা কিছু করার দরকার নেই - মাত্রিক মাত্রার অভিশাপ কেবল প্রযোজ্য হবে না।
gung - পুনর্বহাল মনিকা

@ গুং আমি একটি নতুন প্রশ্ন পোস্ট করেছি । আমি আশা করি এটি খুব তুচ্ছ নয়।
ডেটাডাহ '

7

আমার উত্তর কে মানে সীমাবদ্ধ নয়, তবে পরীক্ষা করুন যে আমাদের কাছে কোনও দূরত্ব ভিত্তিক পদ্ধতির জন্য মাত্রিকতার অভিশাপ রয়েছে কিনা। কে-মানে দূরত্ব পরিমাপের উপর ভিত্তি করে (উদাহরণস্বরূপ, ইউক্লিডিয়ান দূরত্ব)

অ্যালগরিদম চালানোর আগে আমরা দূরত্বের মেট্রিক বিতরণটি পরীক্ষা করতে পারি, অর্থাত্ সমস্ত জোড়ার জন্য সমস্ত দূরত্বের মেট্রিক্স ডেটাতে। যদি তোমার থাকেN তথ্য পয়েন্ট, আপনার থাকা উচিত 0.5N(N1)দূরত্বের মেট্রিক্স। যদি ডেটাটি খুব বেশি হয় তবে আমরা এর একটি নমুনা পরীক্ষা করতে পারি।

আমাদের যদি মাত্রিকতা সমস্যার অভিশাপ থাকে তবে আপনি যা দেখবেন তা হ'ল এই মানগুলি একে অপরের খুব কাছাকাছি রয়েছে। এটি খুব পাল্টা স্বজ্ঞাত বলে মনে হচ্ছে, কারণ এর অর্থ প্রত্যেকটি প্রত্যেকেই কাছাকাছি বা দূরে এবং দূরত্বের পরিমাপটি মূলত অকেজো।


আপনাকে এমন পাল্টা-স্বজ্ঞাত ফলাফলগুলি দেখানোর জন্য এখানে কিছু সিমুলেশন। সমস্ত বৈশিষ্ট্য যদি সমানভাবে বিতরণ করা হয় এবং যদি খুব বেশি মাত্রা থাকে তবে প্রতিটি দূরত্বের মেট্রিকগুলির কাছাকাছি হওয়া উচিত16, যা থেকে আসে xi=01xj=01(xixj)2dxidxj। অন্যান্য বিতরণে অভিন্ন বন্টন পরিবর্তন করতে নির্দ্বিধায়। উদাহরণস্বরূপ, আমরা যদি সাধারণ বিতরণে পরিবর্তিত runifহই (পরিবর্তিত হয় rnorm) তবে এটি বৃহত সংখ্যার মাত্রা সহ অন্য একটি সংখ্যায় রূপান্তরিত হবে।

এখানে 1 থেকে 500 পর্যন্ত মাত্রার জন্য সিমুলেশন রয়েছে, বৈশিষ্ট্যগুলি 0 থেকে 1 পর্যন্ত অভিন্ন বন্টন।

plot(0, type="n",xlim=c(0,0.5),ylim=c(0,50))
abline(v=1/6,lty=2,col=2)
grid()

n_data=1e3
for (p in c(1:5,10,15,20,25,50,100,250,500)){
    x=matrix(runif(n_data*p),ncol=p)
    all_dist=as.vector(dist(x))^2/p
    lines(density(all_dist))
}

এখানে চিত্র বর্ণনা লিখুন


1
কি P?
অ্যামিবা

1
আমি উচ্চ মাত্রার অধীনে ইউক্লিডিয়ান সংকোচনের ঘটনাটি প্রদর্শনের কারণে উত্সাহিত হয়েছিলাম। তবে উত্তরটি অভিশাপ থেকে ক্লাস্টারিং-এর অর্থ- যন্ত্রণা প্রকাশ করে না । দুর্ভোগটি বোঝায় যে উচ্চ মাত্রায় যথাযথভাবে পৃথক করা ক্লাস্টারগুলি (এবং আপনার মতো অভিন্ন র্যান্ডম ডেটা নয়) যতটা কম মাত্রায় রয়েছে তেমন সফলতার সাথে অনাবৃত হতে ব্যর্থ হতে পারে। আপনি এই বিষয়টিকে স্পর্শ করেননি।
ttnphns

@amoeba Pমাত্রা সংখ্যা। আমি প্লটটি পর্যালোচনা করব এবং কোডটি যুক্ত করব। ধন্যবাদ।
হাইতাও ডু

আপনার মন্তব্য এবং উত্সাহের জন্য @ttnphns ধন্যবাদ আমি যদি দেখি যে আমি যদি কে এর মাধ্যমে প্রভাবগুলি নিয়ে আলোচনা করতে একটি অনুচ্ছেদ যুক্ত করতে পারি।
হাইতাও ডু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.