"মাত্রিকতার অভিশাপ" কি সত্যই ডেটাতে উপস্থিত রয়েছে?


17

আমি বুঝতে পারি "মাত্রিকতার অভিশাপ" কী, এবং আমি কিছু উচ্চ মাত্রিক অপ্টিমাইজেশান সমস্যাগুলি করেছি এবং তাত্পর্যপূর্ণ সম্ভাবনার চ্যালেঞ্জটি জানি।

তবে, আমি সন্দেহ করি যে বেশিরভাগ বাস্তব বিশ্বের ডেটাতে "মাত্রিকতার অভিশাপ" উপস্থিত রয়েছে কিনা (ভালভাবে একটি চিত্রের জন্য ছবি বা ভিডিওগুলি একপাশের জন্য রেখে দেওয়া যাক, আমি গ্রাহক ডেমোগ্রাফিক এবং ক্রয় আচরণের ডেটার মতো ডেটা নিয়ে ভাবছি)।

আমরা কয়েক হাজার বৈশিষ্ট্য সহ ডেটা সংগ্রহ করতে পারি তবে বৈশিষ্ট্যগুলি কয়েক হাজার মাত্রা সহ একটি স্পেস পুরোপুরি বিস্তৃত করতে পারে এমনটা কমই অসম্ভব। এই কারণেই মাত্রা হ্রাস কৌশলগুলি এত জনপ্রিয়।

অন্য কথায়, এটি সম্ভবত ডেটাতে তাত্পর্যপূর্ণ স্তরের তথ্যের তাত্পর্যপূর্ণ না থাকে, যেমন, অনেকগুলি বৈশিষ্ট্য অত্যন্ত সংযুক্ত থাকে এবং অনেকগুলি বৈশিষ্ট্য ৮০-২০ নিয়মকে সন্তুষ্ট করে (অনেক উদাহরণের একই মান থাকে)।

এই জাতীয় ক্ষেত্রে, আমি মনে করি কেএনএন এর মতো পদ্ধতিগুলি এখনও যুক্তিসঙ্গতভাবে ভালভাবে কাজ করবে। (বেশিরভাগ বইগুলিতে "মাত্রিকতার অভিশাপ" বলে ডাইমেনশন> 10 সমস্যাযুক্ত হতে পারে their তাদের ডেমোতে তারা সমস্ত মাত্রায় অভিন্ন বিতরণ ব্যবহার করে, যেখানে এনট্রপি সত্যই বেশি I

সত্যিকারের ডেটা সহ আমার ব্যক্তিগত অভিজ্ঞতা হ'ল "মাত্রিকতার অভিশাপ" টেমপ্লেট পদ্ধতিতে (যেমন কেএনএন) খুব বেশি প্রভাবিত করে না এবং বেশিরভাগ ক্ষেত্রে, মাত্রা ~ 100 এখনও কাজ করবে।

এটা কি অন্য মানুষের জন্য সত্য? (আমি 5 বছরের জন্য বিভিন্ন শিল্পে সত্যিকারের ডেটা নিয়ে কাজ করেছি, বইটিতে বর্ণিত হিসাবে "সমস্ত দূরত্বের জোড়াগুলির একই মান রয়েছে" কখনও পর্যবেক্ষণ করে নি))


1
যেহেতু আপনি চিত্র এবং চিত্র বিশ্লেষণকে সুনির্দিষ্টভাবে বাদ দিয়েছেন, আমি মন্তব্যগুলিতে কেবল একটি প্লাগ রেখেছি যা এই ক্ষেত্রটি নিয়মিতভাবে মাত্রিকতার অভিশাপ নিয়ে কাজ করে। একটি ওভারফিট সমাধান পাওয়া খুব সহজ।
আশে

7
বাইনারি / ডামি / এক-হট
এনকোডযুক্ত

2
আমার এক সহকর্মী সানগ্লাস বিক্রয় নিয়ে কাজ করেছেন। বেশ কয়েকটি বৈশিষ্ট্য সম্ভাব্য স্তরের (যেমন, ব্র্যান্ড, চশমার বিভিন্ন অংশের উপকরণ ইত্যাদির) সাথে শ্রেণিবদ্ধ ছিল। আমি অবশ্যই সিওডি সম্পর্কে ভীত ছিলাম, তবে এটি নির্দিষ্ট ডেটাসেটে উপস্থিত রয়েছে কি নেই তা বলা সবসময়ই কঠিন, এবং আমরা সম্ভবত বেশিরভাগ স্ট্যান্ডার্ড ট্রিকস করিনি, এই বিশ্লেষণের ধরণের বিশেষজ্ঞ না হয়ে।
এস.কোলাসা - মনিকা

@ স্টেফানকোলাসা সুতরাং, সূর্য কাচের ব্যবহারের ক্ষেত্রে দূরত্ব ভিত্তিক পদ্ধতিগুলি কী কাজ করেছিল?
হাইতাও ডু

মাত্রাতিরিক্ত ভাল না। এটি খুব সফল প্রকল্প ছিল না।
এস। কোলাসা - মনিকা

উত্তর:


15

এই কাগজ (1) মাত্রিকতার অভিশাপের প্রতিপক্ষ হিসাবে অ-অভিন্নতার আশীর্বাদ নিয়ে আলোচনা করেছে । মূল ধারণাটি হ'ল ডেটা বৈশিষ্ট্য জায়গার মধ্যে অভিন্নভাবে ছড়িয়ে যায় না, সুতরাং যেভাবে ডেটা সংগঠিত হয়েছে সেগুলি সনাক্ত করে কেউ ট্র্যাকশন অর্জন করতে পারে।

(1) পেড্রো ডোমিংগো, "মেশিন লার্নিং সম্পর্কে জানার কয়েকটি দরকারী জিনিস"


7

মেশিন লার্নিংয়ে মাত্রিকতার অভিশাপ প্রায়শই আপনার কাছে থাকা কয়েকটি ডেটা পয়েন্টের মধ্যে ফাঁকা স্থান বিস্ফোরনের সমস্যা। স্বল্প বহুগুণিত ডেটা এটিকে আরও খারাপ করতে পারে। এখানে 10000 নমুনাগুলির সাথে একটি উদাহরণ সেটআপ করা হয়েছে যেখানে আমি 1 প্রতিবেশীর সাথে কেএনএন করার চেষ্টা করি।

from numpy.random import normal
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import precision_score
import matplotlib.pyplot as plt
import numpy as np
from math import sqrt
from scipy.special import gamma

N=10000
N_broad=2
scale=20

dims=[]
precs=[]


def avg_distance(k):
    return sqrt(2)*gamma((k+1)/2)/gamma(k/2)

for dim in range(N_broad+1,30):
    clf = KNeighborsClassifier(1, n_jobs=-1)

    X_train=np.hstack([normal(size=(N,N_broad)), normal(size=(N,dim-N_broad))/avg_distance(dim-N_broad)/scale])
    y_train=(X_train[:,N_broad]>0).astype(int)
    clf.fit(X_train, y_train)

    X_test=np.hstack([normal(size=(N,N_broad)), normal(size=(N,dim-N_broad))/avg_distance(dim-N_broad)/scale])
    y_test=(X_test[:,N_broad]>0).astype(int)
    y_test_pred=clf.predict(X_test)

    prec=precision_score(y_test, y_test_pred)
    dims.append(dim)
    precs.append(prec)
    print(dim, prec)

plt.plot(dims, precs)
plt.ylim([0.5,1])
plt.xlabel("Dimension")
plt.ylabel("Precision")
plt.title("kNN(1) on {} samples".format(N))
plt.show()

আপনি সম্পূর্ণ অভিন্ন বিতরণ পছন্দ করেন নি, তাই scaleএটি প্রথম দুটি স্থানাঙ্কের 2 ডি বিমানের চারপাশে ছড়িয়ে ছিটিয়ে ছোট মাত্রা (কমিয়ে ) দিয়ে 2 ডি বহুগুণে তৈরি করেছি made এটি যেমন ঘটে থাকে তেমনি একটি ছোট মাত্রার ভবিষ্যদ্বাণীপূর্ণ হয় (যখন মাত্রাটি ইতিবাচক হয় তখন লেবেল 1 হয়)।

স্পষ্টতা ক্রমবর্ধমান মাত্রা সঙ্গে দ্রুত হ্রাস।কেএনএন যথার্থতা

অবশ্যই, নির্ভুলতা = 0.5 এলোমেলো অনুমান করা হবে। একটি সিদ্ধান্ত পৃষ্ঠের সাথে, যা বিমানের চেয়ে জটিলতর, এটি আরও খারাপ হতে পারে।

এটি যেমন কেএনএন বলগুলি খুব কম বিরাগের মতো একটি মসৃণ হাইপারপ্লেনের অনুসন্ধানে সহায়তা করে। উচ্চ মাত্রার সাথে তারা ক্রমশ আরও একাকী বোধ করে feel

অন্যদিকে, এসভিএমের মতো পদ্ধতির একটি বিশ্বব্যাপী দৃষ্টিভঙ্গি রয়েছে এবং আরও ভাল করে।


5

উদাহরণস্বরূপ সময় সিরিজ (এবং চিত্র এবং অডিও) বিবেচনা করুন। সেন্সর রিডিং (ইন্টারনেট অফ থিংস) খুব সাধারণ।

মাত্রিকতার অভিশাপ আপনার ভাবার চেয়ে অনেক বেশি সাধারণ। সেখানে একটি বিশাল রিডানডেনসি রয়েছে তবে প্রচুর শব্দও হচ্ছে।

সমস্যাটি হ'ল অনেক লোক কেবল আসল ডেটাগুলির এই চ্যালেঞ্জগুলি এড়িয়ে চলে এবং কেবল একই চেরিউপিক্সড ইউসিআই ডেটা সেটগুলি বারবার ব্যবহার করে।


পি(এক্স)=পি(এক্স1)Πএন=2এনপি(এক্সএন|এক্সএন-1)

1
হয়তো সবচেয়ে বাস্তব জগতে তথ্য নেই চিত্র, ভিডিও, এবং সময় সিরিজ মতো সেন্সর থেকে?
অ্যানি-মৌসে -রিনস্টেট মনিকা

2
@ hxd1011 মার্কভ সম্পত্তি হ'ল একটি বিমূর্ততা যা সত্যিকারের ডেটার সাথে কিছু করতে পারে না!
সাইকোরাক্স বলছে মনিকা

0

ব্রেইমান রচিত "স্ট্যাটিস্টিকাল মডেলিং: দুটি সংস্কৃতি" নিয়ে একটি দুর্দান্ত নিবন্ধ রয়েছে। তিনি বিজ্ঞানীদের দুটি গ্রুপকে ব্যাখ্যা করেছেন যারা ডেটা নিয়ে কাজ করে এবং তাদের প্রত্যেকটি কীভাবে "মাত্রিকতা" দেখায়। আপনার প্রশ্নের উত্তর হ'ল এটি নির্ভর করে আপনি কোন গ্রুপে আছেন। কাগজ চেক আউট।


ধন্যবাদ @Zamir Akimbekov সেখানে মহান আলোচনা নেই এখানে আরেকটি মজার কাগজ, এবং এখানে
Haitao ডু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.