ব্যয়ের এট আল এর তুলনামূলক বৈকল্পিক উপপাদ্য। কাগজ: "হাই ডাইমেনশনাল স্পেসে দূরত্বের মেট্রিকের বিস্ময়কর আচরণের উপর" বিভ্রান্তিকর?


10

মাত্রিকতার অভিশাপের কথা উল্লেখ করার সময় এটি প্রায়শই উদ্ধৃত করা হয় এবং যায়

(আপেক্ষিক বৈপরীত্য বলা ডান হাতের সূত্র)

লিমVar(||এক্স||[||এক্স||])=0,তারপর:ডিসর্বোচ্চ-ডিসর্বনিম্নডিসর্বনিম্ন0

উপপাদ্যের ফলাফলটি দেখায় যে প্রদত্ত কোয়েরি পয়েন্টের সর্বাধিক এবং ন্যূনতম দূরত্বের পার্থক্য উচ্চ মাত্রিক স্থানের যে কোনও বিন্দুর নিকটতম দূরত্বের মতো তত দ্রুত বৃদ্ধি পায় না। এটি একটি সান্নিধ্য কোয়েরিকে অর্থহীন এবং অস্থির করে তোলে কারণ নিকটতম এবং দূরবর্তী প্রতিবেশীর মধ্যে দুর্বল বৈষম্য রয়েছে।

লিংক

তবুও যদি কেউ নমুনা মানগুলির জন্য আপেক্ষিক বিপরীতে গণনা করার চেষ্টা করে, যার অর্থ একটি খুব ছোট মান সমেত একটি ভেক্টর নেয় এবং শূন্য ভেক্টরের দূরত্ব গণনা করে এবং অনেক বড় মানযুক্ত ভেক্টরের জন্য একই কাজ করে এবং তার পরে মানগুলির তুলনা করা হয় 3 এর একটি মাত্রা এবং একটি মাত্রা 109 গুণ বড়, কেউ দেখতে পাবে যে অনুপাত হ্রাস হওয়ার সাথে সাথে পরিবর্তনটি এতটা অদৃশ্য হয়ে গেছে যে বাস্তবে অনুশীলনে ব্যবহৃত মাত্রাগুলির সংখ্যার জন্য অপ্রাসঙ্গিক হতে পারে (বা কেউ কাজ করছে এমন কাউকে চেনে? গ্রাহামের সংখ্যার আকারের সাথে পরিমাপের সাথে ডেটা সহ - যা আমি অনুমান করব যে কাগজটি প্রকৃতপক্ষে প্রাসঙ্গিক হওয়ার জন্য বর্ণিত প্রভাবটির জন্য প্রয়োজনীয় আকার - আমি মনে করি না)।

পূর্বে উল্লিখিত হিসাবে, এই উপপাদ্যটি প্রায়শই উক্তিটি সমর্থন করার জন্য উদ্ধৃত করা হয় যে ইউক্যালিডীয় স্থানের উপর ভিত্তি করে নৈকট্য পরিমাপ করা একটি উচ্চ মাত্রার জায়গার একটি দুর্বল কৌশল, লেখকরা নিজেরাই তাই বলে থাকেন এবং তবুও প্রস্তাবিত আচরণটি বাস্তবে ঘটে না, আমাকে তৈরি করে মনে করুন এই উপপাদ্য একটি বিভ্রান্তিমূলক ফ্যাশন ব্যবহৃত হয়েছে।

উদাহরণ: dমাত্রা সহ

a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin

d = 3 এর
9999999999.0
জন্য d = 1e8
9999999998.9996738

এবং 1e5 এর পরিবর্তে 1e1 দিয়ে (আসুন যাক ডেটাটি স্বাভাবিক করা হয়)
d = 3 এর
99.0
জন্য d = 1e8
98.999999999989527


2
মাত্রা মাত্রায় আপনি কীভাবে ডেটার নমুনা পেয়েছেন ? আপনি সম্ভবত "স্কেল" দিয়ে "মাত্রা" বিভ্রান্ত করছেন? 3+ +109
whuber

2
আপনি কি বৈকল্পিকের উপর শর্তটি পরীক্ষা করেছেন?
আকসকল

উত্তর:


8

না, উপপাদ্য বিভ্রান্তিকর নয়। এটি অবশ্যই ভুলভাবে প্রয়োগ করা যেতে পারে তবে এটি কোনও উপপাদ্যের ক্ষেত্রেই সত্য।

এটি কীভাবে কাজ করে তা প্রদর্শনের জন্য এখানে সাধারণ ম্যাটল্যাব স্ক্রিপ্ট রয়েছে:

xd = randn(1e5,10000);
%%
cols = [1,10,100,1000,10000];
for c = cols
    xdt = table(xd(:,1:c));
    res = table2array(rowfun(@norm,xdt));
    mr = mean(res);
    res1 = var(res/mr);
    res2 = (max(res) - min(res))/min(res);
    fprintf('res1: %f, res2: %f\n',res1,res2)
end

আউটপুট:

res1: 0.568701, res2: 2562257.458668
res1: 0.051314, res2: 9.580602
res1: 0.005021, res2: 0.911065
res1: 0.000504, res2: 0.221981
res1: 0.000050, res2: 0.063720

আমার কোডে রেজ1 এবং রেজো 2 হ'ল কাগজ থেকে আপনার সমীকরণের দুটি অভিব্যক্তি: একটি বৈকল্পিকতার জন্য এবং দ্বিতীয়টি বিপরীতে।

যখন মাত্রা 1 থেকে 10,000 থেকে যায় তখন আপনি উভয়ই শূন্যের দিকে যান বলে দেখতে পারেন।


এখন আমি অনুভব করি যে প্রশ্নটি হয়ে যায়, কোন বিতরণগুলির জন্য কোনটি Xআসে যা ভেরিয়েন্সটি শূন্যে যায়?
নিমিটজ 14

2
@ নিমিটজ 14 এটি নিজের ডান জিজ্ঞাসা করার জন্য একটি দুর্দান্ত প্রশ্ন তৈরি করবে।
সাইকোরাক্স মনিকা

3
@ নিমিটজ 14 এই উপপাদ্যটি কচির পক্ষে কাজ করা উচিত নয়, আপনি শিক্ষার্থীর টি (1) এর সাথে সাধারণটি প্রতিস্থাপন করে সহজেই এটি পরীক্ষা করতে পারেন। অন্যথায়, আমি মনে করি সমস্ত নিয়মিত বিতরণ যেমন সাধারণ, ইউনিফর্ম, বিটা ইত্যাদি coveredেকে রাখা উচিত।
আকসকাল 21
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.