মাত্রার

প্রদত্ত ডাটা পয়েন্টগুলি, প্রতিটি বৈশিষ্ট্য সহ হিসাবে লেবেলযুক্ত , অন্য হিসাবে লেবেলযুক্ত । প্রতিটি বৈশিষ্ট্য এলোমেলোভাবে (অভিন্ন বিতরণ) থেকে একটি মান নেয় । হাইপারপ্লেন যে দুটি শ্রেণিকে বিভক্ত করতে পারে তার সম্ভাবনা কী? $n$ $d$ $n/2$ $0$ $n/2$ $1$ $[0,1]$

আসুন প্রথমে সবচেয়ে সহজ কেস বিবেচনা করা যাক, । $d = 1$

— জিং শি
সূত্র

এটি একটি সত্যিই আকর্ষণীয় প্রশ্ন। আমি মনে করি যে এটি দুটি শ্রেণির পয়েন্টের উত্তল হালগুলি ছেদ করে কিনা বা না পারার ক্ষেত্রে এটি সংশোধন করতে সক্ষম হতে পারে - যদিও আমি জানি না যে এটি সমস্যাটিকে আরও সোজা করে তোলে কি না।

— ডন ওয়ালপোলা

n

$n$

d

$d$

d = 1

$d=1$

n = 2

$n=2$

1

$1$

lim n \to \infty Pr(linearly separable) \to 0

$\lim n\to \infty\ \ \text{Pr(linearly separable)} \to 0$

হাইপারপ্লেনটি 'ফ্ল্যাট' হওয়া দরকার (অথবা এটি যদি বলা যায়, টাইপ পরিস্থিতিতে একটি প্যারাবোলা হতে পারে) আপনারও স্পষ্ট করতে হবে । আমার কাছে মনে হয় যে প্রশ্নটি দৃ strongly়তার সাথে নিষ্ঠুরতা বোঝায়, তবে সম্ভবত এটি স্পষ্টভাবে বলা উচিত।

2 d

$2d$

— গুং - মনিকা পুনরায়

@ গুং আমি মনে করি "হাইপারপ্লেন" শব্দটি নির্বিঘ্নে "ফ্ল্যাটনেস" বোঝায়, এ কারণেই আমি "রৈখিক বিভাজন" বলতে শিরোনাম সম্পাদনা করেছি। স্পষ্টতই ডুপ্লিকেট ব্যতীত কোনও ডেটাসেট নীতিগতভাবে অলৈখিকভাবে পৃথকযোগ্য can

— অ্যামিবা বলেছেন মনিকাকে

@ গং আইএমএইচও "ফ্ল্যাট হাইপারপ্লেন" একটি অনুভূতি। যদি আপনি তর্ক করেন যে "হাইপারপ্লেন" বাঁকা যায়, তবে "ফ্ল্যাট" এছাড়াও বাঁকানো যেতে পারে (উপযুক্ত মেট্রিকে)।

— অ্যামিবা বলেছেন মনিকাকে

ধরে নিচ্ছি ডেটাতে কোনও নকল নেই exist

যদি $n\leq d+1$ তবে সম্ভাব্যতা হ'ল $\text{Pr}=1$ ।

$(n,d)$ এর অন্যান্য সংমিশ্রণের জন্য নীচের প্লটটি দেখুন:

আমি ওপিতে উল্লিখিত হিসাবে এই প্লটটি সিমুলেটিং ইনপুট এবং আউটপুট ডেটা তৈরি করেছি। লৌকিক বিচ্ছেদকে হজ -ডোনার প্রভাবের কারণে লজিস্টিক রিগ্রেশন মডেলে কনভার্সনের ব্যর্থতা হিসাবে সংজ্ঞায়িত করা হয়েছিল ।

$n$ $n, d$ $p$

পি (এন, ঘ) = \frac{1}{1 + + ই^{- (5,82944 - 4,58261 \times এন + + 1,37271 \times ঘ - 0.0235785 \times এন \times ঘ)}}

$P(n,d)={ 1 \over {1 + e^ {-(5.82944-4.58261\times n + 1.37271 \times d -0.0235785 \times n \times d)} } }$

প্লটের কোড (জুলিয়ায়):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

$(n,d)$ $p$

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))

— ফায়ারবাগকে
সূত্র

+1 টি। কেন লগ (এন) এবং এন নয়? হলুদ-কালো সীমানাটি শীর্ষ চিত্রটিতে আমার কাছে সরলরেখার মতো দেখায়, তবে দ্বিতীয় চিত্রটিতে বাঁকানো দেখা যায়। এটি লগ (এন) এর কারণে হতে পারে? নিশ্চিত না.

— অ্যামিবা বলছে মনিকাকে

p = 1

$p=1$

p = 0

$p=0$