লিনিয়ার বৈষম্যমূলক বিশ্লেষণ কীভাবে মাত্রা হ্রাস করে?


18

91 পৃষ্ঠায় "পরিসংখ্যান শিক্ষার উপাদানগুলি" থেকে শব্দ রয়েছে:

পি-ডাইমেনশনাল ইনপুট স্পেসের কে সেন্ট্রয়েডগুলি সর্বাধিক কে -1 মাত্রিক উপস্পেসে বিস্তৃত হয় এবং পি যদি কে এর চেয়ে অনেক বড় হয় তবে এটি মাত্রাটি যথেষ্ট পরিমাণে নেমে যাবে।

আমার দুটি প্রশ্ন আছে:

  1. কেন পি-ডাইমেনশনাল ইনপুট স্পেসে থাকা কে সেন্ট্রয়েডগুলি সর্বাধিক কে -১ মাত্রিক সাবস্পেসে বিস্তৃত হয়?
  2. কে সেন্ট্রয়েডগুলি কীভাবে অবস্থিত?

বইটিতে কোনও ব্যাখ্যা নেই এবং আমি সম্পর্কিত কাগজপত্র থেকে উত্তর পাই না।


3
centroids সর্বাধিক একটি ইন থাকা মাত্রিক অ্যাফিন subspace। উদাহরণস্বরূপ, দুটি পয়েন্ট একটি লাইনে থাকে, একটি মাত্রিক সাবস্পেস। এটি কেবল একটি অ্যাফাইন সাবস্পেস এবং কিছু প্রাথমিক লিনিয়ার বীজগণিতের সংজ্ঞা। কেকে-12-1
দিন

একটি খুব অনুরূপ প্রশ্ন: stats.stackexchange.com/q/169436/3277
ttnphns

উত্তর:


16

বিভেদকারীরা হ'ল অক্ষ এবং সুপ্ত পরিবর্তনশীল যা ক্লাসকে সবচেয়ে দৃ strongly়তার সাথে পৃথক করে। সম্ভাব্য বৈষম্যমূলক সংখ্যা । উদাহরণস্বরূপ, পি = ২ মাত্রিক স্থানের কে = 3 শ্রেণি সহ নীচের গ্রাফের মতো সর্বাধিক 2 বৈষম্যমূলক উপস্থিত থাকতে পারে। (দ্রষ্টব্য যে বৈষম্যমূলকরা মূল স্থানটিতে আঁকা অক্ষ হিসাবে অরগানীয় নয়, যদিও তারা, পরিবর্তনশীল হিসাবে, নিরবিচ্ছিন্ন)) শ্রেণীর সেন্ট্রোডগুলি বৈষম্যমূলক স্থানে স্থায়ী স্থানাঙ্ক অনুযায়ী বৈষম্যমূলক উপস্থানে অবস্থিত।মিআমিএন(-1,পি)

এখানে চিত্র বর্ণনা লিখুন

নিষ্কাশন পর্যায়ে এলডিএর বীজগণিত এখানে


চমৎকার গ্রাফ, আপনি এটি তৈরি করতে কোন সফটওয়্যার / প্যাকেজটি ব্যবহার করেছেন?
মিশেল

SPSS। এসপিএসএসের জন্য স্ব-লিখিত ম্যাক্রো।
ttnphns

এর অর্থ কি এই যে আপনি কোনও এলডিএতে ভাল বর্গ বিভাজন দেখতে পাবেন না, বলুন, ওভারল্যাপ সহ তিনটি ক্লাস, আপনি অক্ষটি পুনরুদ্ধার না করা পর্যন্ত ?? আমি বলতে চাইছি, আমি একটি এলডিএ চালাচ্ছি, এবং আমার ক্লাসগুলি পৃথক ... তবে প্রথমটি বাদে প্রতিটি বৈষম্যমূলক অক্ষের মধ্যে তারা প্রত্যেকে উপরে ... এবং সেটি বিশাল huge
ডোনালান

14

যদিও "স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানগুলি" একটি উজ্জ্বল বই, এটি থেকে বেশিরভাগ ক্ষেত্রে পেতে তুলনামূলকভাবে উচ্চ স্তরের জ্ঞানের প্রয়োজন। বইয়ের বিষয়গুলি বুঝতে আপনাকে সহায়তা করতে ওয়েবে আরও অনেক সংস্থান রয়েছে।

লিনিয়ার বৈষম্যমূলক বিশ্লেষণের খুব সহজ উদাহরণ নিতে দেয় যেখানে আপনি দুটি মাত্রিক ডেটা পয়েন্টের একটি সেট কে = 2 গ্রুপে গ্রুপ করতে চান। মাত্রাগুলি হ্রাস কেবল কে -1 = 2-1 = 1 এ হবে @ @ পূর্বপরিচিত ব্যাখ্যা অনুসারে, মাত্রার মধ্যে ড্রপ প্রাথমিক জ্যামিতি দিয়ে ব্যাখ্যা করা যেতে পারে।

যে কোনও মাত্রায় দুটি পয়েন্ট একটি রেখার সাথে যুক্ত হতে পারে এবং একটি রেখা একটি মাত্রিক হয়। এটি কে-1 = 2-1 = 1 মাত্রিক উপ-স্পেসের উদাহরণ।

এখন, এই সাধারণ উদাহরণে, ডেটা পয়েন্টগুলির সেটটি দ্বি-মাত্রিক জায়গায় ছড়িয়ে দেওয়া হবে। পয়েন্টগুলি (x, y) দ্বারা উপস্থাপন করা হবে, সুতরাং উদাহরণস্বরূপ আপনার কাছে (1,2), (2,1), (9,10), (13,13) ডেটা পয়েন্ট থাকতে পারে। এখন, দুটি গ্রুপ এ এবং বি তৈরি করতে লিনিয়ার বৈষম্যমূলক বিশ্লেষণ ব্যবহার করার ফলে ডেটা পয়েন্টগুলি গোষ্ঠী A এর সাথে বা গ্রুপ বিতে শ্রেণিবদ্ধ করা হবে যা নির্দিষ্ট বৈশিষ্ট্যগুলি সন্তুষ্ট। লিনিয়ার বৈষম্যমূলক বিশ্লেষণ দলগুলির মধ্যে ভিন্নতার তুলনায় গ্রুপগুলির মধ্যে বৈচিত্রকে সর্বাধিক করার চেষ্টা করে।

অন্য কথায়, গোষ্ঠী A এবং B অনেক দূরে থাকবে এবং একসাথে থাকা ডেটা পয়েন্ট থাকবে। এই সাধারণ উদাহরণে, এটি পরিষ্কার যে নীচের মত পয়েন্টগুলি গ্রুপ করা হবে। গ্রুপ এ = {(1,2), (2,1)} এবং গ্রুপ বি = {(9,10), (13,13)}}

এখন, সেন্ট্রয়েডগুলি ডাটা পয়েন্টগুলির গ্রুপগুলির সেন্ট্রয়েড হিসাবে গণনা করা হয়

Centroid of group A = ((1+2)/2, (2+1)/2) = (1.5,1.5) 

Centroid of group B = ((9+13)/2, (10+13)/2) = (11,11.5)

সেন্ট্রয়েডগুলি কেবল 2 পয়েন্ট এবং এগুলি 1-মাত্রিক রেখা স্প্যান করে যা তাদের সাথে একত্রে যোগ দেয়।

চিত্র 1

আপনি লিনিয়ার বৈষম্যমূলক বিশ্লেষণকে কোনও লাইনের উপাত্তের পয়েন্টগুলির অভিক্ষেপ হিসাবে ভাবতে পারেন যাতে ডেটা পয়েন্টের দুটি গোষ্ঠী "যথাসম্ভব পৃথক" হয়

যদি আপনার তিনটি গ্রুপ থাকে (এবং ত্রি-মাত্রিক ডেটা পয়েন্টগুলি বলুন) তবে আপনি তিনটি সেন্ট্রয়েড পাবেন, কেবলমাত্র তিনটি পয়েন্ট এবং 3 ডি স্পেসে তিন পয়েন্ট একটি দ্বিমাত্রিক বিমানকে সংজ্ঞায়িত করবে। আবার নিয়ম কে -1 = 3-1 = 2 মাত্রা।

আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি এমন সংস্থানগুলি অনুসন্ধান করুন যা আমার দেওয়া সহজ ভূমিকাটি ব্যাখ্যা এবং প্রসারিত করতে সহায়তা করবে; উদাহরণস্বরূপ http://www.music.mcgill.ca/~ich/classes/mumt611_07/classifiers/lda_theory.pdf


1
আমাদের সাইটে স্বাগতম, মার্টিনো!
whuber

ধন্যবাদ @whuber, চমৎকার গ্রাফ, আমি এমন কোন টুলস :( হাতে ছিল না
Martino

মার্টিনো: যাইহোক, কোনও ছবি পোস্ট করার জন্য আপনার খ্যাতি আছে বলে আমি মনে করি না that's তবে এখন - বা শীঘ্রই - আপনার যথেষ্ট প্রতিনিধি থাকবে। যদি কিছু সহজ না হয় তবে আপনি আর বা জিওজেব্রার মতো জ্যামিতিক অঙ্কন ক্ষমতা সহ অবাধে উপলব্ধ সফ্টওয়্যার ব্যবহার করতে পারেন । (আপনি যে পাবেন সচিত্র প্রত্যুত্তর আরো মনোযোগ পাবেন: তারা আরো আকর্ষণীয় এবং পাঠযোগ্য হয়।)
whuber

ডাউনভোট কেন? উত্তরের সাথে যদি কোনও সমস্যা থাকে তবে তা উল্লেখ করা সহায়ক হবে - আমি একটি দেখতে পাচ্ছি না
মার্টিনো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.