নীচে শীর্ষে মহালনোবিসের দূরত্বের ব্যাখ্যা?


127

আমি প্যাটার্ন স্বীকৃতি এবং পরিসংখ্যান অধ্যয়ন করছি এবং আমি যে বিষয়টি খোলি প্রায় প্রতিটি বইই আমি মহালানোবিস দূরত্বের ধারণার সাথে ঝাঁপিয়ে পড়েছি । বইগুলি ধরণের স্বজ্ঞাত ব্যাখ্যা দেয়, তবে এখনও সত্যিকার অর্থে যা চলছে তা বুঝতে আমার পক্ষে তেমন ভাল কিছু নেই। যদি কেউ আমাকে জিজ্ঞাসা করতেন "মহালানোবিসের দূরত্ব কী?" আমি কেবল উত্তর দিতে পারি: "এটি দুর্দান্ত জিনিস, যা কোনও ধরণের দূরত্ব পরিমাপ করে" :)

সংজ্ঞাগুলিতে সাধারণত আইজেনভেেক্টর এবং ইগেনভ্যালু থাকে, যা মহালানোবিসের দূরত্বে সংযোগ স্থাপন করতে আমার একটু সমস্যা হয়। আমি ইগেনভেেক্টর এবং ইগেনভ্যালুগুলির সংজ্ঞাটি বুঝতে পারি, তবে তারা কীভাবে মহালানোবিসের দূরত্বের সাথে সম্পর্কিত? লিনিয়ার বীজগণিত ইত্যাদির বেস পরিবর্তন করার সাথে কি এর কিছু যুক্ত রয়েছে?

আমি এই প্রাক্তন প্রশ্নগুলি পড়েছি:

আমি এই ব্যাখ্যাটি পড়েছি ।

উত্তরগুলি ভাল এবং ছবিগুলি দুর্দান্ত, তবুও আমি সত্যিই তা পাই না ... আমার ধারণা আছে তবে এটি এখনও অন্ধকারে। কেউ কী "আপনার দাদীর কাছে কীভাবে এটি ব্যাখ্যা করবেন" - ব্যাখ্যাটি দিতে পারেন যাতে আমি শেষ পর্যন্ত এটিকে গুটিয়ে ফেলতে পারি এবং আর কখনও ভাবতে পারি না যে হেকটি মহালানোবিসের দূরত্ব কী? :) এটা কোথা থেকে আসে, কি, কেন?

হালনাগাদ:

এখানে এমন কিছু যা মহালানোবিসের সূত্রটি বুঝতে সহায়তা করে:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

উত্তর:


188

এখানে কিছু মাল্টিভিয়ারেট ডেটার একটি স্ক্রেরপ্ল্লট (দুই মাত্রায়):

এখানে চিত্র বর্ণনা লিখুন

যখন অক্ষগুলি ছেড়ে যায় তখন আমরা এর কী তৈরি করতে পারি?

এখানে চিত্র বর্ণনা লিখুন

সমন্বয়গুলি উপস্থাপন করুন যা ডেটা তাদের দ্বারা পরামর্শ দেওয়া হয়।

মূল পয়েন্ট centroid (তাদের গড় পয়েন্ট) হতে হবে। প্রথম স্থানাঙ্ক অক্ষ (পরবর্তী চিত্র নীল) পয়েন্ট, যা (সংজ্ঞা দ্বারা) কোন দিক যা ভ্যারিয়েন্স সর্বশ্রেষ্ঠ হয় এর "মেরুদণ্ড" বরাবর প্রসারিত হবে। দ্বিতীয় তুল্য অক্ষ (চিত্র লাল) প্রথম এক উল্লম্বভাবে প্রসারিত হবে। (দুটি মাত্রারও বেশি ক্ষেত্রে, এটি সেই লম্ব দিকের মধ্যে চয়ন করা হবে যেখানে ভেরিয়েন্সটি যতটা সম্ভব বিশাল and

এখানে চিত্র বর্ণনা লিখুন

আমরা একটি প্রয়োজন স্কেল । প্রতিটি অক্ষের সাথে স্ট্যান্ডার্ড বিচ্যুতি অক্ষ বরাবর ইউনিটগুলি প্রতিষ্ঠা করার জন্য দুর্দান্তভাবে কাজ করবে। 68-95-99.7 বিধিটি মনে রাখবেন: পয়েন্টগুলির প্রায় দুই-তৃতীয়াংশ (68%) উত্সের এক এককের (অক্ষ সহ বরাবর) থাকা উচিত; প্রায় 95% দুটি ইউনিটের মধ্যে থাকা উচিত। এটি সঠিক ইউনিটগুলিকে চক্ষুদান করা সহজ করে তোলে। রেফারেন্সের জন্য, এই চিত্রটিতে এই ইউনিটের ইউনিট বৃত্ত অন্তর্ভুক্ত রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

এটি আসলে বৃত্তের মতো দেখাচ্ছে না, তাই না? কারণ এই ছবিটি বিকৃত (দুটি অক্ষের সংখ্যার মধ্যে বিভিন্ন ব্যবধানের দ্বারা প্রমাণিত)। বাম থেকে ডান এবং নীচে থেকে উপরে - এবং তাদের একক অনুপাতের সাথে যথাযথ দিকনির্দেশগুলিতে অক্ষগুলি দিয়ে এটিকে আবার আঁকুন যাতে একটি ইউনিট অনুভূমিকভাবে সত্যিই একটি ইউনিটকে উল্লম্বভাবে সমান করে তোলে:

এখানে চিত্র বর্ণনা লিখুন

আপনি মূলটির চেয়ে এই ছবিতে মহালানোবিসের দূরত্ব পরিমাপ করেছেন।

সেখানে কি ঘটেছিল? আমরা ডেটা আমাদেরকে কীভাবে স্ক্যাটারপ্লোটে পরিমাপ করার জন্য একটি সমন্বিত সিস্টেম তৈরি করতে হবে তা আমাদের বলি। এতটুকুই। যদিও আমাদের কয়েকটি পথ বেছে নিতে হয়েছিল (আমরা সর্বদা উভয়ই বা উভয় অক্ষকে বিপরীত করতে পারি; এবং বিরল পরিস্থিতিতে " স্পাইনস " বরাবর দিকগুলি - মূল দিকগুলি - অনন্য নয়) তবে তারা দূরত্ব পরিবর্তন করে না চূড়ান্ত চক্রান্ত।


প্রযুক্তিগত মন্তব্য

(ঠাকুরমার পক্ষে নয়, যিনি সম্ভবত প্লটগুলিতে সংখ্যাগুলি প্রকাশের সাথে সাথে আগ্রহ হারাতে শুরু করেছিলেন, তবে যে প্রশ্নগুলি উত্থাপিত হয়েছিল সেগুলি সমাধান করার জন্য।)

  • নতুন অক্ষ সহ ইউনিট ভেক্টরগুলি হ'ল ইগেনভেেক্টর (উভয়ই কোভারিয়েন্স ম্যাট্রিক্স বা এর বিপরীত)।

  • আমরা লক্ষ করেছি যে একটি বৃত্ত তৈরি করার জন্য উপবৃত্তকে অনির্দিষ্ট করে তোলা প্রতিটি মানক বিবর্তনের দ্বারা প্রতিটি ইগেনভেક્ટરের সাথে দূরত্বকে বিভক্ত করে: কোভেরিয়েন্সের বর্গমূল। লেটিং সহভেদাংক ফাংশন জন্য স্ট্যান্ড, নতুন (মহলানবিশ) মধ্যে দুই পয়েন্ট দূরত্ব এক্স এবং ওয়াই দূরত্ব থেকে এক্স থেকে Y বর্গমূল দ্বারা বিভক্ত সি ( এক্স - Y , এক্স - Y ) । সম্পর্কিত বীজগণিতিক ক্রিয়াকলাপগুলি, ম্যাট্রিক্স এবং এক্স এবং y এর প্রতিনিধিত্বের ক্ষেত্রে সি এর জন্য এখন চিন্তা করেCxyxyC(xy,xy)সিএক্সYভেক্টর হিসাবে তাদের উপস্থাপনা পদে, লিখিত হয় ভেক্টর এবং ম্যাট্রিক্স উপস্থাপনে কোন ভিত্তিতে ব্যবহৃত হয় তা নির্বিশেষেএটি কাজ করে বিশেষত,মূল স্থানাঙ্কগুলিতেএটি মহালানোবিসের দূরত্বের সঠিক সূত্র(এক্স-Y)'সি-1(এক্স-Y)

  • শেষ ধাপে অক্ষগুলি যে পরিমাণে প্রসারিত করা হয় তা হ'ল বিপরীত কোভেরিয়েন্স ম্যাট্রিক্সের ইগেনভ্যালুগুলি the সমান, অক্ষ হয় কোভারিয়েন্স ম্যাট্রিক্সের (মূলের) ইগোনাল্যগুলি দ্বারা সঙ্কুচিত হয়। সুতরাং, যত বেশি বিচ্ছুরণ হবে, সেই উপবৃত্তটিকে একটি বৃত্তে রূপান্তর করতে আরও সঙ্কুচিত হওয়া দরকার।

  • যদিও এই পদ্ধতিটি যে কোনও ডেটাসেটের সাথে সর্বদা কাজ করে, এটি প্রায়শই মাল্টিভারিয়েট নরমাল এমন ডেটার জন্য এটি দুর্দান্ত (ধ্রুপদী ফুটবল-আকৃতির মেঘ) দেখায়। অন্যান্য ক্ষেত্রে, গড় পয়েন্টটি ডেটার কেন্দ্রের ভাল প্রতিনিধিত্ব নাও হতে পারে বা "স্পাইনস" (তথ্যগুলিতে সাধারণ প্রবণতা) স্প্রেডের পরিমাপ হিসাবে প্রকরণটি সঠিকভাবে চিহ্নিত করা যায় না।

  • স্থানাঙ্কের উত্স, আবর্তন এবং অক্ষগুলির সম্প্রসারণ সম্মিলিতভাবে একটি গঠন করে affine রূপান্তর গঠন করে। সেই প্রাথমিক শিফট ছাড়াও, এটি মূল (একক ভেক্টরকে ইতিবাচক স্থানাঙ্কের দিক নির্দেশ করে) থেকে নতুনটিতে (ইউনিট ইগেনভেেক্টরগুলির পছন্দ ব্যবহার করে) ভিত্তিতে পরিবর্তন।

  • অধ্যক্ষ উপাদান বিশ্লেষণ (পিসিএ) এর সাথে একটি শক্তিশালী সংযোগ রয়েছে strong । এটিই "কোথা থেকে আসে" এবং "কেন" প্রশ্নগুলি ব্যাখ্যা করার দিকে অনেকটাই এগিয়ে যায় - যদি আপনি ইতিমধ্যে বিবৃত করার জন্য আপনার ব্যবহার করা স্থানাঙ্ক নির্ধারণ করতে এবং তাদের পরিমাপ করার জন্য ডেটা যে কমনীয়তা এবং উপযোগিতার দ্বারা ইতিমধ্যে নিশ্চিত হন না তবে পার্থক্য।

  • মাল্টিভারিয়েট সাধারণ বিতরণগুলির জন্য (যেখানে আমরা পয়েন্ট মেঘের সাদৃশ্যযুক্ত বৈশিষ্ট্যের পরিবর্তে সম্ভাব্যতার ঘনত্বের বৈশিষ্ট্যগুলি ব্যবহার করে একই নির্মাণ পরিচালনা করতে পারি), মহালানোবিস দূরত্ব (নতুন উত্সের) অভিব্যক্তিতে " " এর জায়গায় উপস্থিত হয় exp ( - 1এক্স যা আদর্শ সাধারণ বিতরণের সম্ভাব্যতা ঘনত্বকে চিহ্নিত করে। এইভাবে, নতুন স্থানাঙ্কগুলিতে, মূলগুলিরমধ্য দিয়ে যে কোনও লাইনে প্রজেক্ট করা হলেএকটি মাল্টিভারিয়েট নরমাল বিতরণস্ট্যান্ডার্ড নরমালদেখায়। বিশেষত, নতুন স্থানাঙ্কগুলির প্রতিটিতে এটি আদর্শ। এই দৃষ্টিকোণ থেকে, একমাত্র উল্লেখযোগ্য অর্থে যেগুলি বহু বিতরণযোগ্য সাধারণ বিতরণগুলির মধ্যে একে অপরের মধ্যে পৃথক হয় তারা কতটি মাত্রা ব্যবহার করে সে অনুসারে। (দ্রষ্টব্য যে এই মাত্রার সংখ্যাটি হতে পারে এবং কখনও কখনও নামমাত্র সংখ্যার চেয়ে কম হয়))মেপুঃ(-12এক্স2)


3
যে কারও কৌতূহলী হওয়া উচিত, একটি অ্যাফাইন রূপান্তর হ'ল "এমন রূপান্তর যা সরলরেখাগুলি সংরক্ষণ করে ... এবং সরলরেখায় অবস্থিত পয়েন্টগুলির মধ্যে দূরত্বের অনুপাত"। (@ হুবুহু, বুলেটযুক্ত পয়েন্টে আপনি সম্ভবত এর মতো কিছু যুক্ত করতে চান কিনা তা আমি জানি না))
গুং

@ গুং এফাইন ট্রান্সফরমেশন সম্পর্কে আমার উল্লেখটি তত্ক্ষণাত তাদের একটি বৈশিষ্ট্য দ্বারা অনুসরণ করা হয়েছে: অনুবাদ অনুসারে একটি ভিত্তি পরিবর্তিত হয়। আমি এই ভাষাটি বেছে নিয়েছি কারণ এটি প্রশ্নের ক্ষেত্রে একই ব্যবহার। (অ-পরিবর্তনীয় রৈখিক রূপান্তরগুলি ঘটাতে আমাদের কিছুটা উদারভাবে "ভিত্তির পরিবর্তন" নিতে হবে: এটি পিসিএর জন্য গুরুত্বপূর্ণ একটি বিষয়, যা কার্যকরভাবে কিছু ভিত্তির উপাদানকে ফেলে দেয়।)
হোবার

13
@ হুবুহু, আপনার ব্যাখ্যা সম্ভবত আমি সবচেয়ে ভাল দেখেছি। সাধারণত, যখন এটি ব্যাখ্যা করা হয়, যখন তারা এলিপসয়েড এবং গোলকগুলির উল্লেখ করেছিলেন তখন এটি খুব বিমূর্তভাবে আবৃত হয় এবং তারা কী বোঝাতে চায় তা ব্যর্থ করে। অক্ষর রূপান্তর কীভাবে ডেটা বিতরণকে "গোলকের" রূপান্তরিত করে তা প্রদর্শনের জন্য আপনাকে কুডোস, যাতে দূরত্বটি "ডেটা" এর মধ্য থেকে ডেটার এসডির বহুগুণ হিসাবে দেখা যায়, যেমন তাত্ক্ষণিকভাবে একটি মাত্রিক ক্ষেত্রে ডেটা। এই ভিজ্যুয়ালাইজেশনটি আমার মতে মূল বিষয়, এবং দুর্ভাগ্যক্রমে বিষয়টিতে বেশিরভাগ আলোচনার বাইরে রয়েছে। ভাল কাজ --- আপনার ব্যাখ্যা

একটি শক্তিশালী পিসিএ আছে? একটি প্রকরণ যা কোভারিয়েন্স ম্যাট্রিক্সের আকারের দিকে তাকানোর সময় আমাদের আউটলেটার ডেটা পয়েন্টগুলি ফেলে দিতে দেয়?
EngrStudent

@ ইংর শিওর: কোভেরিয়েন্স ম্যাট্রিক্সের যে কোনও শক্তিশালী অনুমানের ফলে একটি শক্তিশালী পিসিএ যাবে। অন্যান্য সরাসরি পদ্ধতি বিদ্যমান, যেমন তাদের রেফারেন্স দ্বারা নির্দেশিত শক্তসমর্থ পিসিএ সম্পর্কে প্রশ্নের উত্তর
whuber

37

আমার ঠাকুমা রান্না করেন। আপনারও হতে পারে। পরিসংখ্যান শেখানোর জন্য রান্না করা একটি সুস্বাদু উপায়।

কুমড়ো হাবানোয়ের কুকিজ দুর্দান্ত! দারুচিনি আর কত দারুণ তা ভাবুনবড়দিনের আচরণে আদা হতে পারে সে , তারপরে তারা বুঝতে পারবেন যে তারা নিজেরাই কতটা গরম।

উপাদানগুলো হল:

  • হাবানিরো মরিচ (10, বীজযুক্ত এবং সূক্ষ্ম কুচিযুক্ত)
  • চিনি (1.5 কাপ)
  • মাখন (1 কাপ)
  • ভ্যানিলা নিষ্কাশন (1 চামচ)
  • ডিম (২ মাঝারি)
  • ময়দা (২.7575 কাপ)
  • বেকিং সোডা (1 চামচ)
  • লবণ (1 চামচ)

আপনার ডোমেনের উপাদান ভলিউম হওয়ার জন্য আপনার স্থানাঙ্ক অক্ষগুলি কল্পনা করুন। চিনি। আটা। লবণ. বেকিং সোডা. এই দিকগুলির দিকের পার্থক্য, অন্য সব সমান হওয়াতে হাবানিরো মরিচের গুনের পরিবর্তনের হিসাবে স্বাদের গুণমানের প্রায় কোনও প্রভাব নেই। ময়দা বা মাখনের 10% পরিবর্তন এটিকে কম দুর্দান্ত করতে চলেছে, তবে হত্যাকারী নয়। মাত্র অল্প পরিমাণে আরও হাবানোরো যুক্ত করা আপনাকে আসক্তি-মিষ্টান্ন থেকে টেস্টোস্টেরন ভিত্তিক ব্যথা-প্রতিযোগিতায় স্বাদযুক্ত একটি ক্লিফের উপরে ঠোকা মারবে।

"সেরা স্বাদ" থেকে দূরত্বের তুলনায় মহালানোবিস "উপাদানগুলির খণ্ডগুলি" তেমন দূরত্ব নয়। সত্যই "শক্তিশালী" উপাদানগুলি, প্রকরণের প্রতি খুব সংবেদনশীল, সেগুলি হ'ল আপনাকে অবশ্যই সবচেয়ে সাবধানে নিয়ন্ত্রণ করতে হবে।

যদি আপনি কোনও গাউসিয়ান বিতরণ বনাম স্ট্যান্ডার্ড সাধারণ বিতরণ সম্পর্কে ভাবেন তবে পার্থক্য কী? কেন্দ্র এবং প্রবণতা কেন্দ্রীয় প্রবণতা (গড়) এবং প্রকরণের প্রবণতা (স্ট্যান্ডার্ড বিচ্যুতি) এর উপর ভিত্তি করে scale একটি হ'ল অন্যটির স্থানাংক রূপান্তর। মহালানোবিস সেই রূপান্তর trans এটি আপনাকে দেখায় যে যদি আপনার আগ্রহের বিতরণ কোনও গাউসির পরিবর্তে মানক হিসাবে সাধারণভাবে পুনরায় কাস্ট করা হয় তবে বিশ্ব কেমন দেখাচ্ছে।


4
গসিয়ান পরিবেশনে হয় সাধারন ডিস্ট্রিবিউশন, তাই কি পার্থক্য আপনি আপনার শেষ অনুচ্ছেদে করতে চেষ্টা করছেন?
whuber

1
@ ভুবার - মানক। আমি মানে স্ট্যান্ডার্ড। ভেবেছিলাম আমি এটা বলেছি। সম্পাদনা ইতিহাস পরীক্ষা করা উচিত। নিম্নলিখিত বাক্যগুলি মূল চিন্তার পুনরাবৃত্তি করে।
এনগ্রারস্টুডেন্ট

2
আপনি "দ্বারা তারপর এর অর্থ কী গসিয়ান বন্টন"?
হোবার

1
উত্তম? এটি কোনও গড় এবং বৈসাদৃশ্য সহ গাউসীয় বিতরণ হতে পারে - তবে মানকে বিয়োগ করে এবং মানক বিচ্যুতি দ্বারা স্কেলিং করে মানচিত্রকে সাধারণের কাছে রূপান্তরিত করে।
EngrStudent

4
হ্যাঁ, এখন এটি আরও পরিষ্কার। আমি বিস্মিত হয়েছি কেন আপনি একই জিনিসটি উল্লেখ করতে দুটি শব্দ (গাউসিয়ান এবং সাধারণ) ব্যবহার করেন তবে এটি এখন ঠিক আছে যে আপনি এটি ব্যাখ্যা করেছেন। আমি আপনার শেষ দাবির বিষয়েও কিছুটা বিভ্রান্ত হয়ে পড়েছি, যা বলে মনে হচ্ছে যে প্রতিটি মাল্টিভারিয়েট বিতরণকে একটি আদর্শ নরমাল হিসাবে রূপান্তর করা যেতে পারে (যা আপনি সংজ্ঞা অনুসারে সংযুক্তি অবিচ্ছিন্ন ): আমি মনে করি আপনার অর্থ এটি স্ট্যান্ডার্ড দেখায় তৈরি করা যেতে পারে প্রতিটি উপাদান সাধারণ নির্বিশেষে, আপনি যে উপমাটি দিয়ে শুরু করেছিলেন তা দুর্দান্ত।
whuber

10

শুরুর পয়েন্ট হিসাবে, আমি দেখতে পাব মহালানোবিস দূরত্বকে যথাযথ ইউক্লিডিয়ান দূরত্বের মধ্যে ভেক্টরএক্সএবংওয়াইমধ্যে আর এন । এখানে তথ্যের অতিরিক্ত অংশটি হ'লএক্সএবংওয়াইআসলেএলোমেলোভেক্টর, অর্থাত্আলোচনার পটভূমিতে শুয়ে থাকা র্যান্ডম ভেরিয়েবলেরভেক্টরএক্সএর2 টি পৃথক উপলব্ধি। মহালানোবিস যে প্রশ্নটি সম্বোধনের চেষ্টা করে তা নিম্নলিখিত:d(x,y)=x,yxyRnxyX

"আমি এবং y এর মধ্যে" ভিন্নতা "কীভাবে পরিমাপ করতে পারি?xy , বুদ্ধিমান যে তারা একই বহুচলকীয় এলোপাতাড়ি ভেরিয়েবলের উপলব্ধি হয়?"

স্পষ্টতই নিজের সাথে কোনও উপলব্ধির এর ভিন্নতা 0 এর সমান হওয়া উচিত; তদ্ব্যতীত, ভিন্নতাটি উপলব্ধির একটি প্রতিসম ফাংশন হওয়া উচিত এবং ব্যাকগ্রাউন্ডে এলোমেলো প্রক্রিয়াটির অস্তিত্ব প্রতিফলিত করা উচিত। মাল্টিভিয়ারেট এলোমেলো ভেরিয়েবলের কোভারিয়েন্স ম্যাট্রিক্স সি প্রবর্তনের মাধ্যমে এই শেষ দিকটি বিবেচনায় নেওয়া হয়েছে ।xC

উপরোক্ত ধারণাগুলি সংগ্রহ করে আমরা বেশ প্রাকৃতিকভাবে পৌঁছেছি

D(x,y)=(xy)C1(xy)

উপাদান যদি বহুচলকীয় এলোপাতাড়ি ভেরিয়েবলের এক্স = ( এক্স 1 , ... , এক্স এন ) , সম্পর্কহীন সঙ্গে, উদাহরণস্বরূপ সি আমি = δ আমি (আমরা "সাধারণ" এক্স আমি এর অনুক্রমে আছে ভী একটিXiX=(X1,,Xn)Cij=δijXiVar(Xi)=1D(x,y) xyC(x,y)


9

আসুন দুটি ভেরিয়েবল কেস বিবেচনা করা যাক। বাইভারিয়েট স্বাভাবিকের এই ছবিটি দেখে (ধন্যবাদ @ হুবুহু), আপনি কেবল দাবি করতে পারবেন না যে এসি-র চেয়ে AB বড়। একটি ইতিবাচক সমবায় আছে; দুটি ভেরিয়েবল একে অপরের সাথে সম্পর্কিত।

আপনি ভেরিয়েবলগুলি কেবল তখনই সহজ ইউক্লিডিয়ান পরিমাপ (AB এবং AC এর মতো সরল রেখা) প্রয়োগ করতে পারেন

  1. স্বাধীন
  2. 1 এর সমান রূপ রয়েছে।

মূলত, মহালানোবিস দূরত্ব পরিমাপ নিম্নলিখিতটি করে: এটি 1 এর সমতুল্য বৈকল্পিকগুলিকে অনিয়ন্ত্রিত চলকগুলিতে রূপান্তরিত করে এবং তারপরে সাধারণ ইউক্লিডিয়ান দূরত্ব গণনা করে।


1
আপনি কি পরামর্শ দিচ্ছেন যে প্রতিবার আমি এখানে আপনার উত্তরে দেখানো গ্রাফের সাথে কোনও পারস্পরিক সম্পর্ক দেখতে পাচ্ছি, আমি কেবল ইউক্লিডিয়ান দূরত্বের চেয়ে মহালানোবিস গণনা করার কথা চিন্তা করব? কোনটি কখন ব্যবহার করতে হবে তা আমাকে বলবে?
স্যান্ডিপ

7

আমি আপনাকে যথাসম্ভব সহজভাবে ব্যাখ্যা করার চেষ্টা করব:

মহালানোবিস দূরত্ব একটি ডেটা বিতরণ থেকে x পয়েন্টের দূরত্ব পরিমাপ করে। ডেটা বিতরণকে একটি গড় এবং কোভারিয়েন্স ম্যাট্রিক্স দ্বারা চিহ্নিত করা হয়, সুতরাং এটি মাল্টিভারিয়েট গাউসিয়ান হিসাবে অনুমান করা হয়।

এটি প্যাটার্ন (কোনও শ্রেণীর প্রশিক্ষণের উদাহরণের ডেটা বিতরণ) এবং পরীক্ষার উদাহরণের মধ্যে মিলের পরিমাপ হিসাবে প্যাটার্ন স্বীকৃতি হিসাবে ব্যবহৃত হয়। কোভেরিয়েন্স ম্যাট্রিক্স ফিচার স্পেসে ডেটা কীভাবে বিতরণ করা হয় তার আকার দেয়।

চিত্রটি তিনটি পৃথক শ্রেণি নির্দেশ করে এবং লাল রেখাটি প্রতিটি শ্রেণীর জন্য একই মহালানোবিসের দূরত্ব নির্দেশ করে।  লাল রেখায় পড়ে থাকা সমস্ত পয়েন্টগুলির শ্রেণি গড় থেকে একই দূরত্ব রয়েছে কারণ এটি কোভারিয়েন্স ম্যাট্রিক্স ব্যবহৃত হয়।

চিত্রটি তিনটি পৃথক শ্রেণি নির্দেশ করে এবং লাল রেখাটি প্রতিটি শ্রেণীর জন্য একই মহালানোবিসের দূরত্ব নির্দেশ করে। লাল রেখায় পড়ে থাকা সমস্ত পয়েন্টগুলির শ্রেণি গড় থেকে একই দূরত্ব রয়েছে কারণ এটি কোভারিয়েন্স ম্যাট্রিক্স ব্যবহৃত হয়।

মূল বৈশিষ্ট্যটি হ'ল সাধারণীকরণের উপাদান হিসাবে সমবায় ব্যবহার।


6

আমি হুইবারের দুর্দান্ত উত্তরে কিছুটা প্রযুক্তিগত তথ্য যুক্ত করতে চাই। এই তথ্যটি দাদীর পক্ষে আগ্রহী নাও হতে পারে, তবে সম্ভবত তার নাতনিকে এটি সহায়ক বলে মনে হয়েছে। নীচে সম্পর্কিত লিনিয়ার বীজগণিতের নীচে থেকে শীর্ষে বর্ণিত।

d(x,y)=(xy)TΣ1(xy)ΣΣΣΣ=QTDQΣ1=QD12D12QTd(x,y)=[(xy)TQ]D12D12[QT(xy)]=zTzQ(xy)D12D12D1zTz- র


5

এই প্রশ্নের উত্তর দেওয়ার জন্য আমি কিছুটা দেরি করতে পারি। এখানকার এই কাগজটি মহালানোবিসের দূরত্ব বোঝার জন্য একটি ভাল সূচনা। তারা সংখ্যার মান সহ একটি সম্পূর্ণ উদাহরণ সরবরাহ করে। আমি এটি সম্পর্কে যা পছন্দ করি তা হ'ল সমস্যার জ্যামিতিক উপস্থাপনা উপস্থাপন করা।


4

কেবল উপরের দুর্দান্ত ব্যাখ্যাগুলিতে যোগ করার জন্য, মহালানোবিস দূরত্ব স্বাভাবিকভাবেই (মাল্টিভারিয়েট) লিনিয়ার রিগ্রেশনটিতে উত্থিত হয়। অন্যান্য উত্তরে আলোচিত মহালানোবিস দূরত্ব এবং গাউসীয় বিতরণের মধ্যবর্তী কয়েকটি সংযোগের এটি একটি সাধারণ পরিণতি, তবে আমি মনে করি এটি যেকোনভাবেই বানানটির পক্ষে মূল্যবান।

মনে করুন আমাদের কাছে কিছু তথ্য আছে (x1,y1),,(xN,yN)xiRnyiRmβ0Rmβ1Rm×nyi=β0+β1xi+ϵiϵ1,,ϵNm0Cxiyixiβ0+β1xiC

yixiβ=(β0,β1)

-লগ ইন করুনপি(Yআমি|এক্সআমি;β)=মি2লগ ইন করুন(2πDetসি)+ +12(Yআমি-(β0+ +β1এক্সআমি))সি-1(Yআমি-(β0+ +βএক্সআমি))
সি
argminβ[-লগ ইন করুনপি(Yআমি|এক্সআমি;β)]=argminβডিসি(β0+ +β1এক্সআমি,Yআমি),
ডিসি(Y^,Y)=(Y-Y^)সি-1(Y-Y^)
Y^,Yআরমি

লগ ইন করুনপি(Y|এক্স;β)y=(y1,,yN)x=(x1,,xN)

logp(yx;β)=i=1Nlogp(yixi;β)
argminβ[logp(yx;β)]=argminβ1Ni=1NDC(β0+β1xi,yi),
1/N গুণকটি আর্গমিনকে প্রভাবিত করে না।

β0,β1 যা পর্যবেক্ষণ করা তথ্যের নেতিবাচক লগ-সম্ভাবনা (যেমন সম্ভাব্যতা সর্বাধিক) হ্রাস করে, সেগুলি মহালানোবিস দূরত্বের দ্বারা প্রদত্ত ক্ষতির ফাংশন সহ ডেটার অভিজ্ঞতাগত ঝুঁকিও হ্রাস করে।


1
ভাল, বেশ না। যে শব্দটি অনুরূপলগ ইন করুনDetসিকিছুটা পরিবর্তন করে। এবং আপনি অন্যান্য মাত্রায় মনোনিবেশ করেছেন বলে মনে হয়: মহালানোবিস দূরত্ব আসলে এর মধ্যে আরও অনেক গুরুত্বপূর্ণ ভূমিকা পালন করেএনকলামগুলির দ্বারা বিভক্ত মাত্রিক স্থান, কারণ এটি লিভারেজের সাথে সম্পর্কিত। এর ভূমিকাগুলি বিপরীত হওয়ার কারণে পাঠকরা সম্ভবত এতে বিভ্রান্ত হবেনএক্স এবং β আপনার স্বীকৃতিতে: এক্স প্যারামিটার ভেক্টর এবং βডিজাইনের ম্যাট্রিক্স!
whuber

আমার উদ্দেশ্য ছিল (এক্স,Y)এখানে একটি লেবেলযুক্ত প্রশিক্ষণের উদাহরণ বোঝাতে (সুতরাং এখানে কোনও নকশার ম্যাট্রিক্স নেই); কারনY ভেক্টরটি হ'ল আমি মাল্টিভারিয়েট রিগ্রেশন করছি (অন্যথায় শব্দ শব্দ) εএটি একটি একক-ভেরিয়েবল গাউসিয়ান হবে, কোনও সোভেরিয়েন্স ম্যাট্রিক্স থাকবে না এবং উদাহরণটি খুব তুচ্ছ মনে হতে পারে)। সম্ভবত আমার স্বরলিপিটি মানহীন, কারণ আমার পটভূমি পরিসংখ্যানগুলিতে নেই। উপস্থিতি সম্পর্কেলগ ইন করুনDetসি পরিভাষা, আমি যা বোঝাতে চেয়েছি তা হ'ল একটিRমিআমিএনβ[-লগ ইন করুনপি(Y|এক্স;β)]=একটিRমিআমিএনβ(Y-βএক্স)সি-1(Y-βএক্স)
বেন CW

আপনার প্রতীকগুলি পাঠকদের অনুমান করার পরিবর্তে কী বোঝায় তা ব্যাখ্যা করা গুরুত্বপূর্ণ। বেশ সম্ভবত আপনার ব্যাখ্যাটি একটি ভাল তবে এটি ব্যাখ্যা ছাড়াই (যা আপনি সর্বশেষ মন্তব্য দিয়ে শুরু করেছেন) আমি সন্দেহ করি বেশিরভাগ পাঠকদের আপনার অর্থ বুঝতে সমস্যা হবে।
হোবার

2
আমি আপনার পয়েন্ট দেখছি. আমি এই মন্তব্যে কিছু ধারণাগুলি অন্তর্ভুক্ত করার জন্য মূল উত্তরটি সম্পাদনা করেছি।
বেন সিডাব্লু

2

মহালানোবিস দূরত্ব হ'ল এক ইউক্লিডিয়ান দূরত্ব (প্রাকৃতিক দূরত্ব) যা তথ্যের সমবায় বিবেচনা করে। এটি শোরগোলের উপাদানটিকে একটি বড় ওজন দেয় এবং তাই দুটি ডেটাসেটের মধ্যে মিল খুঁজে পাওয়ার জন্য খুব দরকারী।

যেমন আপনি এখানে আপনার উদাহরণটিতে দেখতে পাচ্ছেন যে ভেরিয়েবলগুলি পরস্পর সম্পর্কযুক্ত হয়, বিতরণটি এক দিকে বদলে যায়। আপনি এই প্রভাবগুলি মুছে ফেলতে চাইতে পারেন। আপনি যদি আপনার দূরত্বের ক্ষেত্রে অ্যাকাউন্টের সাথে সম্পর্কিত হন তবে আপনি শিফট প্রভাবটি সরাতে পারেন।


2
আমি বিশ্বাস করি যে মহালানোবিস দূরত্ব কার্যকরভাবে সেখানে "বৃহত্তর" ওজন দেওয়ার পরিবর্তে বৃহত্তর- সমবায় নির্দেশাবলীকে কমিয়ে দেয়।
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.