প্রধান উপাদান বিশ্লেষণ, ইগেনভেেক্টর এবং ইগেনভ্যালুগুলি উপলব্ধ করা


976

আজকের প্যাটার্ন রিকগনিশন ক্লাসে আমার প্রফেসর পিসিএ, ইগেনভেেক্টর এবং ইগেনভ্যালু সম্পর্কে কথা বলেছেন।

আমি এর গণিত বুঝতে পেরেছি। যদি আমাকে ইগেনভ্যালু ইত্যাদি খুঁজতে বলা হয় তবে আমি এটি কোনও মেশিনের মতো সঠিকভাবে করব। তবে আমি তা বুঝতে পারি নি। আমি এর উদ্দেশ্য পাইনি। আমি এর অনুভূতি পাইনি।

আমি নিম্নলিখিত উদ্ধৃতিতে দৃ strongly়ভাবে বিশ্বাস করি:

আপনি আপনার দাদীর কাছে এটি ব্যাখ্যা না করতে পারলে আপনি সত্যিই কিছু বুঝতে পারবেন না। -- আলবার্ট আইনস্টাইন

ঠিক আছে, আমি এই ধারণাগুলি কোনও সাধারণ মানুষ বা ঠাকুরমার কাছে ব্যাখ্যা করতে পারি না।

  1. পিসিএ, আইজেনভেেক্টর এবং ইগেনভ্যালু কেন? এই ধারণাগুলির প্রয়োজন কী ছিল ?
  2. একজন সাধারণ মানুষকে কীভাবে এগুলি ব্যাখ্যা করবেন?

95
ভাল প্রশ্ন. আমি উক্তিটির সাথেও একমত। আমি বিশ্বাস করি যে পরিসংখ্যান এবং গণিতে এমন অনেক লোক আছেন যারা অত্যন্ত বুদ্ধিমান এবং তাদের কাজটি আরও গভীরভাবে পেতে পারে তবে তারা কী কাজ করছে তা গভীরভাবে বুঝতে পারছেন না don't অথবা তারা তা করে তবে অন্যদের কাছে এটি ব্যাখ্যা করতে অক্ষম। আমি এখানে সরল ইংরেজিতে উত্তর সরবরাহ করার উপায় ছেড়ে চলেছি, এবং ইংরেজী উত্তরগুলির পরিকল্পনার জন্য প্রশ্ন জিজ্ঞাসা করব।
নিল ম্যাকগুইগান

7
এটি জুলাই মাসে গণিতের সাইটে জিজ্ঞাসা করা হয়েছিল, তবে তাও নয় এবং এর অনেক উত্তরও পাওয়া যায় নি (অবাক হওয়ার মতো নয়, সেখানে আলাদা ফোকাস দেওয়া হয়েছে) given math.stackexchange.com/questions/1146/…
হোয়াট

6
বাস্তুসংস্থান সম্পর্কিত তথ্য বিশ্লেষণে জুউর এট আল-এর ব্যাখ্যার অনুরূপ যেখানে তারা ওভারহেড প্রজেক্টরটিতে আপনার হাতটি প্রজেক্ট করার বিষয়ে কথা বলে। আপনি আপনার হাতটি ঘুরিয়ে রেখে চলেছেন যাতে প্রাচীরের অভিক্ষেপটি কোনও হাতের মতো দেখতে উচিত বলে মনে হয় তার থেকে বেশ অনুরূপ।
রোমান Luštrik

12
এই প্রশ্নটি আমাকে একটি ভাল কাগজে নিয়ে যায়, এবং যদিও আমি মনে করি এটি একটি দুর্দান্ত উক্তি এটি আইনস্টাইনের নয়। এটি একটি সাধারণ বিভ্রান্তি, এবং সম্ভবত সম্ভবত মূল উক্তিটি আর্নেস্ট রাদারফোর্ডের এই যিনি বলেছিলেন, "আপনি যদি আপনার পদার্থবিজ্ঞানের কথা বারময়েডকে ব্যাখ্যা করতে না পারেন তবে এটি সম্ভবত খুব ভাল পদার্থবিজ্ঞান নয়।" এই থ্রেডটি শুরু করার জন্য সমস্ত একই ধন্যবাদ।
গাভালেটজ

23
অ্যালিস ক্যালপ্রাইস, চূড়ান্ত উদ্ধৃত আইস্টাইন , প্রিন্সটন ইউপি ২০১১ অনেকগুলি "সম্ভবত আইনস্টাইনের দ্বারা নয়" হিসাবে এই উদ্ধৃতিটিকে এখানে পতাকাঙ্কিত করেছে। পৃষ্ঠা 4.4 দেখুন।
নিক কক্স

উত্তর:


1293

একটি বড় পরিবারের ডিনার কল্পনা করুন, যেখানে প্রত্যেকে আপনাকে পিসিএ সম্পর্কে জিজ্ঞাসা করতে শুরু করে। প্রথমে আপনি এটি আপনার দাদীর কাছে ব্যাখ্যা করুন; তাহলে তোমার কাছে দাদী; তাহলে তোমার মায়ের কাছে; তারপরে আপনার স্ত্রীকে; অবশেষে আপনার মেয়ের কাছে (যিনি গণিতবিদ)। প্রতিবারের পরের ব্যক্তি একজন সাধারণ লোকের চেয়ে কম হয়। কথোপকথনটি কীভাবে যেতে পারে তা এখানে।

ঠাকুরমা: শুনেছি আপনি "পি-সি-এআই" অধ্যয়ন করছেন। আমি অবাক হলাম এটা কি ...

আপনি: আহ, এটি কিছু ডেটা সংক্ষিপ্ত করার কেবল একটি পদ্ধতি। দেখুন আমাদের টেবিলে এখানে কিছু মদের বোতল দাঁড়িয়ে আছে। আমরা প্রতিটি ওয়াইনকে এর রঙ অনুসারে বর্ণনা করতে পারি, এটি কতটা শক্তিশালী, কতটা পুরাতন এবং আরও কীভাবে ( এখান থেকে তোলা ওয়াইন বৈশিষ্ট্যের এই খুব সুন্দর দৃশ্য দেখুন )। আমরা আমাদের আস্তরণের প্রতিটি ওয়াইনের বিভিন্ন বৈশিষ্ট্যের একটি সম্পূর্ণ তালিকা রচনা করতে পারি। তবে তাদের মধ্যে অনেকগুলি সম্পর্কিত বৈশিষ্ট্য পরিমাপ করবে এবং তাই অপ্রয়োজনীয় হবে। যদি তা হয় তবে আমাদের প্রতিটি ওয়াইনকে আরও কম বৈশিষ্ট্যের সাথে সংক্ষিপ্ত করতে সক্ষম হওয়া উচিত! এটিই পিসিএ করে।

ঠাকুমা: এটা মজার! সুতরাং এই পিসিএ জিনিসটি পরীক্ষা করে যে কোন বৈশিষ্ট্যগুলি অনর্থক এবং এগুলি বাতিল করে দেয়?

আপনি: দুর্দান্ত প্রশ্ন, বৃদ্ধ! না, পিসিএ কিছু বৈশিষ্ট্য বাছাই করছে না এবং অন্যদের ত্যাগ করছে। পরিবর্তে, এটি কিছু নতুন বৈশিষ্ট্য তৈরি করে যা আমাদের ওয়াইনগুলির তালিকাটি ভালভাবে সংক্ষেপে পরিণত হয়। অবশ্যই এই নতুন বৈশিষ্ট্যগুলি পুরানোগুলি ব্যবহার করে নির্মিত হয়েছে; উদাহরণস্বরূপ, একটি নতুন বৈশিষ্ট্যটিকে ওয়াইন এজ মাইনাস ওয়াইন অ্যাসিডিটি স্তর বা এর মতো অন্য কোনও সংমিশ্রণ হিসাবে গণনা করা যেতে পারে (আমরা তাদের লিনিয়ার সংমিশ্রণ বলি )।

প্রকৃতপক্ষে, পিসিএ সেরা সম্ভাব্য বৈশিষ্ট্যগুলি সন্ধান করে, যেগুলি ওয়াইনগুলির তালিকার সংক্ষিপ্তসার পাশাপাশি কেবল সম্ভব (সমস্ত কল্পনাযোগ্য লিনিয়ার সংমিশ্রনের মধ্যে)। এ কারণেই এটি এত দরকারী।

মা: হুমমম, এটা নিশ্চয়ই ভাল লাগছে, তবে আমি নিশ্চিত যে আমি বুঝতে পেরেছি না। আপনি যখন বলছেন যে এই নতুন পিসিএ বৈশিষ্ট্যগুলি ওয়াইনের তালিকাকে "সংক্ষিপ্ত" করে?

আপনি: আমার ধারণা আমি এই প্রশ্নের দুটি পৃথক উত্তর দিতে পারি। প্রথম উত্তরটি হ'ল আপনি এমন কিছু ওয়াইন বৈশিষ্ট্য (বৈশিষ্ট্য) সন্ধান করছেন যা মদ জুড়ে দৃ strongly়ভাবে পৃথক। আসলে, কল্পনা করুন যে আপনি এমন একটি সম্পত্তি নিয়ে এসেছেন যা বেশিরভাগ ওয়াইনের জন্য একই। এটি খুব কার্যকর হবে না, না? ওয়াইনগুলি খুব আলাদা, তবে আপনার নতুন সম্পত্তি তাদের সমস্তকে একইরকম দেখায়! এটি অবশ্যই একটি খারাপ সংক্ষিপ্তসার হবে। পরিবর্তে, পিসিএ এমন বৈশিষ্ট্যগুলি সন্ধান করে যা ওয়াইনগুলিতে যতটা সম্ভব তারতম্য দেখায়।

দ্বিতীয় উত্তরটি হ'ল আপনি সেই বৈশিষ্ট্যগুলি সন্ধান করছেন যা আপনাকে মূল ওয়াইন বৈশিষ্ট্যগুলি ভবিষ্যদ্বাণী করতে বা "পুনর্গঠন" করতে দেয়। আবার, কল্পনা করুন যে আপনি এমন একটি সম্পত্তি নিয়ে এসেছেন যার মূল বৈশিষ্ট্যের সাথে কোনও সম্পর্ক নেই; আপনি যদি এই নতুন সম্পত্তিটি ব্যবহার করেন তবে আসলটি পুনর্নির্মাণের কোনও উপায় নেই! এটি আবার একটি খারাপ সংক্ষিপ্তসার হবে। সুতরাং পিসিএ এমন বৈশিষ্ট্যগুলি সন্ধান করে যা মূল বৈশিষ্ট্যগুলি পাশাপাশি সম্ভব পুনর্নির্মাণের অনুমতি দেয়।

আশ্চর্যজনকভাবে, দেখা যাচ্ছে যে এই দুটি লক্ষ্য সমান এবং তাই পিসিএ একটি পাথর দিয়ে দুটি পাখি হত্যা করতে পারে।

স্বামী / স্ত্রী: তবে প্রিয়তম, পিসিএ-র এই দুটি "লক্ষ্য" এত আলাদা! তারা সমতুল্য হবে কেন?

তুমি: হুমমম। সম্ভবত আমার কিছুটা অঙ্কন করা উচিত (একটি ন্যাপকিন নেয় এবং স্ক্রাবলিং শুরু হয়) । আসুন আমরা দুটি ওয়াইন বৈশিষ্ট্য চয়ন করি, সম্ভবত ওয়াইন অন্ধকার এবং অ্যালকোহল সামগ্রী - আমি জানি না সেগুলি পারস্পরিক সম্পর্কযুক্ত কিনা, তবে আসুন কল্পনা করুন যে সেগুলি are বিভিন্ন ওয়াইনগুলির একটি ছড়িয়ে ছিটিয়ে থাকা প্লট দেখতে এখানে কী:

পিসিএ দৃষ্টান্তমূলক ডেটা

এই "ওয়াইন ক্লাউড" এর প্রতিটি বিন্দু একটি নির্দিষ্ট ওয়াইন দেখায়। আপনি দেখতে পাচ্ছেন যে দুটি বৈশিষ্ট্য ( এই চিত্রের এবং ) পারস্পরিক সম্পর্কযুক্ত। এই ওয়াইন মেঘের কেন্দ্রের মধ্য দিয়ে একটি লাইন অঙ্কন করে এবং সমস্ত পয়েন্ট এই লাইনে প্রজেক্ট করে একটি নতুন সম্পত্তি তৈরি করা যেতে পারে। এই নতুন সম্পত্তিটি একটি লিনিয়ার সংমিশ্রণ দ্বারা দেওয়া হবে , যেখানে প্রতিটি লাইন এবং এর কিছু নির্দিষ্ট মানের সাথে ।xyw1x+w2yw1w2

এখন এখানে খুব মনোযোগ সহকারে দেখুন - এই অনুমানগুলি বিভিন্ন লাইনের জন্য দেখতে কেমন লাগে (লাল বিন্দুগুলি নীল বিন্দুর অনুমান):

পিসিএ অ্যানিমেশন: বৈকল্পিক এবং পুনর্গঠন ত্রুটি

আমি আগেই বলেছি, পিসিএ "সেরা" কী তার দুটি পৃথক মানদণ্ড অনুযায়ী "সেরা" লাইনটি খুঁজে পাবে। প্রথমত, এই রেখার সাথে মানগুলির প্রকরণটি সর্বাধিক হওয়া উচিত। লাইনটি ঘোরার সময় কীভাবে লাল বিন্দুর "স্প্রেড" (আমরা একে "রূপ" বলি) তার দিকে মনোযোগ দিন; আপনি যখন এটি সর্বাধিক পৌঁছতে পারবেন? দ্বিতীয়ত, আমরা যদি নতুন দুটি (একটি লাল বিন্দুর অবস্থান) থেকে মূল দুটি বৈশিষ্ট্য (একটি নীল বিন্দুর অবস্থান) পুনর্গঠন করি তবে সংযুক্ত লাল রেখার দৈর্ঘ্যের দ্বারা পুনর্গঠন ত্রুটি দেওয়া হবে। রেখাটি ঘোরার সময় এই লাল রেখাগুলির দৈর্ঘ্য কীভাবে পরিবর্তিত হয় তা পর্যবেক্ষণ করুন; মোট দৈর্ঘ্য সর্বনিম্ন পৌঁছলে আপনি কি দেখতে পাচ্ছেন?

যদি আপনি এই অ্যানিমেশনটিকে কিছু সময়ের জন্য তাকাতে থাকেন তবে আপনি লক্ষ্য করবেন যে "সর্বাধিক বৈকল্পিক" এবং "সর্বনিম্ন ত্রুটি" একই সাথে পৌঁছেছে, যথা যখন আমি ওয়াইনের মেঘের দু'দিকে চিহ্নিত চিহ্নিত ম্যাজেন্টা টিকগুলিতে লাইনটি নির্দেশ করি । এই লাইনটি নতুন ওয়াইন সম্পত্তির সাথে মিলে যায় যা পিসিএ দ্বারা নির্মিত হবে।

যাইহোক, পিসিএ "মূল উপাদান বিশ্লেষণ" এবং এই নতুন সম্পত্তিটিকে "প্রথম প্রধান উপাদান" বলা হয়। এবং "সম্পত্তি" বা "চরিত্রগত" বলার পরিবর্তে আমরা সাধারণত "বৈশিষ্ট্য" বা "পরিবর্তনশীল" বলি।

কন্যা: খুব সুন্দর, বাবা! আমি মনে করি আমি দেখতে পাচ্ছি কেন দুটি লক্ষ্য একই ফলাফল দেয়: এটি মূলত পাইথাগোরাস উপপাদ্যের কারণে, তাই না? যাইহোক, আমি শুনেছি পিসিএ কোনওভাবে ইগেনভেেক্টর এবং ইগেনভ্যালুগুলির সাথে সম্পর্কিত; তারা এই ছবিতে কোথায়?

আপনি: উজ্জ্বল পর্যবেক্ষণ। গাণিতিকভাবে, লাল বিন্দুর বিস্তারটি ওয়াইন মেঘের কেন্দ্র থেকে প্রতিটি লাল বিন্দুতে গড় স্কোয়ার দূরত্ব হিসাবে পরিমাপ করা হয়; আপনি জানেন যে, এটি বৈকল্পিক বলা হয় । অন্যদিকে, মোট পুনর্নির্মাণ ত্রুটিটি সম্পর্কিত লাল লাইনের গড় স্কোয়ার দৈর্ঘ্য হিসাবে পরিমাপ করা হয়। তবে যেহেতু লাল রেখা এবং কালো রেখার মধ্যবর্তী কোণটি সর্বদা তাই এই দুটি পরিমাণের যোগফল ওয়াইন মেঘের কেন্দ্র এবং প্রতিটি নীল বিন্দুর মধ্যবর্তী গড় বর্গক্ষেত্রের দূরত্বের সমান; এটি হ'ল পাইথাগোরাস উপপাদ্য। অবশ্যই এই গড় দূরত্বটি কালো রেখার ওরিয়েন্টেশনের উপর নির্ভর করে না, সুতরাং তত ত্রুটি যত বেশি তত ত্রুটি তত কম হবে (কারণ তাদের যোগফল স্থির থাকে)। এই হাতে-avyেউয়ের তর্কটি সুনির্দিষ্ট করা যায় (90এখানে দেখুন )।

যাইহোক, আপনি কল্পনা করতে পারেন যে কালো রেখাটি একটি শক্ত রড এবং প্রতিটি লাল রেখা একটি বসন্ত। বসন্তের শক্তি তার বর্গক্ষেত্র দৈর্ঘ্যের সাথে সমানুপাতিক (এটি পদার্থবিজ্ঞানে হুকের আইন হিসাবে পরিচিত), তাই রডটি এই স্কোয়ারযুক্ত দূরত্বের যোগফলকে কমিয়ে আনতে যেমন নিজেকে আকৃষ্ট করবে। আমি কিছু সান্দ্র ঘর্ষণ উপস্থিতিতে এটি দেখতে কেমন হবে তার একটি অনুকরণ তৈরি করেছি:

পিসিএ অ্যানিমেশন: দুল

আইজেনভেেক্টর এবং ইগেনভ্যালু সম্পর্কিত। আপনি জানেন যে কোভারিয়েন্স ম্যাট্রিক্স কী; আমার উদাহরণে এটি একটি ম্যাট্রিক্স যা by দ্বারা দেওয়া হয়এর অর্থ হ'ল ভেরিয়েবলের ভেরিয়েন্সটি 1.07 , y ভেরিয়েবলের ভেরিয়েন্স 0.64 এবং তাদের মধ্যে কোভেরিয়েন্স 0.63 । যেহেতু এটি একটি বর্গীয় প্রতিসম ম্যাট্রিক্স, তাই এটি একটি নতুন orthogonal স্থানাংক সিস্টেম বাছাই করে এটির আইগনেক্টর দ্বারা প্রদত্ত হয় (ঘটনাক্রমে, এটি বর্ণালী উপপাদ্য বলা হয়2×2

(1.070.630.630.64).
x1.07y0.640.63); এর সাথে সম্পর্কিত ইগেনভ্যালুগুলি তখন ত্রিভুজটিতে অবস্থিত। এই নতুন স্থানাঙ্ক ব্যবস্থায়, কোভেরিয়েন্স ম্যাট্রিক্সটি তির্যক এবং এটির মতো দেখাচ্ছে:
(1.52000.19),
অর্থাত পয়েন্টগুলির মধ্যে সম্পর্ক এখন শূন্য। এটি স্পষ্ট হয়ে উঠেছে যে কোনও প্রক্ষেপণের বৈচিত্রটি ইগেনভ্যালুগুলির একটি ওজনযুক্ত গড় দ্বারা দেওয়া হবে (আমি এখানে কেবল অন্তর্দৃষ্টিটি আঁকছি)। ফলস্বরূপ, সর্বাধিক সম্ভাব্য বৈকল্পিকতা ( 1.52 ) অর্জন করা সম্ভব হবে যদি আমরা সহজভাবে প্রথম স্থানাঙ্ক অক্ষের উপরে প্রজেকশন নিই। এটি অনুসরণ করে যে প্রথম মূল উপাদানটির দিকনির্দেশটি কোভারিয়েন্স ম্যাট্রিক্সের প্রথম ইগেনভেક્ટર দ্বারা দেওয়া হয়েছে। ( আরও বিশদ এখানে। )

আপনি এটিকে ঘোরানো চিত্রটিতেও দেখতে পাবেন: সেখানে একটি ধূসর রেখা রয়েছে সেখানে কালো বর্ণের অরথগোনাল; একসাথে তারা একটি ঘোরানো সমন্বয় ফ্রেম গঠন করে। এই ঘোরানো ফ্রেমে কখন নীল বিন্দুগুলি অনিয়ন্ত্রিত হয়ে যায় তা লক্ষ্য করার চেষ্টা করুন। উত্তর, আবারও, এটি হুবহু ঘটবে যখন ম্যাজেন্টার দিকে কালো রেখাটি দেখায়। এখন আমি আপনাকে বলতে পারি যে আমি তাদের কীভাবে পেয়েছি: তারা কোভারিয়েন্স ম্যাট্রিক্সের প্রথম ইগেনভেেক্টরের দিক চিহ্নিত করে, যা এই ক্ষেত্রে (0.81,0.58) সমান ।


প্রতি জনপ্রিয় অনুরোধ অনুসারে, আমি উপরের অ্যানিমেশনগুলি তৈরি করতে মতলব কোডটি ভাগ করেছি ।


79
+1 সুন্দর গল্প এবং চিত্র। ...then to your mother; then to your wife; finally, to your daughter (who is a mathematician)...আমি চালিয়ে যাব: এবং রাতের খাবারের পরে - নিজের কাছে। এবং এখানে আপনি হঠাৎ আটকে
গেছেন

68
এই উত্তরগুলির জন্য আপনার দেওয়া চিত্রগুলি আমি সম্পূর্ণ পছন্দ করি।
শ্যাডটলকার

57
আমি সাধারণত জিনিসগুলি পড়ার জন্য ক্রস ভ্যালিডেটের মাধ্যমে ব্রাউজ করি তবে আমার কোনও অ্যাকাউন্ট তৈরি করার কারণ নেই ... মূলত কারণ এখানে যে ধরণের প্রশ্ন রয়েছে তা আমার দক্ষতার বাইরে এবং সত্যই আমি এর কোনও উত্তর দিতে পারি না। আমি সাধারণত স্ট্যাকওভারফ্লোতে থাকি এবং আমি প্রায় এক বছর ধরে স্ট্যাকএক্সচেঞ্জ নেটওয়ার্কে আছি। যাইহোক, আমি কেবলমাত্র প্রাথমিকভাবে আপনার পোস্টটিকে উর্ধ্বমুখী করতে আজ একটি অ্যাকাউন্ট তৈরি করার সিদ্ধান্ত নিয়েছি। এটি সম্ভবত পিসিএর সেরা প্রদর্শন যা আমি কখনও পড়েছি এবং আমি অনেকগুলি পড়েছি। এই দুর্দান্ত পোস্টটির জন্য আপনাকে ধন্যবাদ - দুর্দান্ত গল্প বলা, গ্রাফিক্স এবং এটি পড়া এত সহজ! +1
রাইরিং

14
আমার জন্য দ্রষ্টব্য: আমার উত্তরে বর্তমানে 100 টি upvotes রয়েছে, জেডিলং এর একটিতে 220 টি আপভোট রয়েছে; যদি আমরা ধ্রুবক বৃদ্ধি অনুমান করি তবে আমার প্রতি বছর 100 টি upvotes এবং তার 40 টি upvotes / বছর রয়েছে। অথবা বরং 55 / বছর গণনা করা হয়েছে যেহেতু এটি ২০১৪ সালের জানুয়ারীতে ১০০ টি উপায়ে পাস করেছে [একটি সোনার ব্যাজ পেয়েছে] means এর অর্থ হ'ল আমি ২০১ 2018 এর শেষের দিকে প্রায় ২.-----৩ বছরে ধরে ফেলব Let's আসুন দেখুন :-)
অ্যামিবা

3
নিজের পক্ষে নোট করুন: আমাকে আমার অনুমানটি আপডেট করতে হবে। এক মাস পরে এই উত্তরটি জেডিলংয়ের পক্ষে 18 টি আপগেট পেয়েছে। এটি ইঙ্গিত দেয় যে আমি এখন থেকে এক বছরের নীচে ধরে যেতে পারি। মজার বিষয় হল, 5 / মাস আমার উপরের 55 / বছরের অনুমানের খুব কাছাকাছি, তবে 18 / মাস 100 / বছরের দ্বিগুণেরও বেশি। যেহেতু আমার উত্তরটি পরিবর্তন হয়নি, মনে হচ্ছে দ্বিতীয় স্থানে পৌঁছনো উন্নতি ত্বরান্বিত করেছে (সম্ভবত দৃশ্যমানতা বৃদ্ধির কারণে)।
অ্যামিবা

376

লিন্ডসে আই স্মিথের " প্রিন্টিকাল উপাদান বিশ্লেষণের উপর একটি টিউটোরিয়াল" পান্ডুলিপিটি আমাকে সত্যই পিসিএকে ছাঁটাইতে সহায়তা করেছিল। আমি মনে করি এটি এখনও আপনার দাদীর কাছে ব্যাখ্যা করার জন্য খুব জটিল, তবে এটি খারাপ নয়। ইগেন ইত্যাদি গণনা করার জন্য আপনার প্রথম কয়েকটি বিটগুলি এড়িয়ে যাওয়া উচিত chapter অধ্যায়টির উদাহরণে নেমে গ্রাফগুলি দেখুন look

আমার কিছু উদাহরণ রয়েছে যেখানে আমি খেলনাগুলির কয়েকটি উদাহরণ দিয়ে কাজ করেছি যাতে আমি পিসিএ বনাম ওএলএস লিনিয়ার রিগ্রেশন বুঝতে পারি। আমি এগুলি খনন করতে এবং তাদের পাশাপাশি পোস্ট করার চেষ্টা করব।

সম্পাদনা: আপনি সাধারণ স্বল্প স্কোয়ার (ওএলএস) এবং পিসিএর মধ্যে পার্থক্য সম্পর্কে সত্যিই জিজ্ঞাসা করেননি তবে আমি আমার নোটগুলি খনন করার পরে এটি সম্পর্কে একটি ব্লগ পোস্ট করেছি । খুব সংক্ষিপ্ত সংস্করণটি হ'ল x এর yL x এর মতো স্বতন্ত্র অক্ষের জন্য লম্ব ত্রুটিটি হ্রাস করে (হলুদ লাইনগুলি দুটি ত্রুটির উদাহরণ):

বিকল্প পাঠ

আপনি যদি x ~ y (প্রথম উদাহরণে y ~ x এর বিপরীতে) আবার লিখতে চান তবে এটি ত্রুটিটিকে হ্রাস করবে:

বিকল্প পাঠ

এবং পিসিএ কার্যকরভাবে মডেলটিতে ত্রুটি অরথোগোনালকে হ্রাস করে, যেমন:

বিকল্প পাঠ

আরও গুরুত্বপূর্ণটি, অন্যরা যেমন বলেছে, এমন পরিস্থিতিতে যেখানে আপনার সম্পূর্ণ ভেরিয়েবলের পুরো সংখ্যা রয়েছে, পিসিএ আপনাকে এই ভেরিয়েবলগুলির মধ্যে কোন রৈখিক সংমিশ্রণগুলি সবচেয়ে বেশি গুরুত্বপূর্ণ তা নির্ধারণ করতে সহায়তা করে। উপরের উদাহরণগুলি কেবলমাত্র সাধারণ ক্ষেত্রে প্রথম প্রধান উপাদানটি দেখতে কেমন তা কল্পনা করতে সহায়তা করে।

আমার ব্লগ পোস্টে উপরের গ্রাফগুলি তৈরি করার জন্য এবং প্রথম প্রধান উপাদানটি গণনা করার জন্য আমার কাছে আর কোড রয়েছে। পিসিএ এর চারপাশে আপনার স্বজ্ঞাততাটি তৈরি করতে এটি খেলতে পারা উচিত। আমি কোডটি না লিখি যতক্ষণ না এটি পুনরুত্পাদন করে আমি সত্যিকার অর্থে কোনও কিছুর মালিক নই। 


9
লিন্ডসে আই স্মিথ পাণ্ডুলিপিতে ভাল কল - এটি আজই পড়ুন; খুব উপকারী.
স্টেডি

7
সুতরাং পিসিএ কি সর্বনিম্ন স্কোয়ারগুলির সমতুল্য যদি এটি পয়েন্ট থেকে ফিট লাইনের দিকে অরথোগোনাল দূরত্বকে অনুকূল করে তোলে?
মার্সিন

3
@ মার্সিন - এটি সঠিক। আপনি পুনরায় ফ্রেজ পারেন পিসিএ সেরা র্যাঙ্ক খোঁজার যেমন অনুমান ( 1 মি পি মূল) পৃ ভেরিয়েবল ( এক্স আমি m1mpp ), এর একটি উদ্দেশ্য ফাংশন Σ এন আমি = 1 Σ পি = 1 ( এক্স আমি - এক্স আমি ) 2 । পিসি সংখ্যা নির্বাচন করা পূর্বাভাসের র‌্যাঙ্কটি বেছে নেওয়ার সমতুল্য। x^iji=1,,nj=1,,pi=1nj=1p(xijx^ij)2
সম্ভাব্যতাব্লোগিক

3
স্মিথের ছোট অঙ্কের ত্রুটি: "ম্যাট্রিক্সের সমস্ত ইগেনভেেক্টরগুলি লম্ব হয় ... আপনার কত মাত্রা থাকুক না কেন" কেবল প্রতিসম ম্যাট্রিকগুলিতে প্রযোজ্য, এখানে তাদের সাথে 45 ডিগ্রি আলাদা রয়েছে । স্মিথ পূর্ববর্তী সময়ে কোভেরিয়েন্স ম্যাট্রিক্সের প্রতিসাম্যটি নোট করে, তবে জড়িত নয় - প্রতিসাম্যটি nলম্ব ইগেনভেেক্টরকে নিশ্চিত করে । প্রকৃতপক্ষে, সমস্ত বাস্তব n x nম্যাট্রিকের এমনকি সত্যিকারের আইজেনভ্যালুও নেই (যেমন {{0,1}, {- 1,0}}) এবং যাঁরা করেন তাদের মধ্যে সকলেরই nস্বতন্ত্র ইয়েগেনেক্টর নেই (যেমন {{1,1}, {0 , 1}})! প্রতিসম বিষয়!
সিলভার ফিশ

8
গণিতবিদ শেখানোর আইগেনভেেক্টর হিসাবে, লিন্ডসে স্মিথ পাণ্ডুলিপিটি পড়ার সময় আমাকে ক্রিঞ্জ করতে হয়েছিল। "... ফলস্বরূপ ভেক্টর হ'ল মূলটির একটি পূর্ণসংখ্যা একাধিক ..." - পূর্ণসংখ্যার উল্লেখ করার কী অর্থ ? ম্যাট্রিক্স এ-এর একটি ইগেনভেেক্টরটি কোনও ভেক্টর এক্স এর মতো যে এক্সটি এক্স এর একাধিক। কোনও পূর্ণসংখ্যা একাধিক নয়, কেবল একাধিক! একটি অ-পূর্ণসংখ্যার একাধিকও ঠিক আছে! জীজ কেন অহেতুক বিভ্রান্তি সৃষ্টি করছে কোথায়?
দিমিত্রি জইতসেভ

144

প্রথমে (2) করি। পিসিএ ডেটাতে একটি এলিপসয়েড ফিট করে। এলিপসয়েড হ'ল সিগার, প্যানকেকস এবং ডিমের মতো বিকৃত গোলাকার আকারগুলির একটি বহুমাত্রিক সাধারণীকরণ। এগুলি সমস্ত সিগার বা ডিমের অক্ষ বা প্যানককের বিমানের মতো তাদের প্রধান (আধা) অক্ষের দিক এবং দৈর্ঘ্যের দ্বারা খুব সুন্দরভাবে বর্ণিত। এলিপসয়েডটি কীভাবে পরিণত হয়েছে তা বিবেচনা না করেই, আইজেনভেেক্টরগুলি সেই মূল দিকগুলিতে ইঙ্গিত করে এবং ইগেনভ্যালুগুলি আপনাকে দৈর্ঘ্য দেয়। ক্ষুদ্রতম ইগেনভ্যালুগুলি ন্যূনতম প্রকরণের সাথে পাতলা দিকগুলির সাথে সামঞ্জস্য করে, তাই এগুলি উপেক্ষা করে (যা তাদের সমতল ভেঙে দেয়) তুলনামূলকভাবে খুব কম তথ্য হারিয়ে ফেলে: এটি পিসিএ।

(1) সরলীকরণ (উপরে) ছাড়াও, আমাদের পীথিত বিবরণ, দৃশ্যায়ন এবং অন্তর্দৃষ্টি প্রয়োজন। মাত্রা হ্রাস করতে সক্ষম হওয়াই একটি ভাল জিনিস: এটি ডেটা বর্ণনা করা সহজ করে তোলে এবং যদি আমরা ভাগ্যবান হয় তবে সেগুলি তিন বা ততোধিক হ্রাস করতে পারি, আসুন আমরা একটি ছবি আঁকতে পারি। কখনও কখনও আমরা এমনকি চিত্রের স্থানাঙ্কগুলির দ্বারা উপস্থাপিত ডেটার সংমিশ্রণের ব্যাখ্যা করার জন্য দরকারী উপায়গুলিও খুঁজে পেতে পারি যা ভেরিয়েবলগুলির যৌথ আচরণের অন্তর্দৃষ্টি বহন করতে পারে।


চিত্রটি প্রতিটি মেঘের 50% এবং অক্ষগুলি মূল দিকের সাথে সংযুক্ত করে এলিপসয়েড সহ প্রতিটি পয়েন্টের কিছু মেঘ দেখায় । প্রথম সারিতে মেঘের মূলত একটি মূল উপাদান রয়েছে যা সমস্ত বৈকল্পের 95% সমন্বিত থাকে: এগুলি সিগার আকৃতি। দ্বিতীয় সারিতে মেঘের মূলত দুটি মূল উপাদান রয়েছে, একটিতে অন্যটির আকারের দ্বিগুণ, সমস্ত বিবর্তনের 95% একসাথে থাকে: এগুলি প্যানকেক আকার। তৃতীয় সারিতে তিনটি মূল উপাদানই বড় আকারের: এগুলি ডিমের আকার।200

পরিসংখ্যান

ক্লাস্টার বা টেন্ড্রিল বা আউটলিয়ার প্রদর্শন না করার অর্থে যে কোনও 3 ডি পয়েন্ট ক্লাউড "সুসংগত" এটি এর মধ্যে একটির মতো দেখাবে। যে কোনও থ্রিডি পয়েন্ট মেঘ - সমস্ত বিস্তৃত নয় বিন্দুযুক্ত - আরও ক্লাস্টারিং বা প্যাটার্নিং সনাক্তকরণের জন্য এই পরিসংখ্যানগুলির মধ্যে একটি দ্বারা প্রস্থানের প্রাথমিক পয়েন্ট হিসাবে বর্ণনা করা যেতে পারে ।

এই জাতীয় কনফিগারেশনগুলি বিবেচনা করে আপনি যে স্বজ্ঞাততা বিকাশ করেছেন তা উচ্চতর মাত্রায় প্রয়োগ করা যেতে পারে, যদিও এই মাত্রাগুলিটি কল্পনা করা কঠিন বা অসম্ভব।


2
এটি যুক্ত করার জন্য, যখন আপনার কাছে (কাছাকাছি) সমান সেমিয়াক্সেস থাকে (অর্থাত্ এলিপসাইডের একটি (কাছাকাছি) বৃত্তাকার স্লাইস থাকে) এটি নির্দেশ করে যে সেই অক্ষগুলির সাথে সম্পর্কিত ডেটার দুটি টুকরা (কাছাকাছি) নির্ভরতা রয়েছে; একটি উপবৃত্তের জন্য প্রধান অক্ষ সম্পর্কে কথা বলতে পারে, তবে চেনাশোনাগুলির মধ্যে কেবল একটি ব্যাসার্ধ থাকে। :)
জেএম

6
আমি এখানে আরও সতর্ক হতে চাই, জেএম ফার্স্ট, কেবল স্পষ্ট করে বলতে গেলে, "নিকট-নির্ভরতা" দ্বারা আপনার অবশ্যই বোঝানো উচিত "প্রায় স্বতন্ত্র"। এটি বহুজাতিক বৈকল্পিকের ক্ষেত্রে সত্য হতে পারে তবে অনেক ক্ষেত্রে পিসিএ এমন ডেটা দিয়ে সম্পাদিত হয় যা স্পষ্টত অস্বাভাবিক হয়। প্রকৃতপক্ষে, কিছু পিসিএ গণনা অনুসরণ করে যে ক্লাস্টারিং বিশ্লেষণগুলি অ-স্বাভাবিকতার শক্তিশালী রূপটি মূল্যায়নের এক উপায় হিসাবে দেখা যেতে পারে। গাণিতিকভাবে, চেনাশোনা না প্রধান অক্ষ আছে, কিন্তু তারা শুধু স্বতন্ত্র নির্ভর নয়: আপনি তাদের প্রধান অক্ষ যেমন ব্যাসার্ধ কোন লম্ব যুগল বেছে নিতে পারেন।
হোবার

1
হ্যাঁ, দুঃখিত, আমি মনে করি যে "একটি বৃত্তের মূল অক্ষগুলি অনির্দিষ্ট হয়" এটিকে রাখার আরও ভাল উপায় হতে পারত।
জেএম

2
খুব সুন্দর ব্যাখ্যা! এটি আরও ভাল করে বোঝার চেষ্টা করা হচ্ছে .. পিসিএ গণিতে কোথায় দেখা যায় যে "পিসিএ ডেটাতে একটি উপবৃত্ত ফিট করে"?
কোচেদে

4
@ কোচেড একটি এলিপসয়েড একটি চতুষ্কোণ রূপের একটি কনট্যুর। কোভেরিয়েন্স ম্যাট্রিক্স একটি চতুর্ভুজ রূপ। পিসিএ এর অক্ষ এবং তাদের দৈর্ঘ্য সনাক্ত করে।
whuber

106

হুম, এখানে পিসিএ-তে সম্পূর্ণ অ-গাণিতিক গ্রহণের জন্য ...

আপনি সবেমাত্র একটি সিডারের দোকান খোলার কল্পনা করুন। আপনার 50 টি সিডার রয়েছে এবং আপনি কীভাবে তা তাকগুলিতে বরাদ্দ করবেন তা নিয়ে আপনি কাজ করতে চান, যাতে একই ধরণের টেস্টিং সিডার একই শেল্ফে রাখা হয়। সিডারে প্রচুর স্বাদ এবং টেক্সচার রয়েছে - মিষ্টিতা, স্বচ্ছলতা, তিক্ততা, খামিরতা, ফলদায়কতা, স্পষ্টতা, বিব্রততা ইত্যাদি So তাই বোতলগুলিকে বিভাগগুলিতে রাখার জন্য আপনার যা করা দরকার তা হল দুটি প্রশ্নের উত্তর:

1) সিডার গ্রুপ সনাক্ত করার জন্য কোন গুণাবলী সবচেয়ে গুরুত্বপূর্ণ? উদাহরণস্বরূপ, মিষ্টতার ভিত্তিতে শ্রেণিবদ্ধকরণ কী ফলদায়কতার উপর ভিত্তি করে শ্রেণিবদ্ধকরণের চেয়ে আপনার সিডারগুলিকে সমান-স্বাদযুক্ত গোষ্ঠীতে ক্লাস্টার করা সহজ করে?

2) আমরা কিছু পরিবর্তন করে আমাদের ভেরিয়েবলের তালিকাটি হ্রাস করতে পারি? উদাহরণস্বরূপ, "খামির এবং স্বচ্ছতা এবং মাথা ঘোরা" এর কিছু সংমিশ্রণে এমন একটি পরিবর্তনীয় আছে যা বিভিন্ন শ্রেণীর শ্রেণিবদ্ধকরণের জন্য সত্যই ভাল স্কেল তৈরি করে?

এটি মূলত পিসিএই করে। প্রধান উপাদানগুলি এমন ভেরিয়েবল যা কার্যকরভাবে একটি ডেটা সেটে পরিবর্তনের ব্যাখ্যা দেয় - এই ক্ষেত্রে, গ্রুপগুলির মধ্যে কার্যকরভাবে পার্থক্য করে। প্রতিটি মূল উপাদান আপনার মূল ব্যাখ্যামূলক ভেরিয়েবলগুলির মধ্যে একটি বা আপনার কিছু মূল ব্যাখ্যামূলক ভেরিয়েবলের সংমিশ্রণ।


4
আইজেনভেেক্টর এবং ইগেনভ্যালুগুলির কী হবে?
Ηλίας

3
ঠিক আছে: প্রতিটি মূল উপাদানগুলির সাথে যুক্ত ইগেনভ্যালু আপনাকে জানায় যে ডেটা সেটে এটির পরিমাণের বিভিন্নতা কীভাবে এটি ব্যাখ্যা করে (আমার উদাহরণে এটি কীভাবে পরিষ্কারভাবে আপনার বোতলগুলিকে দলে বিভক্ত করে)। এগুলি সাধারণত ডেটা সেটে মোট ভিন্নতার শতাংশ হিসাবে প্রকাশিত হয়। ইগেনভেেক্টরদের ক্ষেত্রে, ঠিক আছে, সেখানেই নখ বলেছে যে আমি কোনও মেশিনের মতো বিশ্লেষণের আউটপুটটি অনুসরণ করি;) আমার মাথায়, তারা ভিনসের মোবাইলকে কীভাবে তার 'সেরা' অভিমুখে ঘোরান তার সাথে সম্পর্কিত, তবে এটি সম্ভবত এটি নাও হতে পারে তাদের চিন্তা করার সঠিক উপায়।
ফ্রেইয়া হ্যারিসন

17
ইগেনভেেক্টরগুলি মূল ভেরিয়েবলগুলির কেবল লিনিয়ার সংমিশ্রণ (সরল বা ঘোরানো ফ্যাক্টর স্পেসে); তারা বর্ণনা করে যে কীভাবে ভেরিয়েবল প্রতিটি ফ্যাক্টরের অক্ষকে "অবদান" করে। মূলত, পিসিএকে নতুন অক্ষ তৈরির উপায় হিসাবে ভাবেন যা সর্বাধিক বৈকল্পের দিক নির্দেশ করে (মূল পরিবর্তনশীল জায়গাতে), যেমন ইগেনভ্যালু দ্বারা প্রকাশ করা হয়েছে, এবং কীভাবে ভেরিয়েবলের অবদান এই নতুন স্থানটিতে ওজনযুক্ত বা রৈখিকভাবে রূপান্তরিত হয়।
chl

এই সমস্যাটির সমবায় ম্যাট্রিক্স কেমন হবে? এটি ভেরিয়েবলগুলি সম্পর্কে আমাদের কী বলে (মিষ্টিতা, তাত্পর্য, তিক্ততা, খামিরতা, ফলসজ্জা, স্পষ্টতা, বিব্রততা ইত্যাদি)?
জাস্টকুরিয়াস

1
আমি জানি না এটি পরিসংখ্যানবিদ এবং অ্যালকোহলযুক্ত পানীয় সম্পর্কে কী, তবে হুইস্কি
শ্রেণিবদ্ধ

96

আমি "সাধারণ লোকের শর্তাবলীতে" এই উত্তর দিয়ে উত্তর দিয়েছিলাম যে পিসিএ ডেটা পয়েন্টগুলির সাথে সোজা লাইন ফিট করে (সবাই জানে যে একটি সরল রেখাটি কী)। আমরা এই সরলরেখাকে "মূল উপাদানগুলি" বলি। ভেরিয়েবল হিসাবে অনেকগুলি মূল উপাদান রয়েছে। প্রথম মূল উপাদানটি হ'ল সেরা সোজা লাইন যা আপনি ডেটাতে ফিট করতে পারেন। দ্বিতীয় প্রধান উপাদানটি হ'ল সেরা সরল রেখা যা আপনি প্রথম প্রধান উপাদান থেকে ত্রুটির সাথে মাপসই করতে পারেন। তৃতীয় প্রধান উপাদানটি হ'ল প্রথম সরল রেখা যা আপনি প্রথম এবং দ্বিতীয় প্রধান উপাদানগুলি ইত্যাদির ত্রুটিগুলির সাথে ফিট করতে পারেন etc.

যদি কেউ আপনাকে "সেরা" বা "ত্রুটি" বলতে বোঝায়, তবে এটি আপনাকে বলবে যে তারা "সাধারণ মানুষ" নয়, তাই কিছুটা প্রযুক্তিগত বিশদ যেমন লম্ব ত্রুটিগুলিতে যেতে পারে, ত্রুটিটি কোথায় আছে তা জানেন না x- বা y- দিক নির্দেশনা, 2 বা 3 টির বেশি মাত্রা ইত্যাদি Further এছাড়াও আপনি যদি ওএলএসের প্রতিরোধের বিষয়টি উল্লেখ না করেন (যা "সাধারণ মানুষ সম্ভবত বুঝতে পারে না") ব্যাখ্যাটি আরও সহজ।

ইগেনভেেক্টর এবং ইগেনভ্যালুগুলির প্রতি সেপ্টেম্বর ধারণার প্রয়োজন হয় না, বরং এগুলি ইতিমধ্যে বিদ্যমান গাণিতিক ধারণা হিসাবে ঘটেছিল। আপনি যখন পিসিএর গাণিতিক সমস্যাটি সমাধান করেন, এটি সমবায় ম্যাট্রিক্সের ইগেনভ্যালু এবং ইগেনভেেক্টর সন্ধানের সমতুল্য হয়।


8
+1, এটি সত্যই "সাধারণ মানুষের পদ" -এর মধ্যে রয়েছে এবং আমি জানি আপনি যদি এটি চান তবে আপনি এটি খুব কঠোরভাবে অর্জন করতে পারেন!
গাং

2
এখন পর্যন্ত সেরা উত্তর, আমি বলব। এবং আমি পিসিএ অনেক ব্যবহার করি।
এমএসপি

2
বাহ - এটি সত্যিই দুর্দান্ত এবং সাধারণ ব্যাখ্যা! ধন্যবাদ!
নিক

52

আমি আপনাকে পিসিএর নিজস্ব ব্যাখ্যা / প্রমাণ দিতে পারি, যা আমি মনে করি সত্যই সহজ এবং মার্জিত, এবং লিনিয়ার বীজগণিতের প্রাথমিক জ্ঞান ব্যতীত অন্য কোনও কিছুর প্রয়োজন হয় না। এটি বেশ দীর্ঘায়িত হয়েছে, কারণ আমি সহজ অ্যাক্সেসযোগ্য ভাষায় লিখতে চেয়েছিলাম।

Mnn

βββi=1Mxiμ2μ0xi=xiμi=1Mxi2

এখন লাইনের পছন্দ। আমরা কোনও রেখাকে পয়েন্টের সেট হিসাবে বর্ণনা করতে পারি যা কিছু ভেক্টর জন্য সমীকরণটি পূরণ করে । মনে রাখবেন যদি আমরা কিছু ভেক্টর দ্বারা রেখা সরাতে লম্ব করার , তারপর লাইনে সব অনুমান এছাড়াও দ্বারা সরানো হবে , অত অনুমান গড় দ্বারা সরানো হবে , অত অনুমান ভ্যারিয়েন্স অপরিবর্তিত থাকবে। তার মানে আমরা লাইনটি নিজের সাথে সমান্তরাল সরাতে পারি এবং এই লাইনে অনুমানের বৈচিত্রটি পরিবর্তন করতে পারি না। আবার সুবিধার্থে আসুন আমরা কেবল শূন্য পয়েন্টের মধ্য দিয়ে যাওয়া লাইনগুলিতে সীমাবদ্ধ করি (এর অর্থ দ্বারা বর্ণিত লাইন )।x=αv+wv,wγvγγx=αv

ঠিক আছে, এখন ধরা যাক আমাদের কাছে একটি ভেক্টর যা এমন একটি লাইনের দিকের বর্ণনা দেয় যা আমরা অনুসন্ধান করা লাইনের সম্ভাব্য প্রার্থী। লাইনে আমাদের অনুমানগুলির বৈকল্পিক গণনা করতে হবে । আমাদের যা প্রয়োজন হবে তা হ'ল প্রোজেকশন পয়েন্ট এবং তার গড়। রৈখিক বীজগণিত থেকে আমরা জানি যে এই সহজ ক্ষেত্রে প্রজেকশন উপর হয় । আসুন এখন থেকে কেবলমাত্র কেবল ইউনিট ভেক্টরগুলিতে সীমাবদ্ধ করা যাক । তার মানে আমরা বিন্দু প্রজেকশন দৈর্ঘ্য লিখতে পারেন উপর কেবল যেমন ।vαvxiαvxi,v/v2vxivxi,v

পূর্ববর্তী কয়েকটি উত্তরে কেউ বলেছিলেন যে পিসিএ নির্বাচিত লাইন থেকে দূরত্বের বর্গাকার যোগফলকে হ্রাস করে। আমরা এখন এটি সত্য দেখতে পাচ্ছি, কারণ নির্বাচিত লাইন থেকে অনুমানের স্কোয়ারের সমষ্টি এবং দূরত্বের বর্গাকার যোগফল পয়েন্ট থেকে দূরত্বের স্কোয়ারের সমান । অনুমানের স্কোয়ারের সমষ্টিকে সর্বাধিক করে আমরা দূরত্ব এবং তদ্বিপরীত বর্গের যোগফলকে হ্রাস করি, তবে এটি এখন একটি প্রমাণিত বিবেচনার দিক থেকে ফিরে এসেছিল proof0

অনুমানগুলির গড় হিসাবে, আসুন লক্ষ্য করুন যে আমাদের জায়গার কয়েকটি অরথোগোনাল ভিত্তির অংশ, এবং আমরা যদি সেই ভিত্তির প্রতিটি ভেক্টরের উপর আমাদের ডেটা পয়েন্টগুলি প্রজেক্ট করি তবে তাদের যোগফল বাতিল হয়ে যাবে (এটি এরকম কারণ কারণ ভিত্তি থেকে ভেক্টরগুলি নতুন অर्थোগোনাল ভিত্তিতে ডেটা পয়েন্ট লেখার মতো)। সুতরাং ভেক্টর সমস্ত অনুমান এর সমষ্টি (এর সমষ্টি কল দিন এবং ভিত্তি থেকে অন্য ভেক্টর উপর অনুমান এর সমষ্টি) (এটা কল দিন ,) 0, কারণ এটা উপর ভিত্তি করে বিন্দুর অর্থ। তবে কাছে ! এর অর্থ ।vvSvSoSvSoSo=Sv=0

সুতরাং আমাদের অনুমানের গড় । 0ঠিক আছে, এটি সুবিধাজনক, কারণ এর অর্থ হ'ল বৈকল্পিকতা কেবলমাত্র দৈর্ঘ্যের অনুমানের স্কোয়ারের যোগফল বা চিহ্নগুলির মধ্যে

i=1M(xiv)2=i=1MvTxiTxiv=vT(i=1MxiTxi)v.

ভাল ভাল, হঠাৎ covariance ম্যাট্রিক্স পপ আউট। এর দ্বারা সহজভাবে বোঝান । এর অর্থ আমরা এখন একটি ইউনিট ভেক্টর যা কিছু আধা-পজিটিভ নির্দিষ্ট ম্যাট্রিক্স জন্য সর্বাধিক করে ।XvvTXvX

এখন, ম্যাট্রিক্স এবং ইগেনভ্যালু নেওয়া যাক এবং এবং দ্বারা চিহ্নিত করুন , যেমন । মান যদি সদৃশ না করে তবে ইগেনভেেক্টরগুলি একটি অর্থোনের ভিত্তি তৈরি করে। যদি তারা তা করে, তবে আমরা ইগেনভেেক্টরগুলিকে এমনভাবে চয়ন করি যাতে তারা একটি অর্থকেন্দ্রিক ভিত্তি তৈরি করে।Xe1,e2,,enλ1,,λnλ1λ2,λ3λ

এখন একটি আইজেনভে জন্য গণনা করা । আমাদের কাছেvTXvei

eiTXei=eiT(λiei)=λi(ei2)2=λi.

খুব ভাল, এটি আমাদেরকে জন্য দেয় । এখন আসুন একটি নির্বিচারে ভেক্টর । যেহেতু ইগেনভেেক্টরগুলি একটি অর্থনোমর্মাল ভিত্তি গঠন করে, আমরা লিখতে পারি এবং আমাদের । আসুন বোঝান ।λ1e1vv=i=1neiv,eii=1nv,ei2=1βi=v,ei

এখন গণনা করা যাক । আমরা কে রৈখিক সংমিশ্রণ হিসাবে আবার , এবং পাই:vTXvvei

(i=1nβiei)TX(i=1nβiei)=(i=1nβiei)(i=1nλiβiei)=i=1nλi(βi)2(ei2)2.

শেষ সমীকরণটি আইজেনভেেক্টরগুলি থেকে আসে যেখানে জোড়াযুক্ত অর্থোগোনাল হতে বেছে নেওয়া হয়েছিল, সুতরাং তাদের বিন্দুর পণ্যগুলি শূন্য। এখন, যেহেতু সমস্ত ইগেনভেেক্টরগুলিও ইউনিট দৈর্ঘ্যের, তাই আমরা , যেখানে সমস্ত ধনাত্মক, এবং সমষ্টি ।vTXv=i=1nλiβi2βi21

এর মানে হল যে প্রক্ষেপণের বৈচিত্রটি ইগেনালুগুলির একটি ভারিত গড়। অবশ্যই, এটি সর্বদা বৃহত্তম ইগেনুয়ালুও কম হয়, এজন্য এটি প্রথম পিসিএ ভেক্টরের আমাদের পছন্দ হওয়া উচিত।

এখন ধরা যাক আমরা অন্য ভেক্টর চাই আমাদের এটিকে স্থান থেকে ইতিমধ্যে বেছে নেওয়া একটিতে বেছে নেওয়া উচিত, এর অর্থ । আমরা এই সিদ্ধান্তে পৌঁছে যাই যে, প্রকল্পের জন্য সেরা ভেক্টর হ'ল । এবং তাই, এবং আরও ...lin(e2,e3,,en)e2

যাইহোক, এটি এখন পরিষ্কার হওয়া উচিত, কেন বৈকল্পিকতা ধরে রাখা দ্বারা প্রকাশ করা যেতে পারে ।i=1kλi/i=1nλi

আমাদের ভেক্টরগুলির লোভী পছন্দকেও ন্যায়সঙ্গত করা উচিত। যখন আমরা প্রজেক্টের জন্য ভেক্টরগুলি বেছে নিতে চাই , প্রথমে সেরা ভেক্টরটি বেছে নেওয়া ভাল ধারণা নাও হতে পারে, তারপরে যা রয়েছে তার থেকে সেরা। আমি যুক্তি দিতে চাই যে এই ক্ষেত্রে এটি ন্যায়সঙ্গত এবং কোনও পার্থক্য রাখে না। বোঝাতে দেয় ভেক্টর আমরা দ্বারা সম্মুখের প্রকল্প করতে ইচ্ছুক । এছাড়াও, ধরে নেওয়া যাক ভেক্টরগুলি জোড়মুখী অরথোগোনাল। যেমনটি আমরা ইতিমধ্যে জানি, ve সংখ্যক ভেক্টরগুলির উপর অনুমানের মোট বৈকল্পিকতা যেখানেkkv1,,vk

j=1ki=1nλiβij2=i=1nλiγi
γi=j=1kβij2.

এখন, লিখুন কিছু orthonormal ভিত্তিতে যে অন্তর্ভুক্ত । এর মত ভিত্তিতে বাকি বোঝাতে যাক । আমরা দেখতে পাচ্ছি যে । কারণ , আমাদের এবং তাই সকলের জন্য ।eiv1,,vku1,,unkei=j=1kβijvj+j=1nkθjei,ujei2=1j=1kβij2+j=1nkθj2=1γi1i

এখন কেবলমাত্র একটি ভেক্টরের সাথে আমাদের একইরকম কেস রয়েছে, আমরা এখন জানি যে অনুমানের মোট এবং সহ । এটি আর একটি ওজনযুক্ত গড় এবং এটি অবশ্যই চেয়ে বেশি নয় যা বৃহত্তম ইগেনুভ্যালুগুলির সাথে সম্পর্কিত ইগেনভেেক্টরগুলিতে প্রজেক্ট করার সাথে সম্পর্কিত।i=1nλiγiγi1i=1nγi=ki=1kλik


2
+1 খুব সুন্দর উত্তর! এখনও এটি পুরোপুরি পড়া হয়নি, তবে আপনার উত্তরটি আমি যে ধরণের সন্ধান করেছি is সমস্ত পদক্ষেপ ব্যাখ্যা করা হয়েছে =)
jjepsuomi

9
আমাকে এমন একজন লেইম্যান দেখান যিনি বুনিয়াদি লিনিয়ার বীজগণিত জানেন এবং আমি আপনাকে একটি গণিতের স্নাতক দেখাব।
সম্ভাব্যতাব্লোগিক

রৈখিক বীজগণিত থেকে আমরা জানি প্রজেকশন যে এই সহজ ক্ষেত্রে উপর হয়xiαvxi,v/v2 (5 ম অনুচ্ছেদ)। এটি? অন্য কথায়, স্কেলার প্রক্ষেপণ? xi,v/v
আন্তনি পরল্লদা

1
আমি মনে করি এটি এখন পর্যন্ত পিসিএর জন্য সবচেয়ে ভাল ব্যাখ্যা। ধন্যবাদ.
নিমিটজ 14

1
এটি আমার প্রিয় ব্যাখ্যা যা এজনভেেক্টরগুলি কেন বৈচিত্রকে সর্বাধিক করে তোলে তাও দেখায় ।
রোমওয়েল

47

ঠিক আছে, আমি এই চেষ্টা করে দেখুন। কয়েক মাস আগে আমি একটি অ-পরিসংখ্যানবিদকে ব্যাখ্যা করতে পারলাম এমন একটি স্বজ্ঞাত ব্যাখ্যা দেওয়ার জন্য আমি প্রচুর পরিমাণে সাহিত্যের খনন করেছি। আমি ল্যাঞ্জ্রেঞ্জ গুণককে সবচেয়ে স্বজ্ঞাত ব্যবহার করে এমন উপকরণগুলি পেয়েছি।

ধরা যাক আমাদের উচ্চ মাত্রার ডেটা রয়েছে - একটি পোকামাকড়ের 30 টি পরিমাপ করে বলুন। এই কয়েকটি মাত্রায় বাগগুলি বিভিন্ন জিনোটাইপগুলি এবং কিছুটা পৃথক শারীরিক বৈশিষ্ট্য ধারণ করে, তবে এই জাতীয় উচ্চ মাত্রার ডেটা সহ কোন পোকার কোন গ্রুপের অন্তর্ভুক্ত তা বলা মুশকিল।

পিসিএ হ'ল মাত্রা হ্রাস করার কৌশল:

  1. মূল ভেরিয়েবলের লিনিয়ার সংমিশ্রণ গ্রহণ করা।
  2. প্রতিটি লিনিয়ার সংমিশ্রণ এটির উপাত্তগুলিতে সর্বাধিক বৈচিত্র্য ব্যাখ্যা করে।
  3. প্রতিটি লিনিয়ার সংমিশ্রণ অন্যদের সাথে অসংযুক্ত থাকে

বা, গাণিতিক শর্তাবলী:

  1. জন্য (jth উপাদান জন্য রৈখিক সমন্বয়)Yj=ajx
  2. জন্য , (প্রথম উপাদান আরো প্রকরণ ব্যাখ্যা)k>jV(Yk)<V(Yj)
  3. akaj=0 (অরথোগোনালিটি)

এই সীমাবদ্ধতাগুলি পূরণ করে এমন লিনিয়ার সংমিশ্রণগুলি সন্ধান করা আমাদের ইগুভ্যালুতে নিয়ে যায়। কেন?

আমি সম্পূর্ণ ডাইরিভিশন (পৃষ্ঠা 50) এর জন্য একটি পরিচিতির মাল্টিভারিয়েট ডেটা অ্যানালাইসিস বইটি যাচাই করার পরামর্শ দিচ্ছি , তবে মূল ধারণাটি ক্রমবর্ধমান অপ্টিমাইজেশান সমস্যাগুলি (সর্বাধিক বৈকল্পিককরণ) এরকম আবশ্যক যে a'a = 1 সহগের জন্য a (কেস প্রতিরোধের জন্য) যখন বৈকল্পিকতা অসীম হতে পারে) এবং সহগগুলি অরথোগোনাল কিনা তা নিশ্চিত করতে বাধ্য হন।

এটি ল্যাঞ্জারেঞ্জ গুণকগুলির সাথে অপ্টিমাইজেশনের দিকে পরিচালিত করে, যার ফলে ইগেনভ্যালুগুলি কেন ব্যবহৃত হয় তা প্রকাশিত হয়। আমি এটি টাইপ করতে খুব অলস আছি (দুঃখিত!) তবে এই পিডিএফটি প্রমাণটি দিয়ে চলেছে এদিক থেকে goes

আমি কখনই আমার ঠাকুরমার কাছে এটি বোঝানোর চেষ্টা করব না, তবে যদি আমি মাত্রিক হ্রাস কৌশল সম্পর্কে সাধারণত কথা বলতে চাই, তবে আমি এই তুচ্ছ প্রজেকশন উদাহরণটি (পিসিএ নয়) উল্লেখ করব। মনে করুন আপনার কাছে একটি কলডার মোবাইল রয়েছে যা খুব জটিল। 3-ডি স্পেসের কিছু পয়েন্ট একে অপরের কাছাকাছি, অন্যগুলি হয় না। যদি আমরা এই মোবাইলটি সিলিং থেকে ঝুলিয়ে রাখি এবং এটিতে একটি কোণ থেকে আলো জ্বালিয়ে তুলি তবে আমরা একটি নিম্ন মাত্রা সমতল (একটি 2-ডি প্রাচীর) এ প্রক্ষেপণ পাই। এখন, যদি এই মোবাইলটি মূলত একদিকে প্রশস্ত হয় তবে অন্য দিকে চর্মসার হয় তবে আমরা দরকারীতার সাথে পৃথক অনুমানগুলি পেতে এটি ঘোরান। স্বজ্ঞাতভাবে, একটি প্রাচীরের উপরে অনুমিত একটি মাত্রায় চর্মসার আকার কম দরকারী - সমস্ত ছায়াচ্ছন্নতা ওভারল্যাপ হয় এবং আমাদের বেশি তথ্য দেয় না। যাইহোক, আমরা যদি এটি ঘোরাই তবে আলোটি প্রশস্ত দিকের দিকে জ্বলছে, আমরা হ্রাস মাত্রা ডেটার একটি আরও ভাল চিত্র পাই - পয়েন্টগুলি আরও ছড়িয়ে পড়ে। এটি প্রায়শই আমরা চাই। আমার মনে হয় আমার দাদি বুঝতে পেরেছিলেন :-)


6
এটি খুব সাধারণ লোক ;-)

2
এটি সামান্য ম্যাথি তবে কোনও কিছু বোঝার সর্বোত্তম উপায় হ'ল এটি ive
ভিনস

29
আপনার একটি ব্যতিক্রমী সুশিক্ষিত দাদী রয়েছে :-)।
whuber

7
আমি 3-ডি কাঠামোর উপর আলোকিত আলো দিয়ে ব্যাখ্যাটি পছন্দ করি
নীল ম্যাকগুইগান

(+1) সমস্ত দুর্দান্ত উত্তর তবে এটি আমিও দিয়ে দেব।
ডিজিও

37

প্রযুক্তিবিহীন হওয়ার চেষ্টা করা হচ্ছে ... কল্পনা করুন আপনার কাছে মাল্টিভারিয়েট ডেটা রয়েছে, পয়েন্টগুলির বহুমাত্রিক মেঘ। আপনি যখন (ক) মেঘকে কেন্দ্র করে তাদের কোভেরিয়েন্স ম্যাট্রিক্স গণনা করেন, অর্থাত্ মূলটিকে বহুমাত্রিক হিসাবে চিহ্নিত করেন, স্থানাঙ্কিত সিস্টেম অক্ষগুলি এখন মেঘের কেন্দ্রস্থলে অতিক্রম করে, (খ) মেঘের আকৃতি সম্পর্কে তথ্য এনক্রিপ্ট করে এবং কীভাবে স্থানটিতে এটি বৈচিত্র্য-কোভারিয়েন্স এন্ট্রিগুলির দ্বারা কেন্দ্রিক হয়। সুতরাং, সামগ্রিকভাবে ডেটার আকৃতি সম্পর্কে বেশিরভাগ গুরুত্বপূর্ণ তথ্যটি কোভেরিয়েন্স ম্যাট্রিক্সে সঞ্চিত থাকে।

তারপরে আপনি সেই মার্ট্রিক্সের ইগেন-পচাটি করেন এবং ইগেনভ্যালুগুলির তালিকা এবং ইগেনভেেক্টরের সম্পর্কিত সংখ্যার তালিকা পান obtain এখন, 1 ম মূল উপাদানটি হ'ল নতুন, সুপ্ত পরিবর্তনশীল যা মেঘের সর্বাধিক বৈকল্পিকতা (বেধ) এর দিক বরাবর অরিজিন্টের মধ্য দিয়ে যাচ্ছে এবং অক্ষ হিসাবে প্রদর্শিত হবে। এই অক্ষ বরাবর ভ্যারিয়েন্স, IE এটা সব পয়েন্ট স্থানাঙ্ক ভ্যারিয়েন্স, হয়প্রথম ইগ্যালভ্যালু এবং মূল অক্ষটি (ভেরিয়েবল) এর সাথে উল্লিখিত স্থানের অক্ষের অরিয়েন্টেশনটি 1 ম ইগেনভেেক্টর দ্বারা সংজ্ঞায়িত করা হয়: এর এন্ট্রিগুলি এটির এবং সেই মূল অক্ষগুলির মধ্যে থাকা কোসাইনগুলি। 1 ম উপাদানটিতে ডেটা পয়েন্টগুলির পূর্বোক্ত স্থানাঙ্কগুলি হ'ল 1 ম মূল উপাদান বা মান স্কোর; এগুলি (কেন্দ্রিক) ডেটা ম্যাট্রিক্স এবং ইগেনভেেক্টরের পণ্য হিসাবে গণনা করা হয়।

"পরে" 1 ম জনসংযোগ উপাদানটি পরিমাপ করা গেল এটি, মেঘ থেকে তার সমস্ত বিবিধ পরিবর্তনের সাথে "মুছে ফেলা" এবং মেঘের মাত্রিকতা একের সাথে কমেছে। এরপরে, দ্বিতীয় ইজিভালু এবং দ্বিতীয় ইগেনভেেক্টর - দ্বিতীয় জনসংযোগ দিয়ে সবকিছু পুনরাবৃত্তি করা হয়। উপাদান রেকর্ড করা হচ্ছে, এবং তারপরে "সরানো"। প্রভৃতি

সুতরাং, আবারও: ইগেনভেেক্টরগুলি মূল উপাদানগুলির জন্য দিকের কোসাইন, অন্যদিকে ইগেনভ্যালুগুলি মূল উপাদানগুলির দৈর্ঘ্য (প্রকরণ) হয়। সমস্ত ইগেনভ্যালুগুলির যোগফল বৈচিত্রের সমষ্টি সমান যা ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সের ত্রিভুজের উপর রয়েছে। যদি আপনি "ম্যাগনিটুডিনাল" তথ্যটি ইগেনভ্যালুগুলিতে সঞ্চিত "প্রাচ্য" সংক্রান্ত তথ্যের সাথে যুক্ত করার জন্য ইগেনভেয়েটরে সঞ্চিত করেন তবে আপনাকে যা মূল উপাদান লোডিং বলা হয় তা পাবেন ; এই লোডিংগুলি - কারণ এগুলি উভয় ধরণের তথ্য বহন করে - হ'ল মূল ভেরিয়েবল এবং প্রধান উপাদানগুলির মধ্যে সমবায়।

পরে পিএস আমি বিশেষত ইগেনভেেক্টর এবং লোডিংয়ের মধ্যে টার্মিনোলজিক পার্থক্যটি এখানে দুটিবার চাপ দিতে চাই । অনেক লোক এবং কিছু প্যাকেজ (কয়েকটি সহ R) স্বতঃস্ফূর্তভাবে দুটি পদটি বিনিময়যোগ্যভাবে ব্যবহার করে। এটি একটি খারাপ অনুশীলন কারণ বস্তু এবং তার অর্থ পৃথক। ইগেনভেেক্টরগুলি হ'ল দিকের কোসাইন, অর্টোগোনাল "রোটেশন" এর কোণ যা পিসিএ সমান। লোডিংগুলি আবর্তিত তথ্যের পরিবর্তনশীলতা বা তাত্পর্য সম্পর্কে তথ্যের সাথে ইনোকুলেটেড ইগেনভেেক্টর। লোডিংগুলি উপাদান এবং ভেরিয়েবলগুলির মধ্যে অ্যাসোসিয়েশন সহগ হয় এবং তারা সরাসরি ভেরিয়েবল - কোভেরিয়েন্স, পারস্পরিক সম্পর্ক বা অন্যান্য স্কেলারের পণ্যগুলির মধ্যে সংযুক্ত অ্যাসোসিয়েশন সহগের সাথে তুলনা করতে পারে are, যা আপনি আপনার পিসিএ বেস। ইগেনভেেক্টর এবং লোডিং উভয় ক্ষেত্রেই একইরকম যে তারা উপাদানগুলির মাধ্যমে ভেরিয়েবলগুলি পূর্বাভাস দেওয়ার ক্ষেত্রে রিগ্রেশনাল কো-ফলসটি সরবরাহ করে (বিপরীতে নয়!1)। ইগেনভেেক্টরগুলি কাঁচা উপাদান স্কোর দ্বারা ভেরিয়েবলের পূর্বাভাসের সহগ হয়। লোডিংগুলি স্কেলড (নরমালাইজড) উপাদান স্কোর দ্বারা ভেরিয়েবলের পূর্বাভাসের সহগ হয় (আশ্চর্যের কিছু নেই: লোডিংগুলি ভেরিয়েবলের উপর তাত্পর্যপূর্ণ তথ্য পেয়েছে, ফলস্বরূপ, ব্যবহৃত উপাদানগুলি এটি থেকে বঞ্চিত হতে হবে)। ইগেনভেেক্টর এবং লোডিংয়ের মিশ্রণ না করার আরও একটি কারণ হ'ল পিসিএ ছাড়া কিছু অন্যান্য মাত্রিকতা হ্রাসের টেকিকগুলি - যেমন ফ্যাক্টর বিশ্লেষণের কিছু ফর্ম - গণনা লোডিংগুলি সরাসরি, ইগেনভেেক্টরগুলিকে বাইপাস করে। ইগেনভেেক্টরগুলি ইগেন-পচন বা একক-মান পচনের পণ্য; ফ্যাক্টর বিশ্লেষণের কিছু ফর্মগুলি এই ক্ষয়গুলি ব্যবহার করে না এবং লোডিংগুলিতে চারপাশে পৌঁছায়। অবশেষে, এটি লোডিংস, আইজেনভেেক্টর নয়, যার সাহায্যে আপনি উপাদান বা উপাদানগুলি ব্যাখ্যা করেন (যদি আপনাকে সেগুলি ব্যাখ্যা করার প্রয়োজন হয়)। লোডিং একটি ভেরিয়েবলের উপাদানগুলির অবদান সম্পর্কে: পিসিএতে (বা ফ্যাক্টর বিশ্লেষণ) উপাদান / ফ্যাক্টর নিজেকে ভেরিয়েবলের মধ্যে লোড করে, বিপরীতে নয়। একটি বিস্তৃত পিসিএ ফলাফলের মধ্যে একজনকে ইগেনভেেক্টর এবং লোডিং উভয়ই প্রতিবেদন করা উচিত, যেমন উদাহরণ হিসাবে দেখানো হয়েছেএখানে বা এখানে

লোডিং বনাম ইগেনভেেক্টর সম্পর্কেও দেখুন


1 যেহেতু পিসিএতে ইগেনভেেক্টর ম্যাট্রিক্স অর্থোন্নাল এবং এর বিপরীতটি এর ট্রান্সপোজ, তাই আমরা বলতে পারি যে সেই একই আইজেনভেেক্টরগুলিও ভেরিয়েবলগুলির দ্বারা উপাদানগুলির পূর্বাভাস দেওয়ার সহগ হয়। যদিও এটি লোডিংয়ের জন্য নয়।


@ আমেবা, আমি জোর দিচ্ছি না এবং আপনি যে কোনও পরিভাষা ব্যবহার করতে পারেন তা ব্যবহার করতে পারেন। আমি কেন "লোডিংস" এবং "আইজেনভেেক্টর" শব্দটি আলাদা রাখাই ভাল বলে মনে করি তা স্পষ্টভাবে ব্যাখ্যা করেছি। আমি ক্লাসিক traditionতিহ্য অনুসরণ করি, যেমন হারমানের মতো। আধুনিক ফ্যাক্টর বিশ্লেষণ, কেবল যদি আমি Iতিহ্যটি সঠিকভাবে মনে করি।
ttnphns

(চালিয়ে যাওয়া) যাইহোক, আপনি নিজেরাই জানেন যে "লোডিংস" শব্দটি যদিও আসলেই বেশ সন্দেহজনক, তবুও বৈষম্যমূলক বিশ্লেষণের মতো অন্যান্য বহুবিধ বিশ্লেষণে "ইগেনভেেক্টর" এর সাথে মিশে যায় না। আবার, যেমন আমি এটি রেখেছি, পিসিএ লোডিংগুলিতে 1) পরিবর্তনের পরিমাণ সম্পর্কে তথ্য অন্তর্ভুক্ত করুন; 2) সমবায় / সংযুক্তি, এবং তাই ব্যাখ্যা জন্য ব্যবহৃত হয়। আইজেনভেেক্টর মান - হয় না।
ttnphns

2
+1 আমি পিসিএ এবং অন্যান্য সম্পর্কিত বিষয়ে আপনার পোস্টগুলি পড়ছি এবং অনেক কিছু শিখেছি।
আন্তনি পরল্লদা

29

ঠিক আছে, একটি সম্পূর্ণ অ গণিত উত্তর:

আপনার যদি গুচ্ছ বিষয়ের উপর একগুচ্ছ ভেরিয়েবল থাকে এবং আপনি যতটা সম্ভব অল্প তথ্য হারাতে গিয়ে একই বিষয়গুলিতে এটি একটি ছোট সংখ্যক ভেরিয়েবলের মধ্যে হ্রাস করতে চান, তবে পিসিএ এটি করার একটি সরঞ্জাম।

এটি ফ্যাক্টর বিশ্লেষণ থেকে পৃথক, যদিও তারা প্রায়শই একই রকম ফলাফল দেয়, এফ এ এফেক্ট ভেরিয়েবলগুলির সাথে সম্পর্কিত বলে মনে করা হয় যে বৃহত সংখ্যক পর্যবেক্ষিত ভেরিয়েবলগুলির থেকে স্বল্প পরিমাণে সুপ্ত পরিবর্তনশীলগুলি পুনরুদ্ধার করার চেষ্টা করে।


আরে পিটার! তোমাকে এখানে দেখে ভাল লাগল। এটি সত্যিই খুব ভাল, সরল, কোনও গণিতের উত্তর নয়।
জেডি লং

3
এফএ উল্লেখ করার জন্য +1, যা অন্য কেউ আলোচনা করে বলে মনে হচ্ছে না এবং কিছু লোকের ব্যাখ্যা এর সাথে মিশে গেছে বলে মনে হচ্ছে।
গাং

পিসিএ এবং এফএর লক্ষ্যগুলির মধ্যে কোনও পার্থক্য বলে মনে হচ্ছে না - উভয়ই ঘোরানো লক্ষ্য করে যাতে আপনি সর্বাধিক গুরুত্বপূর্ণ কারণগুলি (সুপ্ত ভেক্টর, বা আইজেন্ডাইমেনশনস বা একক ভেক্টর বা যা কিছু) দেখতে পান। তবে এফএ এটিকে একটি অ্যালগরিদম বলে মনে হয় না তবে সম্পর্কিত কৌশলগুলির পরিবার (একে অপরের কাছে এবং এসভিডি এবং পিসিএ) একইভাবে অসুস্থ-সংজ্ঞায়িত লক্ষ্যগুলি (যা বিভিন্ন এবং পারস্পরিক অসঙ্গতিপূর্ণ বলতে বলা হয়, তাই বিভিন্ন রূপগুলি 'অপ্টিমাইজ' বিভিন্ন জিনিস বলে)।
ডেভিড

পিসিএ ফ্যাক্টর বিশ্লেষণ করার অনেকগুলি সম্ভাব্য উপায়গুলির মধ্যে এটি কি সঠিক হবে?
1714

এই অঞ্চলে পরিভাষা কুখ্যাতভাবে বেমানান।
পিটার ফ্লুম

29

2-ডি তে গণিত করা সবচেয়ে সহজ।

প্রতিটি ম্যাট্রিক্স একটি রৈখিক রূপান্তরের সাথে সামঞ্জস্য করে। সমতলটিতে একটি স্মরণীয় চিত্র নিয়ে এবং লিনিয়ার রূপান্তর দ্বারা কীভাবে চিত্রটি বিকৃত হয় তা দেখে লিনিয়ার রূপান্তরগুলি দৃশ্যমান করা যায়:

রৈখিক রূপান্তর (ছবি: ফ্লানিগান এবং কাজদান )

  • আইজেনভেেক্টর হ'ল একই ভেক্টর। তারা আগের মতো রূপান্তর করার পরে একই দিকে নির্দেশ করে। মোনা লিসা আইজেনভেেক্টর(নীল একই থাকে, তাই সেই দিকটিan এর একটি আইগনেক্টর)shear
  • ইজেনভ্যালুগুলি একই স্থানে থাকা ভেক্টরগুলি কত বাড়বে বা সঙ্কুচিত করবে। (নীল একই আকারে স্থির ছিল তাই ইজেনভ্যালুটি হবে ))×1
  • পিসিএ আপনার অক্ষগুলি আপনার ডেটার সাথে আরও ভাল "লাইন আপ" করে দেয়। (উত্স: weigend.com ) আপনার কীভাবে ডেটাটি ঘোরানো উচিত তা নির্ধারণ করার জন্য পিসিএ কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর ব্যবহার করে। যেহেতু ঘোরানো এক প্রকার রৈখিক রূপান্তর , আপনার নতুন মাত্রাগুলি old ।পিসিএ ফুটবল
    1=23%[1]+46%[2]+39%[3]

যে সমস্ত লোকেরা আসল ডেটা নিয়ে কাজ করে তারা ইগেনভেেক্টর এবং লিনিয়ার ট্রান্সফর্মেশনগুলিতে আগ্রহী হওয়ার কারণটি হ'ল বিভিন্ন প্রসঙ্গে "লিনিয়ার" ( ) সত্যিই আকর্ষণীয় জিনিসগুলি কভার করতে পারে। উদাহরণস্বরূপ ভাবেন যে এবং নতুন অর্থ দেওয়া হয়, বা যদি এবং কিছু আকর্ষণীয় ক্ষেত্র থেকে আসে বা এবং কিছু আকর্ষণীয় স্থান থেকে আসে তবে সেই সম্পত্তিটির অর্থ কী । উদাহরণস্বরূপ :f(ax+by)=af(x)+bf(y)+abxy

মুখ

পিসিএ নিজেই অন্য একটি উদাহরণ, পরিসংখ্যানবিদদের কাছে সবচেয়ে পরিচিত। ফ্রেইয়ার মতো আরও কয়েকটি উত্তর পিসিএ -এর বাস্তব-জগত অ্যাপ্লিকেশন দেয়।

আমি পুরোপুরি পেয়েছি যে "রোটেশন" এর মতো সহজ কিছু বিভিন্ন ক্ষেত্রে অনেক কিছু করতে পারে যেমন একটি সুপারিশকারী সিস্টেমের জন্য পণ্যগুলি আস্তরণের ভূরাজনৈতিক বিরোধের ব্যাখ্যা । তবে আপনি যদি পদার্থবিজ্ঞানের কথা চিন্তা করেন তবে এটি এত অবাক হওয়ার মতো কিছু নেই, যেখানে আরও ভাল ভিত্তি বেছে নেওয়া হয় (যেমন গণিত অক্ষটি পরিবর্তে গতির দিক তৈরি করে making অনির্বচনীয় সমীকরণগুলি সাধারণগুলিতে পরিবর্তন করবে)।similar how? x42.8%[x]57.2%[y]x42.8%[x]57.2%[y]


2
প্রকৃতপক্ষে এটি এক ধরনের কাকতালীয় যে ঘূর্ণনগুলি লিনিয়ার এবং তাই নন-জ্যামিতিক তথ্যের জন্য কী চলছে তা বর্ণনা করার একটি সুবিধাজনক উপায়। কাকতালীয় ঘটনাটি কার্তেসিয়ান / ইউক্লিডিয়ান উভয় স্থান এবং কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য / গাউসিয়ান উভয়ের চতুষ্কোণ প্রকৃতির সাথে সম্পর্কিত। উদাহরণস্বরূপ সিগমাস অরথোগোনাল মাত্রাগুলির মতো চতুর্ভুজ যুক্ত করে, যেখানে আমাদের এনডি রোটাল / অर्थোগোনাল পরিভাষাটি 2D এবং 3 ডি স্পেসের সাথে সাদৃশ্য দ্বারা উত্পন্ন হয়।
ডেভিড

@ ডেভিড এমডাব্লুপাওয়ার্স আকর্ষণীয়। আমি লিনিয়ার-বীজগণিতের দৃষ্টিকোণ থেকে আবর্তনের বিষয়ে ভাবছি।
isomorphismes

27

এই থ্রেডে জেডি লংয়ের দুর্দান্ত পোস্টের পরে, আমি একটি সাধারণ উদাহরণ এবং পিসিএ উত্পাদন করার জন্য প্রয়োজনীয় আর কোডটি অনুসন্ধান করেছি এবং তারপরে মূল ডেটাতে ফিরে যেতে চাই। এটি আমাকে প্রথম হাতের জ্যামিতিক অন্তর্দৃষ্টি দিয়েছে এবং আমি যা পেয়েছি তা ভাগ করে নিতে চাই। ডেটাসেট এবং কোডটি সরাসরি অনুলিপি করে ফর্ম গিথুব এ আটকানো যায়

আমি এখানে এমন একটি ডেটা সেট ব্যবহার করেছি যা আমি এখানে অর্ধপরিবাহীগুলিতে অনলাইনে পেয়েছি এবং প্লট করার সুবিধার্থে আমি এটি কেবল দুটি মাত্রায় - "পারমাণবিক সংখ্যা" এবং "গলনাঙ্ক" - তে ছাঁটাই করেছি।


সতর্কতা হিসাবে ধারণাটি গণ্য প্রক্রিয়ার খাঁটি চিত্রকর: পিসিএ ব্যবহার করা হয় কয়েকটি উত্পন্ন মূল উপাদানগুলির জন্য দুটিরও বেশি ভেরিয়েবল হ্রাস করার জন্য, বা একাধিক বৈশিষ্ট্যের ক্ষেত্রেও সহপাঠী সনাক্ত করতে ব্যবহৃত হয়। সুতরাং এটি দুটি ভেরিয়েবলের ক্ষেত্রে খুব বেশি অ্যাপ্লিকেশন খুঁজে পাবে না, বা @ অ্যামিবা দ্বারা নির্দেশিত মাপের ক্ষেত্রে মেট্রিক্সের ইগেনভেেক্টর গণনা করার প্রয়োজন হবে না।


এরপরে, আমি পৃথক পয়েন্টগুলি ট্র্যাক করার কাজটি সহজ করার জন্য 44 থেকে 15 পর্যন্ত পর্যবেক্ষণগুলি ছাঁটাই করেছি। চূড়ান্ত ফলাফলটি ছিল একটি কঙ্কাল ডেটা ফ্রেম ( dat1):

compounds   atomic.no      melting.point
AIN         10             498.0
AIP         14             625.0
AIAs        23             1011.5
...         ...            ... 

"যৌগিক" কলামটি অর্ধপরিবাহীর রাসায়নিক গঠন নির্দেশ করে এবং সারি নামের ভূমিকা পালন করে।

এটি নিম্নলিখিত হিসাবে পুনরুত্পাদন করা যেতে পারে (আর কনসোল অনুলিপি এবং পেস্ট করতে প্রস্তুত):

dat              <- read.csv(url("http://rinterested.github.io/datasets/semiconductors"))
colnames(dat)[2] <- "atomic.no"
dat1             <- subset(dat[1:15,1:3])
row.names(dat1)  <- dat1$compounds
dat1             <- dat1[,-1]

এরপরে ডেটা মাপা হয়:

X <- apply(dat1, 2, function(x) (x - mean(x)) / sd(x))
# This centers data points around the mean and standardizes by dividing by SD.
# It is the equivalent to `X <- scale(dat1, center = T, scale = T)`  

লিনিয়ার বীজগণিতের পদক্ষেপগুলি অনুসরণ করেছে:

C <- cov(X)                                           # Covariance matrix (centered data)

[at_nomelt_pat_no10.296melt_p0.2961]

পারস্পরিক সম্পর্ক ফাংশন cor(dat1)স্কেলড ডেটাতে ফাংশন হিসাবে অ-স্কেল করা ডেটাতে একই আউটপুট দেয় cov(X)

lambda        <- eigen(C)$values                      # Eigenvalues
lambda_matrix <- diag(2)*eigen(C)$values              # Eigenvalues matrix

[λPC1λPC21.296422000.7035783]

e_vectors     <- eigen(C)$vectors                     # Eigenvectors

12[PC1PC21111]

[0.7,0.7][0.7,0.7]

e_vectors[,1] = - e_vectors[,1]; colnames(e_vectors) <- c("PC1","PC2")

1.29642170.703578364.8%eigen(C)$values[1]/sum(eigen(C)$values) * 10065%35.2%

এখানে চিত্র বর্ণনা লিখুন

আমরা এই খেলনা তথ্য সেট উদাহরণের ছোট আকার দেওয়া উভয় eigenvectors অন্তর্ভুক্ত করব, বোঝার জন্য যে eigsvectors এক বাদে মাত্রা হ্রাস হতে পারে - পিসিএ পিছনে ধারণা।

স্কোর ম্যাট্রিক্স ম্যাট্রিক্স গুণ হিসাবে নির্ধারিত ছিল ছোটো তথ্য ( X) দ্বারা eigenvectors (বা "ঘুর্ণন") ম্যাট্রিক্স :

score_matrix <-  X %*% e_vectors    
# Identical to the often found operation: t(t(e_vectors) %*% t(X))

X[0.7,0.7]TPC1[0.7,0.7]TPC2

এখানে চিত্র বর্ণনা লিখুন

[0.7,0.7]

এখানে চিত্র বর্ণনা লিখুন

1

> apply(e_vectors, 2, function(x) sum(x^2))
PC1 PC2 
  1   1 

যদিও ( লোডিং ) হ'ল ইগেনভেেক্টরগুলি ইগেনভ্যালুগুলি দ্বারা স্কেল করা (নীচে প্রদর্শিত অভ্যন্তরীণ আর কার্যে বিভ্রান্তিকর পরিভাষা থাকা সত্ত্বেও)। ফলস্বরূপ, লোডিংগুলি হিসাবে গণনা করা যেতে পারে:

> e_vectors          %*% lambda_matrix
          [,1]      [,2]
[1,] 0.9167086  0.497505
[2,] 0.9167086 -0.497505

> prcomp(X)$rotation %*% diag(princomp(covmat = C)$sd^2)
                   [,1]      [,2]
atomic.no     0.9167086  0.497505
melting.point 0.9167086 -0.497505

এটি লক্ষণীয় আকর্ষণীয় যে ঘোরানো ডেটা ক্লাউডের (স্কোর প্লট) প্রতিটি উপাদান (পিসি) এর সাথে ইগেনভ্যালুগুলির সমান বৈচিত্র থাকবে:

> apply(score_matrix, 2, function(x) var(x))
       PC1        PC2 
53829.7896   110.8414 
> lambda
[1] 53829.7896   110.8414

অন্তর্নির্মিত ফাংশনগুলি ব্যবহার করে ফলাফলগুলি প্রতিরূপ করা যেতে পারে:

# For the SCORE MATRIX:
  prcomp(X)$x
# or...
  princomp(X)$scores # The signs of the PC 1 column will be reversed.

# and for EIGENVECTOR MATRIX:
  prcomp(X)$rotation
# or...
  princomp(X)$loadings

# and for EIGENVALUES:
  prcomp(X)$sdev^2
# or...
  princomp(covmat = C)$sd^2

UΣVTprcomp()

svd_scaled_dat <-svd(scale(dat1))
eigen_vectors <- svd_scaled_dat$v
eigen_values <- (svd_scaled_dat$d/sqrt(nrow(dat1) - 1))^2
scores<-scale(dat1) %*% eigen_vectors

ফলাফলটি নীচে নীচে দেখানো হয়েছে, প্রথমটি পৃথক পয়েন্ট থেকে প্রথম ইগেনভেেক্টর পর্যন্ত দূরত্ব এবং দ্বিতীয় চক্রান্তে অরথোগোনাল দূরত্বে দ্বিতীয় আইজেনভেেক্টর থেকে:

এখানে চিত্র বর্ণনা লিখুন

পরিবর্তে যদি আমরা স্কোর ম্যাট্রিক্স (পিসি 1 এবং পিসি 2) এর মানগুলি প্লট করেছিলাম - আর "গলনা.পয়েন্ট" এবং "অ্যাটমিক.নো" না, তবে সত্যই পয়েন্টের ভিত্তিতে একটি ভিত্তি হিসাবে ইগেনভেেক্টরগুলির সাথে সমন্বয় করে, এই দূরত্বগুলি হবে সংরক্ষিত, তবে প্রাকৃতিকভাবে এক্স অক্ষের সাথে লম্ব হয়ে উঠবে:

এখানে চিত্র বর্ণনা লিখুন

কৌশলটি এখন আসল তথ্য পুনরুদ্ধার করা । পয়েন্টগুলি ইগেনভেেক্টরগুলির দ্বারা একটি সাধারণ ম্যাট্রিক্সের গুণ দ্বারা রূপান্তরিত হয়েছিল। এখন ডেটা পয়েন্টগুলির অবস্থানের ফলস্বরূপ চিহ্নিত পরিবর্তনের সাথে ইগেনভেেক্টরগুলির ম্যাট্রিক্সের বিপরীত দ্বারা গুণিত করে ডেটাটি ঘোরানো হয়েছিল । উদাহরণস্বরূপ, বাম উপরের কোয়াড্রেন্টে গোলাপী বিন্দু "গাএন" এর পরিবর্তন লক্ষ্য করুন (নীচে বাম চক্রান্তের কালো বৃত্ত), বাম নীচের চতুর্ভুজ (নীচে ডান চক্রান্তে কালো বৃত্ত) এর প্রাথমিক অবস্থানে ফিরে আসুন।

অবশেষে আমরা এই "ডি-ঘোরানো" ম্যাট্রিক্সে মূল ডেটা পুনরুদ্ধার করেছি:

এখানে চিত্র বর্ণনা লিখুন

পিসিএতে ডেটার ঘোরার স্থানাঙ্কের পরিবর্তনের বাইরে, ফলাফলগুলি ব্যাখ্যা করতে হবে এবং এই প্রক্রিয়াটি একটি জড়িত হতে থাকে biplot, যার উপর ভিত্তি করে ডেটা পয়েন্টগুলি নতুন ইগেনভেেক্টর স্থানাঙ্কের সাথে সম্পর্কিত হয় এবং মূল ভেরিয়েবলগুলি এখন সুপারমোজড হয় ভেক্টর। উপরের রোটেশন গ্রাফের দ্বিতীয় সারিতে প্লটগুলির মধ্যে পয়েন্টগুলির অবস্থানের সমতা ("এক্সি এক্সিস = ইগেনভেেক্টর সহ স্কোর") (অনুসরণকারী প্লটগুলির বামে) এবং biplot( ডান):

এখানে চিত্র বর্ণনা লিখুন

লাল তীর হিসাবে মূল ভেরিয়েবলের সুপারিমিপোজেশন PC1উভয় atomic noএবং উভয়ের সাথে দিকনির্দেশে ভেক্টর হিসাবে (বা ইতিবাচক পারস্পরিক সম্পর্ক) এর ব্যাখ্যার পথ দেয় melting point; এবং ইগেনভেেক্টরগুলির মানগুলির সাথে সামঞ্জস্যপূর্ণ, তবে নেতিবাচকভাবে সম্পর্কিত , PC2বর্ধমান মানগুলির সাথে একটি উপাদান হিসাবে :atomic nomelting point

PCA$rotation
                    PC1        PC2
atomic.no     0.7071068  0.7071068
melting.point 0.7071068 -0.7071068

ভিক্টর পাওলের এই ইন্টারেক্টিভ টিউটোরিয়ালটি ডেটা ক্লাউড সংশোধিত হওয়ার সাথে সাথে ইগেনভেেক্টরগুলির পরিবর্তনের বিষয়ে তাত্ক্ষণিক প্রতিক্রিয়া জানায়।


1
প্রয়াসের জন্য +1 এবং বিশেষত অ্যানিমেশনের জন্য! তবে একটি মনে রাখতে হবে যে দুটি ভেরিয়েবলের পারস্পরিক সম্পর্ক মেট্রিক্সের উপর পিসিএ একটি বিশেষ কেস কারণ দুটি ভেরিয়েবলের সমস্ত পারস্পরিক সম্পর্কের ম্যাট্রিকগুলিতে অভিন্ন আইজেনভেেক্টর থাকে : তাদের মধ্যে একটি সর্বদা [0.7 0.7] (0.7 একটি 1 / বর্গক্ষেত্র হচ্ছে (2))। এটি কোভেরিয়েন্স ম্যাট্রিক্সের ক্ষেত্রে বা উচ্চ মাত্রায় মেট্রিক্সের ক্ষেত্রে নয়।
অ্যামিবা

14

যে কেউ পিসিএ প্রচুর ব্যবহার করেছেন (এবং এটি কয়েকটি লোকের কাছে এটি ব্যাখ্যা করার চেষ্টাও করেছেন) এর কাছ থেকে আমার নিজের নিউরোসায়েন্সের ক্ষেত্রের একটি উদাহরণ এখানে রয়েছে।

যখন আমরা কোনও ব্যক্তির মাথার ত্বক থেকে রেকর্ড করি তখন আমরা এটি 64 ইলেক্ট্রোড দিয়ে করি। সুতরাং, কার্যত আমাদের তালিকায় 64 টি সংখ্যা রয়েছে যা মাথার ত্বকে প্রদত্ত ভোল্টেজকে উপস্থাপন করে। এখন থেকে যেহেতু আমরা মাইক্রোসেকেন্ড নির্ভুলতার সাথে রেকর্ড করছি, যদি আমাদের 1 ঘন্টা পরীক্ষা হয় (প্রায়শই তারা 4 ঘন্টা হয়) তবে এটি আমাদের 1e6 * 60 ^ 2 == 3,600,000,000 টাইম পয়েন্ট দেয় যেখানে প্রতিটি ইলেক্ট্রোডে ভোল্টেজ রেকর্ড করা হয় যাতে এখন আমরা একটি 3,600,000,000 এক্স 64 ম্যাট্রিক্স রয়েছে। যেহেতু পিসিএর একটি বড় অনুমান হ'ল আপনার ভেরিয়েবলগুলি পারস্পরিক সম্পর্কযুক্ত, তাই এই হাস্যকর পরিমাণের ডেটা ট্র্যাকটেবল পরিমাণে হ্রাস করার পক্ষে এটি একটি দুর্দান্ত কৌশল। যেমন ইতিমধ্যে বহুবার বলা হয়েছে, ইগেনভ্যালুগুলি ভেরিয়েবল (কলাম) দ্বারা ব্যাখ্যা করা পরিমাণে বৈচিত্র্যের প্রতিনিধিত্ব করে। এক্ষেত্রে একটি ইগেনুয়ালু একটি নির্দিষ্ট ইলেক্ট্রোড দ্বারা অবদানের সময় নির্দিষ্ট সময়ে ভোল্টেজের তারতম্যের প্রতিনিধিত্ব করে। সুতরাং এখন আমরা বলতে পারি, "ওহ, ভাল বৈদ্যুতিনxসময়ে সময়ে yআমাদের আরও বিশ্লেষণের জন্য ফোকাস করা উচিত কারণ এটিই সেখানে সর্বাধিক পরিবর্তন ঘটছে "Hope আশা করি এটি সহায়তা করবে those এই প্রতিরোধের প্লটগুলি ভালবাসেন!


12

আমি এর উত্তর দেওয়ার জন্য খারাপ লোক হতে পারি কারণ আমি সেই প্রবাদবাদী দাদী যিনি ধারণাটি আমাকে ব্যাখ্যা করেছিলেন এবং আরও কিছু না, তবে এখানে যান:

ধরুন আপনার জনসংখ্যা আছে। জনসংখ্যার একটি বড় অংশ হার্ট অ্যাটাকের কারণে মারা যাচ্ছেন। হার্ট অ্যাটাকের কারণ কী তা বোঝার চেষ্টা করছেন।

আপনার কাছে ডেটা দুটি টুকরো রয়েছে: উচ্চতা এবং ওজন।

এখন, এটি স্পষ্ট যে ওজন এবং হার্ট অ্যাটাকের মধ্যে কিছু সম্পর্ক রয়েছে, তবে পারস্পরিক সম্পর্কটি খুব শক্তিশালী নয়। কিছু ভারী মানুষ রয়েছে যাদের প্রচুর হার্ট অ্যাটাক হয়, তবে কিছু থাকে না।

এখন, আপনি একটি পিসিএ করেন এবং এটি আপনাকে বলে যে উচ্চতা দ্বারা বিভক্ত ওজন ('বডি ম্যাস') সম্ভবত হার্ট অ্যাটাকের পূর্বাভাসকারী তবে ওজন বা উচ্চতা হয়, কারণ, দেখুন এবং দেখুন, "বাস্তবতা" এটিই শরীরের ভর যা হার্ট অ্যাটাক করে।

মূলত, আপনি পিসিএ করেন কারণ আপনি একগুচ্ছ জিনিসগুলি পরিমাপ করছেন এবং আপনি সত্যই জানেন না যে সেগুলি সত্যিই মূল উপাদানগুলি হয় বা যদি এমন কিছু গভীর অন্তর্নিহিত উপাদান থাকে যা আপনি পরিমাপ করেননি।

[দয়া করে এটি সম্পূর্ণরূপে বেসের বাইরে থাকলে এডিট করতে দ্বিধা বোধ করবেন। আমি সত্যিই এর চেয়ে আরও গভীরভাবে ধারণাটি বুঝতে পারি না]।


1
পরিসংখ্যান সাইট @ জোয়েলে আপনাকে স্বাগতম! আপনি যদি চান্স পান তবে আপনি আমাদের প্রস্তাবিত বিতরণ করা স্ট্যাকএক্সচেঞ্জ ডেটা বিশ্লেষণ প্রকল্প: stats.stackexchange.com/questions/2512/… এ আলোচনায় অংশ নিতে পারেন
শেন

9
দুর্দান্ত উদাহরণ, তবে প্রযুক্তিগতভাবে পিসিএ শরীরের ভর ব্যাখ্যা খুঁজে পাচ্ছে না কারণ এটি কেবল রৈখিক ব্যাখ্যা খুঁজে পেতে পারে, এটি মূল পরিবর্তনশীলগুলির ভারসাম্য পরিমাণ। তবে, আপনি যদি নিজের ইনপুট ভেরিয়েবলগুলির লগগুলি গ্রহণ করেন তবে অনুপাতটি একটি তফাত্ হয়ে যায় এবং যদি এটি সঠিক ব্যাখ্যা হয় তবে পিসিএ এটি সন্ধান করতে সক্ষম হবে।
ডেভিড

10

দাদীর জন্য এখানে একটি:

আমাদের শহরে উত্তর এবং দক্ষিণে যাওয়ার রাস্তাগুলি রয়েছে, কিছুগুলি পূর্ব এবং পশ্চিম দিকে যাচ্ছে এবং এমন কি কিছু উত্তর-পশ্চিম এবং দক্ষিণ-পূর্ব দিকে যাচ্ছে, কিছুটা ডব্লিউই থেকে ডাব্লুডাব্লু। একদিন একটি লোক সমস্ত রাস্তায় সমস্ত ট্র্যাফিক পরিমাপ করে, সে দেখতে পেয়েছে যে সর্বাধিক ট্র্যাফিকটি তির্যকভাবে উত্তর-পশ্চিম থেকে দক্ষিণ-পূর্ব দিকে চলেছে, দ্বিতীয় বৃহত্তম উত্তর-পূর্ব থেকে দক্ষিণ-পশ্চিমে এই লম্বা লম্বা এবং বাকি সমস্ত মোটামুটি ছোট। সুতরাং তিনি একটি বড় স্কোয়ার আঁকেন এবং একটি বড় লাইন বাম থেকে ডানদিকে রেখে বলেছেন এবং এটি এনডাব্লু থেকে এসই, তারপরে মাঝখানে দিয়ে উলম্বভাবে অন্য লাইনটি আঁকেন। তিনি বলেছেন যে এটি ট্র্যাফিকের জন্য দ্বিতীয় সবচেয়ে বেশি ভিড়ের দিক (এনই থেকে এসডাব্লু)। বাকিটি ছোট তাই এটি উপেক্ষা করা যায়।

বাম ডান লাইনটি প্রথম ইগেনভেেক্টর এবং আপ ডাউন ডাউন লাইনটি দ্বিতীয় আইজেনভেেক্টর। বাম এবং ডান দিকে যাওয়া মোট গাড়িগুলির সংখ্যা হ'ল প্রথম ইগন্যালিউ এবং যেগুলি নীচে এবং নীচে যাচ্ছেন তারা দ্বিতীয় এগেনভ্যালু।


1
এই সাদৃশ্যটি পরীক্ষার অধীনে ভাঙ্গা দেখা দেয়। বৃহত্তম এবং দ্বিতীয় বৃহত্তম ট্র্যাফিক দিকটি অরথগোনাল না হলে কী হবে? আপনার সাদৃশ্যটি কীভাবে আমাদের পিসিএ বুঝতে সহায়তা করে?
হোবার

আমার ধারণা দাদী অরথোগোনাল মানে কী? হ্যাঁ, সেখানে কিছু ত্রুটি কিন্তু এটি একটি শুরু। আমি মনে করি এটি দুর্দান্ত যে এখানে অনেক উত্তর এসেছে।
বাজাবজো

2
"ঠাকুরমা" কোনও পোস্ট বুঝতে পারে বা না, এটি যুক্তিসঙ্গতভাবে পরিষ্কার এবং সঠিক হওয়া দরকার। আপনার সাদৃশ্যটি সেই লক্ষ্যগুলির কোনওটির মধ্যেই উপস্থিত হয় না। এটি হতে পারে কারণ আমি সাদৃশ্যটি বুঝতে পারি না: আমি এটি পিসিএ কী বা কী এর সাথে সংযুক্ত করতে পারি না। সম্ভবত আপনি স্পষ্ট করে বলতে পারেন যে সাদৃশ্যটি কীভাবে কাজ করে যাতে অন্য পাঠকরা আমার মতো অতটা রহস্যজনক না হয়ে যান।
whuber

এগুলি অরথোগোনাল নয় এর অর্থ আপনার পিসিএ নয় আইসিএ বা এফএ প্রয়োজন। যদি দাদী স্টার ট্রেকটি দেখছিলেন (হ্যাঁ তিনি সেই প্রজন্মের) যখন তারা কোনও কোণে অক্ষম জাহাজটি দেখায় - পিসিএ স্কেল এবং দর্শন (গ্যালাকটিক প্লেন বা জাহাজের অক্ষগুলি) সম্পর্কিত প্রাসঙ্গিক বিমানটি পুনরুদ্ধার করতে পারে।
ডেভিড

-1। আমি @ ভুবার সাথে একমত যে এই উপমাটি কার্যকর হয় না does এখানে ডেটা হওয়ার কথা কি, কোভারিয়ান্স ম্যাট্রিক্স এই "ইগেনভেেক্টর"? আমি মোটেই বুঝতে পারি না।
অ্যামিবা

10

এই উত্তরটি একটি স্বজ্ঞাত এবং গাণিতিক ব্যাখ্যা দেয়:

পিসিএ আপনাকে হাই-ডাইমেনশনাল পয়েন্ট মেঘের মধ্যে orthogonal ভেক্টরগুলির একটি সেট দেবে। ভেক্টরগুলির ক্রমগুলি সমস্ত পয়েন্টগুলি ভেক্টরগুলিতে প্রজেক্টের পরে সরবরাহিত তথ্য দ্বারা নির্ধারিত হয়।

বিভিন্ন কথায়: প্রথম প্রধান উপাদান ভেক্টর আপনাকে ভেক্টরটিতে সমস্ত পয়েন্ট প্রজেক্ট করার পরে পয়েন্ট ক্লাউড সম্পর্কে সর্বাধিক বলবে। এটি অবশ্যই একটি অন্তর্নিহিত ব্যাখ্যা।

এই উপবৃত্তটি দেখুন (3 ডি মডেলের জন্য লিঙ্কটি অনুসরণ করুন) :

এখানে চিত্র বর্ণনা লিখুন

যদি আপনাকে একটি মাত্রিক উপ-স্থান তৈরি করে এমন একটি ভেক্টর বেছে নিতে হয় যার উপরে উপবৃত্তাকার পয়েন্টগুলির বিন্দুগুলি প্রজেক্ট করা হয়। আপনি 3 টি মাত্রায় মূল সেট সম্পর্কে সর্বাধিক তথ্য পৌঁছে দেওয়ার কারণে আপনি কোনটি বেছে নেবেন?

আমি অনুমান করি লালটি দীর্ঘতম অক্ষ বরাবর রয়েছে। এবং এটি আসলে গণনা করা 1 ম মূল উপাদান! কোনটি পরবর্তী - আমি পরের দীর্ঘতম অক্ষের সাথে নীলটি বেছে নেব।

সাধারণত আপনি একটি দ্বিমাত্রিক সমতল সম্মুখের বা মধ্যে একটি উচ্চ মাত্রিক স্থান থেকে পয়েন্ট একটি সেট প্রকল্প করতে চান তিন মাত্রিক স্থান

এখানে চিত্র বর্ণনা লিখুন


http://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/


10

যদিও পিসিএ সম্পর্কে একটি স্বজ্ঞাত ধারণা দেওয়ার জন্য অনেকগুলি উদাহরণ দেওয়া হয়েছে, তবুও এই ঘটনাটি প্রায় শুরুতে বুঝতে আরও জটিল করে তুলতে পারে, কমপক্ষে এটি আমার পক্ষে ছিল।

"পিসিএ সম্পর্কে একটি বিষয় কী যে বিভিন্ন শাখার এই সমস্ত উদাহরণের মধ্যে একটি মিল রয়েছে ??"

গণিতের সমান্তরালগুলির কয়েকটি হ'ল আমাকে অন্তর্নিহিতভাবে বুঝতে সাহায্য করেছিল, কারণ গণিতগুলি আপনার পক্ষে সহজ অংশ, যদিও এটি আপনার নানীর কাছে এটি ব্যাখ্যা করতে সহায়তা করে না ...

নিয়মিতকরণের সমস্যাটি ভাবেন, পাওয়ার চেষ্টা করছেন

||XBY||=0

YY

YYXkBYXBkSVSVT

AA


9

এখানে একটি গণিতের উত্তর: প্রথম প্রধান উপাদানটি হ'ল ডেটার দীর্ঘতম মাত্রা। এটি দেখুন এবং জিজ্ঞাসা করুন: ডেটা প্রশস্ত কোথায়? এটিই প্রথম উপাদান। পরবর্তী উপাদানটি লম্ব হয়। সুতরাং ডেটা সিগার একটি দৈর্ঘ্য এবং প্রস্থ আছে। এটি যে কোনও কিছুর জন্যই বোঝা যায় যা সাজানো ong


6
দুর্ভাগ্যক্রমে, এই উত্তরের সঠিকতা নির্ভর করে যে অস্পষ্ট অভিব্যক্তি "দীর্ঘতম" কীভাবে ব্যাখ্যা করা হয়। ব্যাসের মতো অনেক প্রাকৃতিক এবং প্রাসঙ্গিক ব্যাখ্যা ভুল হবে।
শুক্র

পিসিএ প্রকৃতপক্ষে / আকার পরিমাপের বিভিন্ন ধরণের প্রাকৃতিক উপায়ে বেশ ভালভাবে কাজ করে। যে কোনও দিকের "মাত্রা" পরিমাপ করতে আপনাকে কেবল ম্যাট্রিক্সের সাথে কোভারিয়েন্স ম্যাট্রিক্স প্রতিস্থাপন করতে হবে (ম্যাট্রিক্সটি কেবল ইতিবাচক সংজ্ঞায়িত, বা প্রতিসাম্যিক হওয়া দরকার be) এটি যেমন কুইকসোর্ট বিভিন্ন অর্ডারিং অপারেটরের জন্য কাজ করে তবে আপনি বিভিন্ন ফলাফল পাবেন you বিভিন্ন অর্ডারিং অপারেটরদের জন্য।
জেমস এলআই

9

মূল উপাদানগুলি আমি যেভাবে বুঝতে পারি তা হ'ল: একাধিক ভেরিয়েবল (উচ্চতা, ওজন, বয়স, তাপমাত্রা, তরঙ্গদৈর্ঘ্য, শতাংশ বেঁচে থাকা ইত্যাদি) সহ ডেটা প্লট সম্পর্কিততার তিনটি মাত্রায় উপস্থাপিত হতে পারে।

এখন আপনি যদি কোনওভাবে "3 ডি ডেটা" বোধ করতে চান তবে আপনি জানতে চাইতে পারেন যে এই 3 ডি ডেটার কোন 2 ডি প্লেন (ক্রস-সেকশনস) এ ভেরিয়েবলগুলির প্রদত্ত স্যুটটির জন্য সর্বাধিক তথ্য রয়েছে। এই 2 ডি প্লেনগুলি হ'ল প্রধান উপাদান, যা প্রতিটি ভেরিয়েবলের অনুপাত ধারণ করে।

মূল ভেরিয়েবলগুলি থেকে সম্মিলিত বৈশিষ্ট্যগুলি সহ মূল উপাদানগুলিকে ভেরিয়েবল হিসাবে ভাবেন (এই নতুন ভেরিয়েবলটি পার্ট ওজন, অংশের উচ্চতা, অংশ বয়স ইত্যাদি হিসাবে বর্ণনা করা যেতে পারে)। যখন আপনি অন্য (ওয়াই) এর বিরুদ্ধে একটি মূল উপাদান (এক্স) ষড়যন্ত্র করেন, আপনি যা করছেন তা 2D মানচিত্র তৈরি করছে যা জ্যামিতিকভাবে মূল ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্ককে বর্ণনা করতে পারে। এখন দরকারী অংশ: যেহেতু প্রতিটি বিষয় (পর্যবেক্ষণ) তুলনা করা হচ্ছে প্রতিটি ভেরিয়েবলের মানগুলির সাথে সম্পর্কিত তাই বিষয়গুলি (পর্যবেক্ষণ) এই এক্সওয়াই মানচিত্রেও কোথাও পাওয়া যায়। তাদের অবস্থান প্রতিটি অন্তর্নিহিত পরিবর্তনশীল এর আপেক্ষিক অবদানের উপর ভিত্তি করে (যেমন একটি পর্যবেক্ষণ বয়স এবং তাপমাত্রার দ্বারা খুব বেশি প্রভাবিত হতে পারে, অন্যদিকে উচ্চতা এবং ওজন দ্বারা আরও বেশি প্রভাবিত হতে পারে)।


8

আমি একটি অ-গাণিতিক প্রতিক্রিয়া এবং দ্বিতীয় অংশে প্রেরণা-মাধ্যমে-গণিতের আরও বিশদ পাখি-দর্শন দেব।


অ mathy:

অ-গণিতের ব্যাখ্যাটি হ'ল পিসিএ আপনার ডেটার সর্বাধিক বৈকল্পিকতা দেখায় তা দিয়ে আপনাকে হাই ডাইমেনশনাল ডেটার জন্য সহায়তা করে। এই দিকনির্দেশগুলি প্রধান উপাদান । আপনার এই তথ্যটি একবার হয়ে গেলে আপনি কিছু ক্ষেত্রে, মূল উপাদানগুলিকে অর্থবোধক ভেরিয়েবল হিসাবে নিজেরাই ব্যবহার করার সিদ্ধান্ত নিতে পারেন এবং কেবলমাত্র প্রধান উপাদানগুলিকে সর্বাধিক বৈকল্পিকতা ( ব্যাখ্যামূলক শক্তি ) রেখে আপনার ডেটার মাত্রিকতাকে ব্যাপকভাবে হ্রাস করতে পারেন ।

উদাহরণস্বরূপ, ধরুন আপনি 30 টি প্রশ্ন সহ একটি রাজনৈতিক পোলিং প্রশ্নপত্র দিয়েছেন, প্রত্যেককে 5 টির (1 টির সাথে একমত ) এর জবাব দেওয়া যেতে পারে ( দৃ strongly়ভাবে একমত ) আপনি প্রচুর প্রতিক্রিয়া পেয়েছেন এবং এখন আপনার কাছে 30-মাত্রিক ডেটা রয়েছে এবং আপনি এ থেকে মাথা বা লেজ তৈরি করতে পারবেন না। তারপরে হতাশায় আপনি পিসিএ চালানোর কথা ভাবেন এবং আবিষ্কার করুন যে আপনার 90% বৈকল্পিকতা এক দিক থেকে এসেছে এবং সেই দিকটি আপনার কোনও অক্ষের সাথে মিলে না। তথ্যের আরও পরিদর্শন করার পরে আপনি সিদ্ধান্তে পৌঁছে যে এই নতুন হাইব্রিড অক্ষটি রাজনৈতিক বাম-ডান বর্ণালী যেমন ডেমোক্র্যাট / রিপাবলিকান স্পেকট্রামের সাথে মিলে যায় এবং তথ্যের আরও সূক্ষ্ম দিকগুলি দেখার দিকে এগিয়ে যায়।


mathy:

এটি কখনও কখনও জুম আউট করতে এবং অর্থটির বিষয়ে কিছু আলোকপাত করার জন্য গাণিতিক প্রেরণার দিকে নজর দিতে সহায়তা করে।

ম্যাট্রিকের একটি বিশেষ পরিবার রয়েছে যা কেবলমাত্র আপনার সমন্বয় অক্ষটি পরিবর্তন করে ডায়াগোনাল ম্যাট্রিকগুলিতে রূপান্তরিত হতে পারে । স্বাভাবিকভাবেই, তাদের ডায়াগোনালাইজেবল ম্যাট্রিক্স বলা হয় এবং মার্জিতভাবে যথেষ্ট পরিমাণে, নতুন স্থানাঙ্ক অক্ষগুলি যা এটি করার জন্য প্রয়োজন তা প্রকৃতপক্ষে ইগেনভেেক্টর ct

এটি দেখা যাচ্ছে যে সমবায়ু ম্যাট্রিক্স প্রতিসম হয় এবং সর্বদা তির্যক হবে ! এক্ষেত্রে ইগেনভেেক্টরগুলিকে প্রধান উপাদান বলা হয় এবং আপনি যখন ইগেনভেেক্টর স্থানাঙ্কগুলিতে কোভেরিয়েন্স ম্যাট্রিক্সটি লেখেন তখন তির্যক এন্ট্রি (কেবলমাত্র বামগুলি) আপনার ইগেনভেেক্টরগুলির দিকের পরিবর্তনের সাথে সামঞ্জস্য হয়। এটি আমাদের জানতে দেয় যে কোন দিকগুলির মধ্যে সবচেয়ে বৈকল্পিকতা রয়েছে। তবুও যেহেতু কোভারিয়েন্স ম্যাট্রিক্স এই স্থানাঙ্কগুলিতে তির্যক, তাই আপনি আপনার ভেরিয়েবলগুলির মধ্যে সমস্ত পারস্পরিক সম্পর্ককে চতুরতার সাথে মুছে ফেলেছেন।

যেমন ব্যবহারিক প্রয়োগগুলিতে প্রচলিত, আমরা ধরে নিই যে আমাদের চলকগুলি সাধারণত বিতরণ করা হয় এবং তাই সহজ চিত্র দেখার জন্য আমাদের স্থানাঙ্কগুলি চেষ্টা করে পরিবর্তন করা খুব স্বাভাবিক natural আপনার মূল উপাদানগুলি এবং তাদের সম্পর্কিত সম্পর্কিত স্থানগুলি (বৈকল্পিক) জেনে আপনি প্রয়োজন হলে আপনার ডেটার মাত্রিকতা হ্রাস করতে সক্ষম হবেন এবং আপনার ডেটারের প্রকরণটি কোথায় রয়েছে তার একটি দ্রুত সাধারণ সংক্ষিপ্তসারও পাবেন।

তবে দিনের শেষে, এই সমস্ত আকাঙ্ক্ষার মূলটি এই সত্য থেকে আসে যে তির্যক ম্যাট্রিকগুলি তাদের মেসেজার, আরও সাধারণ চাচাত ভাইদের তুলনায় তুলনামূলকভাবে সহজ উপায়


2
আপনার অবদানের জন্য ধন্যবাদ. এটি পিসিএ-এর একটি অপ্রয়োজনীয় সংকীর্ণ ব্যাখ্যা সম্বোধন করে বলে মনে হচ্ছে। (1) পিসিএ উচ্চ গাউসিয়ান ডেটাসেটগুলিতে কার্যকরভাবে প্রয়োগ করা হয়েছে। (২) পিসিএ কোনও আনুষ্ঠানিক প্যারামিট্রিক পদ্ধতি নয়; এটি চেতনায় অনুসন্ধান হিসাবে বিবেচনা করা ভাল। (৩) যে কোনও ধরণের মাল্টিভিয়ারিয়েট বিতরণ বা ডেটা সম্পর্কিত সমস্ত সমবায় ম্যাট্রিকগুলি তির্যক are গাসিয়ালিটি (সাধারণতা) বা অ-অবক্ষয় উভয়ই প্রয়োজনীয় নয়। (ম্যাট্রিক্স প্রতিসাম্য এবং থাকার বাস্তব উপাদান diagonalizability গ্যারান্টি ।)
whuber

আমাকে অবশ্যই স্বীকার করতে হবে, আমি ভুলে গিয়ে বিব্রত বোধ করছি, তবে কোভেরিয়েন্স ম্যাট্রিক্স সম্পর্কে সাধারণভাবে সাধারণভাবে তির্যক হওয়ার যোগ্য বিষয়। আমি এটি প্রতিফলিত করতে সম্পাদনা করতে যাচ্ছি। এছাড়াও, আপনি কি বিন্দু (2) এ বিস্তারিত বলতে পারবেন? আমি প্যারামেট্রিক বা নন-প্যারামেট্রিক পদ্ধতিগুলির মধ্যে পার্থক্যের সাথে পরিচিত নই।
খ্রিস্টান বুয়েনো

7

আমি পিসিএকে জ্যামিতিক সরঞ্জাম হিসাবে দেখি। যদি আপনাকে 3-স্পেসে একগুচ্ছ পয়েন্ট দেওয়া হয় যা বেশ সরলরেখায় অনেকগুলি হয় এবং আপনি সেই লাইনের সমীকরণটি বের করতে চান, তবে আপনি এটি পিসিএর মাধ্যমে পাবেন (প্রথম উপাদানটি নিন)। আপনার যদি 3-স্পেসে বেশিরভাগ পয়েন্ট রয়েছে যা বেশিরভাগ প্ল্যানার, এবং সেই প্লেনটির সমীকরণটি আবিষ্কার করতে চান, তবে এটি পিসিএর মাধ্যমে করুন (কমপক্ষে গুরুত্বপূর্ণ উপাদান ভেক্টর নিন এবং এটি বিমানের স্বাভাবিক হওয়া উচিত)।


7

এগেনভ্যালু / আইজেনভেেক্টর কেন?

পিসিএ করার সময়, আপনি প্রতিটি ভিত্তিতে ভেক্টরের উপর অনুমানিত বৈকল্পিককে সর্বাধিক করে কিছু অরথোগোনাল ভিত্তিতে গণনা করতে চান।

পূর্ববর্তী ভিত্তি ভেক্টর গণনা করা, আপনি পরবর্তী এক হতে চান:

  • পূর্বের অরথোগোনাল
  • আদর্শ 1
  • প্রত্যাশিত বৈকল্পিকতা সর্বাধিক করা, অর্থাত্ সর্বাধিক কোভারিয়েন্স আদর্শের সাথে

এটি একটি সীমিত অপ্টিমাইজেশান সমস্যা, এবং ল্যাঞ্জরেঞ্জ গুণক (জ্যামিতিক অন্তর্দৃষ্টির জন্য এখানে রয়েছে, উইকিপিডিয়া পৃষ্ঠাটি দেখুন) আপনাকে বলে যে উদ্দেশ্যটির (অনুমানিত ভেরিয়েন্স) এবং সীমাবদ্ধতার (ইউনিটের আদর্শ) গ্রেডিয়েন্টগুলি সর্বোত্তমটিতে "সমান্তরাল" হওয়া উচিত।

এটি একই বলে যে পরবর্তী ভিত্তিতে ভেক্টরটি কোভেরিয়েন্স ম্যাট্রিক্সের একটি আইজেনভেেক্টর হওয়া উচিত। প্রতিটি পদক্ষেপে সেরা পছন্দটি হল বাকিগুলির মধ্যে বৃহত্তম ইগন্যালু সহ একটি বেছে নেওয়া।


5
কোনও সাধারণ লোকের জন্য অবশ্যই ব্যাখ্যা নয় - অরথোগোনাল বেস ভেক্টর? প্রজেকশন বৈকল্পিকতা সর্বোচ্চ? সীমাবদ্ধ অপ্টিমাইজেশনের সমস্যা? ল্যাংরেঞ্জ গুণক? এগুলি অত্যন্ত "শঙ্কিত" পদ। এমন একজন সাধারণ লোককে দেখান যিনি এর অর্থ কী তা বুঝতে পারে এবং আমি আপনাকে একজন গণিতবিদ / পরিসংখ্যানবিদ দেখাব
সম্ভাব্যতাবিরোধী

6

মূলত পিসিএ নতুন ভেরিয়েবল সন্ধান করে যা মূল ভেরিয়েবলের লিনিয়ার সংমিশ্রণ যেমন নতুন স্থানটিতে ডেটা কম মাত্রা থাকে। একটি কোণে ধরে রাখা সমতল প্লেটের পৃষ্ঠের 3 মাত্রায় পয়েন্ট সমন্বিত একটি ডেটা সেট চিন্তা করুন। মূল x, y, z অক্ষগুলিতে ডেটা উপস্থাপনের জন্য আপনার 3 টি মাত্রা প্রয়োজন তবে ডান লিনিয়ার রূপান্তরকরণের সাথে আপনার কেবল 2 টি দরকার।

@ জোয়েল যা বলেছিল তা মূলত, তবে কেবল ইনপুট ভেরিয়েবলের লিনিয়ার সংমিশ্রণ।


6

কিছুক্ষণ আগে আমি এই পিসিএ অ্যালগরিদম বোঝার চেষ্টা করেছি এবং আমি ইগেন ভেক্টর এবং ইগেন মান সম্পর্কে একটি নোট তৈরি করতে চেয়েছিলাম। সেই নথিতে উল্লেখ করা হয়েছে যে ইভিএসের উদ্দেশ্য হ'ল বড় আকারের মডেলটির একটি মডেলকে খুব ছোট আকারের মডেলে রূপান্তর করা।

উদাহরণস্বরূপ, প্রথমে পূর্ণ মাপের সেতুটি তৈরির পরিবর্তে এবং এরপরে পরীক্ষা-নিরীক্ষা চালানোর পরিবর্তে খুব ছোট আকারের সেতু তৈরি করতে ইভি ব্যবহার করা সম্ভব যেখানে সমস্ত উপাদান / পরিমাণ একই ব্যবধানে হ্রাস পাবে এবং আরও এটি করা টেস্ট এবং স্ট্রেস সম্পর্কিত পরীক্ষার প্রকৃত ফলাফলটি মূল মডেলের জন্য প্রয়োজনীয় হিসাবে গণনা করা এবং যথাযথভাবে বাড়ানো যেতে পারে। একটি উপায়ে ইভিগুলি আসলটির বিমূর্ততা তৈরি করতে সহায়তা করে

আমার কাছে, এই ব্যাখ্যাটি আমি যা করার চেষ্টা করেছিলাম তার গভীর অর্থ হয়েছিল! আশা করি এটি আপনাকেও সহায়তা করবে!


-1। সম্ভবত আমি সাদৃশ্যটির সম্পূর্ণ প্রশংসা করি নি, তবে এটি আমার কাছে বেশ বিভ্রান্তিকর বলে মনে হচ্ছে। পিসিএ প্রকৃতপক্ষে (একভাবে) একটি "বৃহত" মডেলকে "ছোট" মডেল হিসাবে "রূপান্তর" করার অনুমতি দেয়, তবে এটি ডেটাসেটের মাত্রিকতা হ্রাস করে তা করে। তবে বৃহত্তরটির চেয়ে নিম্ন মাত্রিকতার ছোট সেতুটি কীভাবে?! তারা উভয়ই থ্রিডি, তাই না।
অ্যামিবা

@ অ্যামিবা: এই এক্সট্রাক্টটি আমি পড়েছি এমন একটি কাগজ থেকে বেরিয়ে এসেছে, এগুলি ঠিক আমার কথা নয়। আমি দীর্ঘদিন থেকে এই বিষয়টি অধ্যয়ন করি না এবং আমি এর ট্রেসও হারিয়ে ফেলেছি।
রোরশাচ

6

কল্পনা করুন যে দাদী কেবলমাত্র ক্রিসমাসের জন্য আপনি যে ডিজিটাল ক্যামেরাটি দিয়েছিলেন তাতে তার প্রথম ফটো এবং সিনেমাগুলি নিয়েছে, দুর্ভাগ্যক্রমে তিনি ফটোতে বোতামে চেপে ধরে তার ডান হাতটি নামিয়ে ফেলেন এবং সিনেমাগুলির সময় তিনি বেশ খানিকটা কাঁপুন। তিনি লক্ষ করেছেন যে মানুষ, গাছ, বেড়া, বিল্ডিং, দরজা, আসবাব ইত্যাদি সোজাভাবে উপরে এবং নীচে নয়, উল্লম্ব নয় এবং তল, মাটি, সমুদ্র, দিগন্তটি খুব অনুভূমিক নয়, এবং ভাল সিনেমা পাশাপাশি নড়বড়ে হয়। আপনি জিজ্ঞাসা করেন যে আপনি কীভাবে সেগুলি ঠিক করতে সহায়তা করতে পারেন, 3000 টি ছুটির ফটো এবং বাড়ি এবং সৈকতের প্রায় 100 টি ভিডিও (তিনি অস্ট্রেলিয়ান), উপহার খোলার, দেশে হাঁটাচলা করে। তিনি এই ফটো সফটওয়্যার পেয়েছেন যা আপনাকে যা বলেছে তা করতে দেয়। আপনি তাকে বলছেন যে এতে দিন লাগবে, এবং ভিডিওগুলিতে কোনওভাবেই কাজ করবে না, তবে আপনি পিসিএ এবং আইসিএ নামক কৌশলগুলি জানেন যা সাহায্য করতে পারে। আপনি ব্যাখ্যা করেছেন যে আপনার গবেষণাটি কেবলমাত্র প্রাকৃতিক মাত্রাগুলিতে কেবল এই ধরণের ডেটা ঘোরানোর সাথে জড়িত থাকে, যে এই কৌশলগুলি ডেটাগুলির মধ্যে সর্বাধিক গুরুত্বপূর্ণ দিকনির্দেশনা, এই ক্ষেত্রে ফটোটি সন্ধান করে এবং ঘোরান তাই সর্বাধিক গুরুত্বপূর্ণটি অনুভূমিক, দ্বিতীয়টি লম্বালম্বি হয় (এবং এটি আরও মাত্রাগুলির জন্যও যেতে পারে আমরা খুব ভালভাবে কল্পনাও করতে পারি না, যদিও চলচ্চিত্রের ক্ষেত্রে সময়ও একটি মাত্রা)।

-

প্রযুক্তিগত পাশাপাশি। আসলে, আপনি সম্ভবত তার জন্য এটি করে আপনার পিএইচডি অর্জন করতে পারেন, এবং বেল এবং সেজনোস্কি (1997) এর একটি গুরুত্বপূর্ণ কাগজ রয়েছে যার সাথে প্রান্তের সাথে সম্পর্কিত ইমেজের স্বতন্ত্র উপাদানগুলি রয়েছে। এটি পিসিএর সাথে সম্পর্কিত করার জন্য: আইসিএটি মাত্রা এবং প্রাথমিক আনুমানিকতা হ্রাস করার জন্য প্রথম পদক্ষেপ হিসাবে পিসিএ বা এসভিডি ব্যবহার করে, তবে তারপরে তাদের উন্নতি করে যা কেবল পিসিএর মতো দ্বিতীয় আদেশের ত্রুটি (এসএসই) নয়, উচ্চ আদেশের ত্রুটিগুলি বিবেচনা করে - যদি এটি সত্য হয় আইসিএ, সমস্ত উচ্চতর আদেশ, যদিও অনেক অ্যালগরিদম নিজেকে তৃতীয় বা চতুর্থ মধ্যে সীমাবদ্ধ করে। নিম্ন অর্ডার পিসিএ উপাদানগুলি অনুভূমিক এবং উল্লম্ব দ্বারা দৃ strongly়ভাবে প্রভাবিত হতে থাকে। সিনেমাগুলির জন্য ক্যামেরা গতি নিয়ে কাজ করা পিসিএ / আইসিএ ব্যবহার করতে পারে। 2 ডি ফটো এবং 2½ ডি চলচ্চিত্রের জন্য উভয়ই এটি অর্জন করতে আপনার বেশ কয়েকটি উপস্থাপনামূলক কৌশল প্রয়োজন t

আপনি ঠাকুরমার কাছে যে অ্যাপ্লিকেশনটি ব্যাখ্যা করতে পারেন তা হ'ল ইগেনফেসস - উচ্চতর অর্ডার ইগেনভেেক্টরগুলি '7 বুনিয়াদি আবেগকে' আনুমানিক করতে পারে (তাদের প্রত্যেকের জন্য গড় মুখ এবং 'গড় পরিমাণে ঘূর্ণন' বা লিনিয়ার সংমিশ্রণটি করতে হয়) তবে প্রায়শই আমরা উপাদানগুলি পাই যা লিঙ্গ এবং জাতি সম্পর্কিত, এবং কিছু ব্যক্তি বা স্বতন্ত্র বৈশিষ্ট্যগুলি (চশমা, দাড়ি ইত্যাদি) আলাদা করতে পারে। আপনার যদি কোনও ব্যক্তির কয়েকটি ফটো এবং অনেকগুলি আবেগ / এক্সপ্রেশন থাকে তবে এটি ঘটেছিল, তবে যদি আপনার অনেক মুখ নিরপেক্ষ প্রকাশের সাথে থাকে তবে আপনি একটি আলাদা পক্ষপাতিত্ব পাবেন। পিসিএর পরিবর্তে আইসিএ ব্যবহার করা বুনিয়াদী আবেগের পক্ষে খুব বেশি সহায়ক বলে মনে হয় না, তবে বার্টলেট এবং সেজনোসিকি (১৯৯)) এটি মুখের স্বীকৃতির জন্য দরকারী বৈশিষ্ট্যগুলি খুঁজে পেয়েছিল।


1
আমি উদাহরণের সাথে এবং উপমা দিয়ে যোগাযোগ করার প্রয়াসের প্রশংসা করি। চিত্রগুলির ব্যবহার দুর্ভাগ্যজনক কারণ উচ্চ সম্ভাবনার কারণে দাদী বুঝতে পারবেন না যে আপনার "ঘোরান" এর অনুভূতির আসলে কোনও চিত্রের অক্ষটি ঘোরার সাথে খুব একটা সম্পর্ক নেই, বা তিনি সম্ভবত বুঝতে পারবেন না যে আপনি "মাত্রা ব্যবহার করছেন" "একটি বিমূর্ত অর্থে যেখানে ফটো দুটি মিলিয়ন মাত্রা এবং না শুধুমাত্র দুটি।
হোয়বার

হ্যাঁ, অন্যান্য উত্তরের চিত্রগুলির মতো আপনাকে এটিকে পয়েন্ট ক্লাউড হিসাবে উপস্থাপন করতে হবে। প্রান্ত সনাক্তকরণ এবং / অথবা থ্রোসোল্ডিংয়ের কিছু ফর্মের সাথে পূর্ববর্তীকরণ সম্ভবত আমি উল্লেখ করা "কৌশল" এর অংশ হতে পারে। তবে একটি জটিল ফটোতে কাজ করতে পিএইচডি এর মূল্যবান কৌশল প্রয়োজন।
ডেভিড

@ তবে আমি স্টিরিও চিত্রের ক্রমাঙ্কন করতে এই ঘূর্ণনগুলি খুঁজে পেতে পিসিএ (ভাল এসভিডি) ব্যবহার করেছি! এটি অবশ্যই ঘোরার একই ধারণা sense
ডেভিড

2

আমি মনে করি যে সবাই পিসিএকে ভুল প্রান্ত থেকে ব্যাখ্যা করতে শুরু করে: আইজেনভেেক্টর থেকে। আমার উত্তরটি সঠিক জায়গায় শুরু হয়: সমন্বিত ব্যবস্থা। ইগেনভেেক্টর এবং সাধারণভাবে ইগেনোভেেক্টর হ'ল গাণিতিক সরঞ্জাম যা হাতের আসল সমস্যাটির সমাধান করতে ব্যবহৃত হয় যা একটি ভুল সমন্বয় ব্যবস্থা। আমি ব্যাখ্যা করবো.

একটি লাইন দিয়ে শুরু করা যাক। একটি লাইন কি? এটি একটি এক মাত্রিক বস্তু। সুতরাং, আপনার এক বিন্দু থেকে অন্য দিকে যেতে কেবলমাত্র একটি মাত্রা প্রয়োজন। একটি প্লেনে আপনি দুটি সংযুক্ত করে একটি লাইনের যে কোনও বিন্দুতে সমন্বয় সাধন করেন। এটি কারণ একটি লাইন নিজেই সম্মতি সিস্টেম নির্বিচারে নির্বাচন করা হয়। সমন্বয় ব্যবস্থা, আমি যুক্তি দিয়ে বলব, রেখার অভ্যন্তরীণ এক মাত্রিক প্রকৃতি প্রতিফলিত হয় না। কেবল যদি আমি সর্বদা আমার কার্টেসিয়ান স্থানাঙ্ক ব্যবস্থার উত্সটি লাইনে রাখি এবং এটিকে এমনভাবে পরিণত করি যাতে এর এক্স-অক্ষটি লাইনে থাকে, তবে আমার আর y- অক্ষের প্রয়োজন হবে না! আমার সমস্ত পয়েন্টগুলি এক অক্ষের উপর, কারণ একটি লাইন একটি মাত্রিক বস্তু।

সেখান থেকেই পিসিএ ব্যাখ্যা শুরু করা উচিত। আইজেন সমস্যাটি এমন একটি সরঞ্জাম যা ঘূর্ণনটি করে যা আমি বর্ণনা করেছি এবং ভেরিয়েবলগুলির ডি-মর্মটি মূলটিকে লাইনে ফেলে দেয়। পিসিএ তথ্যের সঠিক মাত্রাগুলি প্রকাশ করতে সহায়তা করে যাতে ভেরিয়েবলের মধ্যে সম্পর্ক লিনিয়ার হয়


1

মনে রাখবেন যে একটি আইজেনভেেক্টর হ'ল একটি ভেক্টর যার রূপান্তর একই ইনপুট ভেক্টরের সমান্তরাল। সুতরাং একটি উচ্চ আইগেনভ্যালুযুক্ত একটি আইগনভেક્ટરটির অর্থ এই যে আইগ্রেভেক্টরের সাথে ডেটার সাথে 'সমান্তরালতা' একটি উচ্চতর ডিগ্রি রয়েছে, যার অর্থ আপনি কেবল এই ভেক্টরের সাথে ডেটা উপস্থাপন করতে পারেন এবং নতুন উপস্থাপনায় একটি কম ত্রুটি আশা করতে পারেন। যদি আপনি নিম্ন ইগেনভ্যালুগুলি সহ অতিরিক্ত ইগেনভেেক্টরগুলি চয়ন করেন, তবে আপনি ডেটা বিশদটি উপস্থাপন করতে সক্ষম হবেন কারণ আপনি অন্যান্য 'সমান্তরালতা'গুলিকে উপস্থাপন করবেন - যা নিম্ন ইগেনালুয়েসের কারণে প্রথমটির মতো বিশিষ্ট নয়।


0

পিসিএ মূলত একটি উচ্চ মাত্রিক স্থানকে একটি নিম্ন মাত্রিক স্থানের একটি প্রক্ষেপণ হিসাবে যতটা সম্ভব তথ্য সংরক্ষণ করে।

আমি একটি ব্লগ পোস্ট লিখেছিলাম যেখানে আমি 3D-teapot প্রক্ষেপণের মাধ্যমে পিসিএ ব্যাখ্যা করি ...

এখানে চিত্র বর্ণনা লিখুন

... যতটা সম্ভব তথ্য সংরক্ষণ করার সময় একটি 2 ডি-বিমানের উপরে:

এখানে চিত্র বর্ণনা লিখুন

বিস্তারিত এবং সম্পূর্ণ আর-কোড পোস্টে পাওয়া যাবে:
http://blog.ephorie.de/intuition-for-principal-component-analysis-pca


1
চিত্রগুলি সত্ত্বেও, বর্তমানে এটি একটি উত্তর চেয়ে মন্তব্য বেশি। আপনি কি লিঙ্কে তথ্যের সংক্ষিপ্তসার দিয়ে সম্ভবত এটি প্রসারিত করতে পারেন? এসই নেটওয়ার্কের পোস্টগুলি নিজেরাই দাঁড়াতে সক্ষম হবে বলে মনে করা হচ্ছে।
গাং

@ গুং: যথেষ্ট ন্যায্য - গিস্টটি হ'ল পিসিএ হ'ল উচ্চতর মাত্রার জায়গার (এই ক্ষেত্রে একটি 3 ডি-টিপট) একটি নিম্ন মাত্রিক স্থানের (এই ক্ষেত্রে একটি 2 ডি-প্লেন) একটি প্রজেকশন হিসাবে যতটা তথ্য সংরক্ষণ করে সম্ভব. উত্তরে এটি পরিবর্তন করবে।
vonjd

এটি অবশ্যই সত্য (এই থ্রেডে থাকা আরও অনেক বিদ্যমান উত্তরে ব্যাখ্যা করা হয়েছে), তবে এসই সিস্টেমে পোস্ট করা উত্তরগুলির আরও অনেক বেশি হওয়া উচিত, এবং লিঙ্কটি মারা গেলে তাদের নিজেরাই দাঁড়াতে সক্ষম হওয়া উচিত।
গাং

1
তেঁতুল উদাহরণ আকর্ষণীয়। আপনি বলেছেন যে পিসিএ হ'ল 'তথ্য' সংরক্ষণের সময় নিম্ন মাত্রিক স্থানের জন্য একটি প্রক্ষেপণ। কিন্তু .... তথ্য কী? পিসিএর ক্ষেত্রে এর অর্থ মোট পার্থক্য যতটা সম্ভব উঁচু রাখা। চা-পাত্র উদাহরণটি আরও উল্লেখ করার মতো যে নির্দিষ্ট নির্দিষ্ট বিমানের একটি প্রজেকশন ব্যবহার করে তথ্যটি "সর্বাধিক সংরক্ষিত", তবে এটি পিসিএ কীভাবে এটি করে এবং এটি 'তথ্যের' সেরা 'পছন্দ কিনা তা সামান্য ব্যাখ্যা করে। উদাহরণস্বরূপ, এলডিএ হ'ল এমন একটি অভিক্ষেপ যা তথ্য সংরক্ষণের ইচ্ছা করে, তবে পিসিএর মতো নয়।
মারটিজন ওয়েটারিংস

আপনার টিপট যদি পিসিএর চেয়ে বেশি বৃত্তাকার / বৃত্তাকার (কম লম্বা) হত তবে বেশিরভাগ "তথ্য" সংরক্ষণের জন্য একটি পৃথক ছেদ 'বেছে নেওয়া' হত।
মার্টিজন ওয়েটারিংস

-4

সম্ভবত এই বিশ্লেষণগুলির মধ্যে দেরী হ'ল এই ধারণাটি হ'ল যে গ্রুপ II এর ডেটা II গ্রুপের থেকে পৃথক এবং কোনটি আবিষ্কার করতে চাইছে যে উপাদানটি পার্থক্যের ক্ষেত্রে প্রধান অবদানকারী কারণ হতে পারে।

একটি পিসিএ বিশ্লেষণ সম্পাদন করা হচ্ছে যা 2 টি আলাদা সেটের জন্য অভিন্ন উপবৃত্তির ফলাফল দেয় এবং তারপরে আপনাকে জানায় যে আপনি পরিমাপ করেছেন এমন কোনও পরামিতি দ্বারা দুটি সেট আলাদা নয়।


2
আমি ভাবছি আপনি মানোভা নিয়ে ভাবছেন কিনা। আপনি যদি দুটি সেপ 4 পিসিএ চালাতেন তবে আপনি কেবল দেখান যে পারস্পরিক সম্পর্ক দুটি একই রকম ছিল।
gung

2
-1। এটি একটি সম্পূর্ণ বিভ্রান্তিকর উত্তর, কারণটি @ গুং দ্বারা বর্ণিত। এছাড়াও, এটি পিসিএ কী তা ব্যাখ্যা করার চেষ্টাও করে না।
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.