স্ট্যান্ডার্ড পিসিএর তুলনায় কার্নেল পিসিএর সুবিধা কী কী?


18

আমি একটি কাগজে একটি অ্যালগরিদম বাস্তবায়ন করতে চাই যা ডেটা ম্যাট্রিক্স পচে যাওয়ার জন্য কার্নেল এসভিডি ব্যবহার করে। সুতরাং আমি কার্নেল পদ্ধতি এবং কার্নেল পিসিএ ইত্যাদি সম্পর্কিত সামগ্রীগুলি পড়ছি তবে এটি এখনও আমার কাছে খুব অস্পষ্ট, বিশেষত যখন এটি গাণিতিক বিবরণে আসে এবং আমার কয়েকটি প্রশ্ন থাকে।

  1. কার্নেল পদ্ধতি কেন? বা, কার্নেল পদ্ধতির সুবিধা কী কী? স্বজ্ঞাত উদ্দেশ্য কী?

    এটি কি ধরে নিচ্ছে যে আরও উচ্চ মাত্রিক স্থানটি বাস্তব বিশ্বের সমস্যাগুলিতে আরও বাস্তবসম্মত এবং কার্নেলবিহীন পদ্ধতির তুলনায় ডেটাগুলিতে অ-লাইন সম্পর্ক প্রকাশ করতে সক্ষম? উপকরণ অনুসারে, কার্নেল পদ্ধতিগুলি ডেটাটিকে একটি উচ্চ-মাত্রিক বৈশিষ্ট্যযুক্ত স্থানে প্রজেক্ট করে তবে তাদের নতুন বৈশিষ্ট্য স্পেসটিকে স্পষ্ট করে গণনা করার দরকার নেই। পরিবর্তে, বৈশিষ্ট্য স্পেসে সমস্ত জোড়া ডাটা পয়েন্টের চিত্রগুলির মধ্যে কেবল কেবল অভ্যন্তরীণ পণ্যগুলি গণনা করা যথেষ্ট। তাহলে কেন উচ্চতর মাত্রিক স্থানটিতে প্রজেক্ট করা?

  2. বিপরীতে, এসভিডি বৈশিষ্ট্যের স্থান হ্রাস করে। তারা কেন এটি বিভিন্ন দিকে করে? কার্নেল পদ্ধতিগুলি উচ্চ মাত্রা সন্ধান করে, যখন এসভিডি নিম্ন মাত্রা চায়। এগুলি একত্রিত করা আমার কাছে অদ্ভুত লাগছে। আমি যে কাগজটি পড়ছি তার অনুসারে ( সিমোনিডিস এট আল। ২০১০ ), এসভিডির পরিবর্তে কার্নেল এসভিডি প্রবর্তন করা তথ্যগুলিতে স্পারসিটি সমস্যা সমাধান করতে পারে, ফলাফলকে উন্নত করতে পারে।

এখানে চিত্র বর্ণনা লিখুন

চিত্রের তুলনা থেকে আমরা দেখতে পাচ্ছি যে কেপিসিএ পিসিএর চেয়ে উচ্চতর বৈকল্পিক (ইগেনভ্যালু) সহ একটি ইগেনভেક્ટર পেয়েছে, আমি মনে করি? কারণ ইগেনভেেক্টর (নতুন স্থানাঙ্ক) এর উপরে পয়েন্টগুলির অনুমানের বৃহত্তম পার্থক্যের জন্য, কেপিসিএ একটি বৃত্ত এবং পিসিএ একটি সরল রেখা, সুতরাং পিপিএর চেয়ে কেপিসিএ উচ্চতর বৈকল্পিকতা লাভ করে। সুতরাং এর অর্থ কি পিপিএ পিসিএর চেয়ে উচ্চতর প্রধান উপাদান পায়?


3
উত্তরের চেয়ে বেশি মন্তব্য: কেপিসিএ স্পেকট্রাল ক্লাস্টারিংয়ের সাথে খুব মিল - কিছু সেটিংসে এটি এমনকি একই। (উদাহরণস্বরূপ cirano.qc.ca/pdf/publication/2003s-19.pdf দেখুন )।

দেরিতে জবাবের জন্য দুঃখিত। হ্যাঁ, আপনার উত্তরটি খুব আলোকিত।
টাইলার :5 来 国 主

উত্তর:


24

পিসিএ (একটি মাত্রিক হ্রাস কৌশল হিসাবে) একটি নিম্ন-মাত্রিক লিনিয়ার উপ-স্থান আবিষ্কার করার চেষ্টা করে যা ডেটা সীমাবদ্ধ। তবে এটি এমন হতে পারে যে ডেটা নিম্ন-মাত্রিক ননলাইনার সাবস্পেসে সীমাবদ্ধ । তাহলে কি হবে?

বিশপের "প্যাটার্ন স্বীকৃতি এবং মেশিন লার্নিং" পাঠ্যপুস্তক থেকে নেওয়া এই চিত্রটি একবার দেখুন (চিত্র 12.16):

বিশপের এমএল বই থেকে কার্নেল পিসিএ

এখানে (বাম দিকে) উপাত্ত পয়েন্টগুলি বেশিরভাগ 2D তে একটি বক্ররেখার পাশে অবস্থিত। পিসিএ মাত্রা দুটি থেকে এক হ্রাস করতে পারে না, কারণ পয়েন্টগুলি একটি সরলরেখার সাথে অবস্থিত হয় না। কিন্তু তবুও, ডেটাগুলি "স্পষ্টতই" এক-মাত্রিক অ-রৈখিক বক্ররেখার কাছাকাছি অবস্থিত। সুতরাং পিসিএ ব্যর্থ হওয়ার পরে, অন্য উপায় থাকতে হবে! এবং প্রকৃতপক্ষে, কার্নেল পিসিএ এই অ-রৈখিক বহুগুণ খুঁজে বের করতে পারে এবং আবিষ্কার করতে পারে যে ডেটা আসলে প্রায় এক-মাত্রিক।

এটি একটি উচ্চ-মাত্রিক স্থানটিতে ডেটা ম্যাপ করে তা করে does এটি প্রকৃতপক্ষে একটি দ্বন্দ্বের মতো দেখতে পারে (আপনার প্রশ্ন # 2), তবে তা নয়। ডেটাগুলি একটি উচ্চ-মাত্রিক স্থানে ম্যাপ করা হয়, তবে তারপরে এটি একটি নিম্ন মাত্রিক উপস্থানে থাকে। সুতরাং আপনি এটি হ্রাস করতে সক্ষম করতে মাত্রিকতা বৃদ্ধি।

"কার্নেল ট্রিক" এর সারমর্মটি হ'ল একজনকে প্রকৃতপক্ষে উচ্চ-মাত্রিক স্থানটি স্পষ্টভাবে বিবেচনা করার প্রয়োজন হয় না , তাই মাত্রিক দিক থেকে এই সম্ভাব্য বিভ্রান্তিক লিপ পুরোপুরি গোপনীয়ভাবে সঞ্চালিত হয়। ধারণাটি অবশ্য একই থাকে।


চমৎকার উত্তর. যদিও কেবল একটি ফলোআপ প্রশ্ন। আপনি বলেছিলেন যে উপরের চিত্রের মতো ডেটা পয়েন্টগুলি যদি অ-রৈখিক হয় তবে পিসিএ কাজ করবে না এবং কার্নেল পিসিএ প্রয়োজন। 4 টিরও বেশি বৈশিষ্ট্য (আসল ওয়ার্ল্ড কেস) রয়েছে এমন ডেটা সেটের জন্য যদি ডেটা পয়েন্টগুলি অরৈখিক হয় তবে আমরা প্রথম স্থানে কীভাবে জানব। এই জাতীয় ডেটা ভিজ্যুয়ালাইজ করতে আমাদের মাত্রিকতা হ্রাস করতে হবে যার অর্থ আমরা পিসিএ ব্যবহার করে ডাইমেনিয়ালিটি হ্রাস করতে পারি যা ভুল হতে পারে কারণ ডেটা অ রৈখিক হতে পারে এবং আমরা ভিজ্যুয়ালাইজ করার জন্য সাধারণ পিসিএ ব্যবহার করি। তারপরে পিসিএর চেয়ে কার্নেল পিসিএ ব্যবহার করার জন্য ডেটা অ লিনিয়ার কিনা তা কীভাবে জানতে পারে
বকতাওয়ার

ধন্যবাদ, @ ব্যবহারকারী আমার ধারণা এটি পিসিএ / কেপিসিএ প্রয়োগের উপর নির্ভর করে। উদাহরণস্বরূপ, যদি এটি কিছু শ্রেণিবদ্ধকরণ, রিগ্রেশন, বা ক্লাস্টারিং অ্যালগরিদমের জন্য প্রিপ্রোসেসিং পদক্ষেপ হিসাবে প্রয়োগ করা হয়, তবে পরবর্তী পর্যায়ের এলগরিদম কতটা ভাল পারফর্ম করে পিসিএ বনাম কেপিসিএ কতটা কার্য সম্পাদন করেছিল তা বিচার করতে পারবেন।
অ্যামিবা

1
ধন্যবাদ @ অ্যামিবা তবে আমি অনুমান করি যে আমি কী জিজ্ঞাসা করতে চেয়েছিলাম তা হ'ল আপনি যেমন উপরে উল্লিখিত উল্লেখ করেছিলেন যে ডেটা অরৈখিক যখন তখন কেপিসিএ ব্যবহার করা দরকার তবে যদি না হয় তবে ডেটা অ-লাইনারিটি আছে কিনা তা কীভাবে জানতে পারে। বৈশিষ্ট্যগুলি 3 এরও বেশি ?. আমরা মাত্রায় না
পৌঁছিয়ে

2
@ বাকতাওয়ার আপনি যদি মেশিন লার্নিং করছেন তবে কল্পনা করবেন না, আপনার মডেলটি নিজে শিখতে দিন। মূলত আপনার অভ্যন্তরীণ পুনরায় মডেলিং লুপের একটি কেপিসিএ পদক্ষেপ অন্তর্ভুক্ত করুন এবং লিনিয়ার কার্নেল এবং আপনি পরীক্ষা করতে পারবেন এমন যে কোনও অন্য সহ প্যারামিটার হিসাবে কার্নেলগুলি পরীক্ষা করুন।
ফায়ারব্যাগ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.