অটোনকোডারগুলির উদ্দেশ্য কী?


10

অটেনকোডারগুলি হ'ল নিউরাল নেটওয়ার্ক যা পরবর্তীতে এটি পুনর্গঠন করার জন্য ইনপুটটির সংকুচিত প্রতিনিধিত্ব শিখেছে, যাতে তারা মাত্রিকতা হ্রাসের জন্য ব্যবহার করা যেতে পারে। এগুলি একটি এনকোডার এবং একটি ডিকোডার (যা পৃথক নিউরাল নেটওয়ার্ক হতে পারে) নিয়ে গঠিত। মাত্রিকতার অভিশাপ সম্পর্কিত বিষয়গুলি মোকাবেলা করতে বা তত্পর করতে ডাইমেনশনালিটি হ্রাস কার্যকর হতে পারে, যেখানে ডেটা অপ্রয়োজনীয় হয়ে যায় এবং "পরিসংখ্যানগত তাত্পর্য" অর্জন করা আরও কঠিন। সুতরাং, মাত্রিকতার অভিশাপ মোকাবেলায় অটোরকোডারগুলি (এবং পিসিএর মতো অ্যালগরিদম) ব্যবহার করা যেতে পারে।

কেন আমরা বিশেষত স্বয়ংক্রিয়কোডার ব্যবহার করে মাত্রিকতা হ্রাস সম্পর্কে যত্নশীল? উদ্দেশ্য মাত্রা হ্রাস যদি আমরা কেবল পিসিএ ব্যবহার করতে পারি না?

আমরা কেবল মাত্র মাত্রিক হ্রাস সম্পাদন করতে চাইলে ইনপুটটির সুপ্ত প্রতিনিধিত্বকে কেন সঙ্কোচিত করা দরকার, বা কেন আমাদের একটি স্বয়ংক্রিয়কোডারে ডিকোডার অংশের প্রয়োজন? ব্যবহারের ক্ষেত্রে কী কী? সাধারণভাবে, কেন ইনপুটটি পরে সংক্ষেপণ করতে সংকোচিত করা দরকার? আসল ইনপুটটি (শুরু করার জন্য) ব্যবহার করা কি ভাল হবে না?


1
ক্রসভ্যালিটেড এসই-তে নিম্নলিখিত প্রশ্ন stats.stackexchange.com/q/82416/82135 দেখুন ।
এনবিরো

উত্তর:


6

ডেটাতে কী ধরণের নিদর্শনগুলি প্রতিনিধিত্ব করা হচ্ছে তা চিন্তা করা গুরুত্বপূর্ণ।

ধরুন আপনার গ্রেস্কেল চিত্রগুলির একটি ডেটাসেট রয়েছে, যেমন প্রতিটি চিত্র একরকম তীব্রতা। একটি মানব মস্তিষ্ক হিসাবে আপনি বুঝতে পেরেছেন যে এই ডেটাসেটের প্রতিটি উপাদানকে একটি একক সংখ্যাসূচক প্যারামিটারের ক্ষেত্রে বর্ণনা করা যেতে পারে, যা তীব্রতার মান। এটি এমন কিছু যা পিসিএ ভাল কাজ করবে, কারণ প্রতিটি মাত্রা (আমরা প্রতিটি পিক্সেলকে একটি ভিন্ন মাত্রা হিসাবে ভাবতে পারি) পুরোপুরি রৈখিকভাবে সম্পর্কযুক্ত।

এর পরিবর্তে ধরুন যে আপনার কাছে কেন্দ্রিক চেনাশোনাগুলির কালো এবং সাদা 128x128px বিটম্যাপ চিত্রের একটি ডেটাसेट রয়েছে। একটি মানব মস্তিষ্ক হিসাবে আপনি দ্রুত বুঝতে পারবেন যে এই ডেটাসেটের প্রতিটি উপাদান সম্পূর্ণরূপে একক সংখ্যাসূচক প্যারামিটার দ্বারা বর্ণিত হতে পারে যা বৃত্তের ব্যাসার্ধ। এটি 16384 বাইনারি মাত্রা থেকে হ্রাস একটি খুব চিত্তাকর্ষক স্তর, এবং সম্ভবত আরও গুরুত্বপূর্ণ এটি ডেটা একটি শব্দার্থ অর্থবোধক সম্পত্তি। তবে পিসিএ সম্ভবত সেই প্যাটার্নটি খুঁজে পাবে না।

আপনার প্রশ্নটি ছিল "উদ্দেশ্য মাত্রা হ্রাস যদি আমরা কেবল পিসিএ ব্যবহার করতে পারি না?" এর সহজ উত্তরটি হ'ল পিসিএ হ'ল মাত্রিক মাত্রা হ্রাস করার সহজতম সরঞ্জাম তবে এটি অনেকগুলি সম্পর্কের হাতছাড়া করতে পারে যা আরও বেশি শক্তিশালী কৌশল যেমন অটোইনকোডারগুলি সন্ধান করতে পারে।


3

স্বয়ংক্রিয় কোডারগুলির ব্যবহারের ক্ষেত্রে (বিশেষত, স্বয়ংক্রিয়কোডারের ডিকোডার বা জেনারেটরি মডেলের) ইনপুটটিকে চিহ্নিত করতে হয়। ডায়নোইজিং অটোইনকোডারস নামে পরিচিত এই ধরণের অটোইনকোডারগুলি একটি আংশিক দূষিত ইনপুট নেয় এবং তারা সংশ্লিষ্ট অনাবৃত ইনপুটটিকে পুনর্গঠনের চেষ্টা করে। এই মডেলের বেশ কয়েকটি অ্যাপ্লিকেশন রয়েছে। উদাহরণস্বরূপ, যদি আপনার কোনও দূষিত চিত্র থাকে, তবে আপনি সম্ভাব্যভাবে একটি ডিনোইজিং অটোরকোডার ব্যবহার করে নিরর্থকৃতটিকে পুনরুদ্ধার করতে পারেন।

অটোরকোডার এবং পিসিএ সম্পর্কিত:

একটি সম্পূর্ণরূপে সংযুক্ত লুকানো স্তর, একটি রৈখিক অ্যাক্টিভেশন ফাংশন এবং একটি স্কোয়ার ত্রুটি ব্যয় ক্রিয়াকলাপের সাথে একটি স্বয়ংক্রিয় কোডার ওজন ট্রেনের ওজন যা মূল উপাদান লোডিং ভেক্টর দ্বারা বিভক্ত একই স্থানের স্প্যান করে, তবে তারা লোডিং ভেক্টরগুলির সাথে অভিন্ন নয়।

আরও তথ্যের জন্য, এলাদ প্লাটের প্রিন্সিপাল সাবস্পেসেস থেকে লিনিয়ার অটেনকোডার্স (2018) সহ প্রিন্সিপাল কম্পোনেন্টগুলি থেকে কাগজটি দেখুন । এই উত্তরটিও দেখুন , যা পিসিএ এবং অটোএনকোডারগুলির মধ্যে সম্পর্কেরও ব্যাখ্যা করে।


3

পিসিএ একটি লিনিয়ার পদ্ধতি যা একটি রূপান্তর তৈরি করে যা ভেক্টর প্রজেকশনগুলি পরিবর্তন করতে সক্ষম হয় (অক্ষ পরিবর্তন করে)

যেহেতু পিসিএ সর্বাধিক ভ্যারিয়েন্সের দিক জন্য দেখায় এটি সাধারণত উচ্চ discriminativity আছে কিন্তু এটা নিশ্চিত নয় যে সবচেয়ে ভ্যারিয়েন্সের দিক সবচেয়ে discriminativity দিক নেই।

এলডিএ একটি লিনিয়ার পদ্ধতি যা এমন একটি রূপান্তর তৈরি করে যা কোনও ভেক্টর এ বা বি শ্রেণীর অন্তর্ভুক্ত কিনা তা নির্ধারণের জন্য সবচেয়ে প্রাসঙ্গিক দিকটি সন্ধান করতে সক্ষম is

পিসিএ এবং এলডিএর অ-লিনিয়ার কার্নেল সংস্করণ রয়েছে যা তাদের রৈখিক সীমাবদ্ধতাগুলি অতিক্রম করতে পারে।

অটোরকোডাররা অন্যান্য ধরণের ক্ষতির ক্রিয়াকলাপের সাথে মাত্রিকতা হ্রাস সম্পাদন করতে পারে, অ-রৈখিক হতে পারে এবং অনেক ক্ষেত্রে পিসিএ এবং এলডিএর চেয়ে আরও ভাল পারফর্ম করতে পারে।

কোনও কিছু করার জন্য সম্ভবত কোনও সেরা মেশিন লার্নিং অ্যালগরিদম নেই, কখনও কখনও ডিপ লার্নিং এবং নিউরাল নেটগুলি সহজ সমস্যার জন্য ওভারকিল হয় এবং পিসিএ এবং এলডিএকে আরও জটিলতর, মাত্রিকতা হ্রাসের আগে চেষ্টা করা যেতে পারে।


1
এলডিএর প্রশ্নের সাথে কী করতে হবে?
nbro

এলডিএটি মাত্রিকতা হ্রাস হিসাবে ব্যবহার করা যেতে পারে। আসল অ্যালগরিদমটি কেবলমাত্র একটি অভিক্ষেপ পেয়েছে তবে আপনি আরও নিখুঁত মডেলিংয়ের জন্য নিম্ন র‌্যাঙ্কিং বৈষম্যমূলক দিক পেতে এটি ব্যবহার করতে পারেন
পেড্রো হেনরিক মোনফোর্ট

পিসিএটিও সর্বাধিক পরিবর্তনের গ্যারান্টি দেয় না, যেহেতু এটি একটি লোভী অ্যালগরিদম এটি কেবল সর্বাধিকের কাছাকাছি।
ম্যাথিউ বাউভিল

পিসিএ একটি বদ্ধ সমাধান আছে, প্রধান অক্ষ সর্বদা সর্বোচ্চ বৈকল্পিক ডি দিক হতে হবে। এটি কোনও লোভী অ্যালগরিদম নয় (তবে এটি এক হিসাবে প্রয়োগ করা যেতে পারে)
পেড্রো হেনরিক মোনফোর্ট

1
  1. নেটওয়ার্ক প্রশিক্ষণের জন্য ক্ষতি ফাংশন গণনা করার জন্য ডিকোডার অর্ধেক প্রয়োজনীয়। আপনি যদি জেনেরেটরি উপাদানটিতে আগ্রহী হন এমনকি এমনকি 'জিএইএন'তে কীভাবে' বিদ্রোহী 'প্রয়োজনীয় তা সমান Similar
  2. অটেনকোডাররা তথ্যের লিনিয়ার এম্বেডিংগুলি শিখতে পারে এবং তাই ভ্যানিলা পিসিএর চেয়ে আরও শক্তিশালী।
  3. অটেনকোডারগুলিতে মাত্রা হ্রাস ছাড়াই অ্যাপ্লিকেশন রয়েছে :
    • নতুন ডেটা পয়েন্ট তৈরি করা, বা ইন্টারপোলেশন সম্পাদন (ভিএই'র দেখুন)
    • Denoising ফিল্টার তৈরি করুন (যেমন চিত্র প্রক্রিয়াকরণে)
    • সংকোচন / ডিকম্প্রেস ডেটা
    • লিঙ্ক পূর্বাভাস (যেমন ড্রাগ আবিষ্কার)
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.