আধা তত্ত্বাবধানে শেখার ক্ষেত্রে বহুগুণ অনুমান কী?


20

আমি আধা-তত্ত্বাবধানে শিক্ষায় বহুগুণ অনুমানের অর্থ কী তা বোঝার চেষ্টা করছি। কেউ কি সহজ উপায়ে ব্যাখ্যা করতে পারেন? এর পিছনে অন্তর্দৃষ্টি আমি পেতে পারি না।

এটি বলে যে আপনার ডেটা উচ্চ মাত্রিক জায়গাতে এমবেড করা নিম্ন-মাত্রিক বহুগুণে থাকে। তার মানে আমি পাইনি।


উত্তর:


38

কল্পনা করুন যে আপনার কাছে কাঁচের প্লেটে একগুচ্ছ বীজ বেঁধেছে, যা টেবিলে অনুভূমিকভাবে বিশ্রাম নিচ্ছে। আমরা সাধারণত স্থান সম্পর্কে যেভাবে চিন্তা করি, সে কারণে এটি নিরাপদ হবে যে এই বীজগুলি কম-বেশি দ্বি-মাত্রিক স্থানে বাস করে, কারণ প্রতিটি বীজ দুটি সংখ্যার দ্বারা চিহ্নিত করা যায় যা বীজের পৃষ্ঠতলের স্থানাঙ্ক দেয় কাচটি.

এখন কল্পনা করুন যে আপনি প্লেটটি নিয়েছেন এবং এটিকে ত্রিভুজটি উপরের দিকের দিকে কাত করুন, যাতে কাচের পৃষ্ঠটি মাটির সাথে সম্মানের সাথে আর অনুভূমিক না হয়। এখন, আপনি যদি একটি বীজ সনাক্ত করতে চান তবে আপনার কাছে কয়েকটি বিকল্প রয়েছে। আপনি যদি গ্লাসটিকে উপেক্ষা করার সিদ্ধান্ত নেন, তবে প্রতিটি বীজ টেবিলের উপরে ত্রি-মাত্রিক জায়গায় ভাসমান বলে মনে হবে এবং তাই আপনাকে প্রতিটি বীজের অবস্থান তিনটি সংখ্যা ব্যবহার করে প্রতিটি স্থানিক দিকের জন্য বর্ণনা করতে হবে। তবে কেবল গ্লাসটি কাত করে আপনি এই সত্যটি পরিবর্তন করেননি যে বীজগুলি এখনও দ্বিমাত্রিক পৃষ্ঠের উপরে বাস করে। সুতরাং আপনি কীভাবে কাচের পৃষ্ঠতলটি ত্রিমাত্রিক স্থানে অবস্থিত তা বর্ণনা করতে পারেন এবং তারপরে আপনি গ্লাসের বীজের অবস্থানগুলি আপনার মূল দুটি মাত্রা ব্যবহার করে বর্ণনা করতে পারেন।

এই চিন্তাধারার পরীক্ষায়, কাচের পৃষ্ঠটি নিম্ন-মাত্রিক বহুগুণের সমান যা একটি উচ্চ মাত্রিক স্থানে বিদ্যমান: আপনি প্লেটটি তিনটি মাত্রায় কীভাবে ঘোরান তা বিবেচনা না করে, বীজগুলি এখনও দ্বি-মাত্রিক বিমানের পৃষ্ঠের পাশে বাস করে।

উদাহরণ

আরও সাধারণভাবে, একটি উচ্চ-মাত্রিক জায়গাতে এমবেড করা একটি নিম্ন-মাত্রিক বহুগুণ কেবলমাত্র পয়েন্টগুলির একটি সেট যা যে কারণেই হোক না কেন, সংযুক্ত হিসাবে বিবেচনা করা হয় বা একই সেটের অংশ হিসাবে বিবেচিত হয়। উল্লেখযোগ্যভাবে, বহুগুণ একরকম উচ্চ-মাত্রিক স্থানে সংযুক্ত করা যেতে পারে (উদাহরণস্বরূপ, সম্ভবত কাচের পৃষ্ঠটি একটি প্লেটের আকারের পরিবর্তে একটি বাটি আকারে আবৃত করা হয়), তবে বহুগুণ এখনও মূলত নিম্ন-মাত্রিক। বিশেষত উচ্চ-মাত্রিক স্থানে, এই বহুগুণ অনেকগুলি বিভিন্ন রূপ এবং আকার নিতে পারে, তবে আমরা ত্রি-মাত্রিক বিশ্বে বাস করি, তাই তিনটি মাত্রার বেশি যে উদাহরণ রয়েছে তা কল্পনা করা কঠিন। যেমন একটি নমুনা হিসাবে, এই উদাহরণগুলি বিবেচনা করুন:

  • শারীরিক স্থানের একটি কাচের টুকরো (পরিকল্পনাকারী, দ্বি-মাত্রিক) (ত্রিমাত্রিক)
  • একক থ্রেড (এক-মাত্রিক) এক টুকরো কাপড়ের (দ্বিমাত্রিক)
  • এক টুকরো কাপড় (দ্বি-মাত্রিক) ওয়াশিং মেশিনে চূর্ণবিচূর্ণ (ত্রিমাত্রিক)

মেশিন লার্নিংয়ে ম্যানিফোল্ডগুলির সাধারণ উদাহরণগুলিতে (বা কম-মাত্রিক সেটগুলি যা নিম্ন-মাত্রিক ম্যানিফোল্ডগুলি ধরে বাস করার জন্য অনুমান করা হয়) এর মধ্যে রয়েছে:

  • প্রাকৃতিক দৃশ্যের চিত্রসমূহ (সাধারণত আপনি সাদা শব্দের চিত্র দেখতে পাচ্ছেন না, উদাহরণস্বরূপ, "প্রাকৃতিক" চিত্রগুলি পিক্সেল কনফিগারেশনের পুরো জায়গা দখল করে না)
  • প্রাকৃতিক শব্দ (অনুরূপ যুক্তি)
  • মানব আন্দোলন (মানবদেহে শত শত ডিগ্রি স্বাধীনতা রয়েছে, তবে নড়াচড়া এমন জায়গায় বাস করে যা appear 10 মাত্রা ব্যবহার করে কার্যকরভাবে প্রতিনিধিত্ব করা যেতে পারে)

বহুগুণ শিখছি

মেশিন লার্নিংয়ের বহুবিধ অনুমানটি হ'ল, পৃথিবীর তথ্য সম্ভাব্য স্থানের প্রতিটি অংশ থেকে আসতে পারে এমনটা ধরে নেওয়ার পরিবর্তে (যেমন, সাদা গোলমাল সহ সমস্ত সম্ভাব্য 1-মেগাপিক্সেল চিত্রের স্থান), ধরে নেওয়া আরও বেশি অর্থবোধ করে প্রশিক্ষণের ডেটা তুলনামূলকভাবে নিম্ন-মাত্রিক ম্যানিফোল্ডগুলি (বীজের সাথে কাচের প্লেটের মতো) থেকে আসে। তারপরে বহুগুণের কাঠামো শেখা একটি গুরুত্বপূর্ণ কাজ হয়ে যায়; অতিরিক্ত হিসাবে, লেবেলযুক্ত প্রশিক্ষণের ডেটা ব্যবহার না করে এই শেখার কাজটি সম্ভব বলে মনে হচ্ছে।

নিম্ন-মাত্রিক বহুগুণের কাঠামো শেখার অনেকগুলি বিভিন্ন উপায় রয়েছে। সর্বাধিক ব্যবহৃত পদ্ধতির একটি হ'ল পিসিএ, যা ধরে নিয়েছে যে বহুগুণে একটি প্যানকেক বা সিগার আকৃতির মতো একক উপবৃত্তাকার "ব্লব" রয়েছে, যা উচ্চতর মাত্রায় স্থান ধারণ করে। আইসোম্যাপ, আইসিএ বা স্পার কোডিংয়ের মতো আরও জটিল কৌশল বিভিন্ন উপায়ে এই অনুমানগুলিকে কিছুটা শিথিল করে।

আধা তত্ত্বাবধানে শেখা

আধা তত্ত্বাবধানে শেখার ক্ষেত্রে বহুগুণ অনুমানের কারণ দ্বিগুণ। অনেক বাস্তববাদী কাজের জন্য (উদাহরণস্বরূপ, কোনও চিত্রের পিক্সেলগুলি 4 বা 5 দেখায় কিনা তা নির্ধারণ করে) বিশ্বে লেবেল ছাড়াই বিশ্বে আরও অনেক বেশি ডেটা পাওয়া যায় (উদাহরণস্বরূপ, চিত্রগুলিতে অঙ্ক থাকতে পারে) এর চেয়ে লেবেল (যেমন, চিত্রগুলি যা স্পষ্টভাবে "4" বা "5" লেবেলযুক্ত)। ইমেজগুলির লেবেলগুলির তুলনায় চিত্রগুলির পিক্সেলগুলিতে চিত্রের পিক্সেলগুলিতে আরও বহু পরিমাণের আরও অর্ডার পাওয়া যায়। তবে, যেমনটি আমি উপরে বর্ণিত করেছি, প্রাকৃতিক চিত্রগুলি প্রকৃত চিত্রগুলি পিক্সেল কনফিগারেশনের তুলনায় অভিন্ন বিতরণ থেকে নমুনাযুক্ত নয়, সুতরাং সম্ভবত এমন মনে হয় যে প্রাকৃতিক চিত্রগুলির কাঠামোটি ক্যাপচার করে এমন কিছু বহুগুণ রয়েছে।ম্যানিফোল্ড, যখন 5 এস সমন্বিত চিত্রগুলি একইভাবে আলাদা তবে কাছের বহুগুণে থাকে, তবে আমরা কেবলমাত্র পিক্সেল ডেটা ব্যবহার করে এই ম্যানিফোল্ডগুলির প্রত্যেকটির জন্য উপস্থাপনা বিকাশের চেষ্টা করতে পারি, আশা করি যে ডেটার বিভিন্ন বিদিত বৈশিষ্ট্যগুলি ব্যবহার করে বিভিন্ন ম্যানিফোল্ডগুলি প্রতিনিধিত্ব করা হবে। তারপরে, পরে, যখন আমাদের কাছে কয়েকটি বিট লেবেল ডেটা উপলব্ধ থাকে, আমরা সেই বিটগুলি কেবলমাত্র ইতিমধ্যে চিহ্নিত ম্যানিফোল্ডগুলিতে লেবেল প্রয়োগ করতে পারি।

এই ব্যাখ্যাটির বেশিরভাগটি গভীর এবং বৈশিষ্ট্য শেখার সাহিত্যের কাজ থেকে আসে। যোশুয়া বেনজিও এবং ইয়ান লেকুন - দেখুন এনার্জি বেসড লার্নিং টিউটোরিয়ালটির বিশেষত এই ক্ষেত্রে অ্যাক্সেসযোগ্য যুক্তি রয়েছে।


1
এটি প্রশ্নের উত্তর দেয় না: আপনি কেন বহুগুণ কেন প্রয়োজন তা ব্যাখ্যা করছেন না, উচ্চতর মাত্রিক এম্বেডিং কেন প্রয়োজন হয় না তা আপনি মূলত ব্যাখ্যা করছেন (আপনার উদাহরণগুলি ফিট করার জন্য উচ্চতর মাত্রিক এম্বেডিংয়ের একটি উপসেটটি বহুগুণ নয়)।
11

5

প্রথমে নিশ্চিত হয়ে নিন যে এম্বেডিং কী তা আপনি বুঝতে পেরেছেন। এটা গণিত থেকে ধার করা । মোটামুটিভাবে বলতে গেলে এটি হ'ল ডেটা ম্যাপিং অন্য কোনও স্পেসে (প্রায়শই এম্বেডিং স্পেস বা ফিচার স্পেস বলা হয় ), যা কিছু স্ট্রাকচার বা ডেটার বৈশিষ্ট্য সংরক্ষণ করে। নোট করুন যে এর মাত্রিকতা ইনপুট স্পেসের চেয়ে বড় বা ছোট হতে পারে। অনুশীলনে, ম্যাপিং জটিল এবং অত্যন্ত অ-রৈখিক। কয়েকটি উদাহরণ:

  • একটি শব্দকে উপস্থাপন করার জন্য একটি আসল মূল্যবান "শব্দ ভেক্টর", যেমন ওয়ার্ড 2vec
  • কনফেটের একটি স্তরের ক্রিয়াকলাপগুলি, যেমন এফসি 7 স্তর অ্যালেক্সনেট (এফসি 7 সপ্তম সম্পূর্ণ-সংহত স্তর)

উদাহরণস্বরূপ, আমি জোশ টেনেনবাউমের এই কাগজের একটি উদাহরণ নেব :

চিত্র 1 ভিজ্যুয়াল উপলব্ধি থেকে একটি উদাহরণ সহ বৈশিষ্ট্য আবিষ্কারের সমস্যাটিকে চিত্রিত করে। সমস্ত সম্ভাব্য দৃষ্টিকোণগুলির থেকে মুখের দর্শনগুলির সেটটি একটি অত্যন্ত উচ্চ-মাত্রিক ডেটা সেট যখন কোনও কম্পিউটারে বা রেটিনাতে চিত্র অ্যারে হিসাবে উপস্থাপিত হয়; উদাহরণস্বরূপ, 32 x 32 পিক্সেল ধূসর-স্কেল চিত্রগুলিকে 1,024-মাত্রিক পর্যবেক্ষণ স্থান [ইনপুট স্পেস] হিসাবে পয়েন্ট হিসাবে ভাবা যেতে পারে । এই চিত্রগুলির [বৈশিষ্ট্য স্পেস] এর বোধগম্য অর্থবহ কাঠামো , তবে, অনেক কম মাত্রার; চিত্র 1-এ সমস্ত চিত্র কোণের দ্বারা দ্বি-মাত্রিক বহুবিধ প্যারামিটারাইজড রয়েছে

এখানে চিত্র বর্ণনা লিখুন

এরপরে জোশ টেনেনবাউম ইনপুট থেকে ফিচার স্পেসে এ জাতীয় ম্যাপিং শেখার সমস্যাগুলি নিয়ে আলোচনা করে। তবে আসুন এই প্রশ্নে ফিরে যাওয়া যাক: আমরা কীভাবে ইনপুট এবং বৈশিষ্ট্যগুলির স্থানগুলির সাথে সম্পর্কিত সে বিষয়ে আগ্রহী।

  • 32*32 array of grey pixel valuesইনপুট স্থান
  • [x1=elevation, x2=azimuth]স্থান (যদিও সরল, এটি একটি বৈধ এমবেডিং স্থান হিসাবে ভাবা যেতে পারে) বৈশিষ্ট্য স্থান।

বহুগুণ অনুমানের পুনরায় উল্লেখ করা ( এই দুর্দান্ত নিবন্ধটি উদ্ধৃত করে ):

বহুগুণ অনুমানটি হ'ল প্রাকৃতিক ডেটাগুলি এর এমবেডিং স্পেসে নিম্ন-মাত্রিক ম্যানিফোল্ডগুলি গঠন করে

এই উদাহরণ সহ, এটি স্পষ্ট যে এম্বেডিং স্পেসের মাত্রিকতা কম ইনপুট স্পেসের চেয়ে কম: 2 বনাম 1024 ((এই পার্থক্যটি পছন্দগুলি উচ্চতর মাত্রিক, কম সরল এম্বেডিং স্পেসগুলির জন্যও ধারণ করবে)।

নিজেকে বোঝানোর জন্য যে এম্বেডিং বহুগুণ তৈরি করে, আমি আপনাকে টেনেনবামের বাকী কাগজ বা কোলা প্রবন্ধটি পড়ার জন্য আমন্ত্রণ জানাচ্ছি ।

দ্রষ্টব্য: এটি হ'ল বহুগুণ অনুমানের অর্থ একটি চিত্র, এটি কেন ঘটে তার একটি যুক্তি নয়

সম্পর্কিত: শব্দের ভেক্টর , ওয়ার্ড টুভেক পেপারের ব্যাখ্যা

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.