বড় ডেটাসেটের জন্য গাউসিয়ান প্রক্রিয়া রিগ্রেশন


10

আমি অনলাইন ভিডিও এবং লেকচার নোটগুলি থেকে গাউসীয় প্রক্রিয়া সংক্ষিপ্তকরণ সম্পর্কে শিখছি, এটি সম্পর্কে আমার ধারণাটি হ'ল আমরা যদি পয়েন্ট সহ একটি ডেটাসেট রাখি তবে আমরা ধরে নিই যে ডাইমেনশনাল মাল্টিভারিয়েট গাউসিয়ান থেকে ডেটা নমুনা করা হয়েছে । সুতরাং আমার প্রশ্নটি সেই ক্ষেত্রে যেখানে 10 মিলিয়ন এর মধ্যে 10 কি গাওসীয় প্রক্রিয়া রিগ্রেশন এখনও কাজ করে? কার্নেল ম্যাট্রিক্স প্রক্রিয়াটি সম্পূর্ণরূপে অকার্যকর রেন্ডারিং হবে না? যদি তাই হয় তবে এর সাথে মোকাবিলার জন্য কি কোনও কৌশল রয়েছে, যেমন বারবার বহুবার ডেটা সেট থেকে নমুনা দেওয়ার মতো? এই জাতীয় মামলা মোকাবেলার জন্য কয়েকটি ভাল পদ্ধতি কী কী? এনএনএন


3
আপনি কেন গাউসিয়ান প্রক্রিয়া ব্যবহার করতে চান এবং এমন কোনও কিছু নয় যা বড় ডেটা নিয়ে কাজ করার জন্য নির্ধারিত?
টিম

উত্তর:


7

বড় ডেটাসেটগুলিতে জিপি স্কেল করার জন্য বিভিন্ন ধরণের পন্থা রয়েছে, উদাহরণস্বরূপ:

নিম্ন র‌্যাঙ্কের পদ্ধতি : সমবায়ু ম্যাট্রিক্সের জন্য নিম্ন স্তরের সান্নিধ্য তৈরি করার এই প্রচেষ্টা ea সর্বাধিক বিখ্যাত সম্ভবত নাইস্ট্রমস পদ্ধতি যা পয়েন্টগুলির একটি উপসেটে ডেটা প্রজেক্ট করে। এফআইটিসি এবং পিআইটিসি থেকে বিল্ডিং তৈরি করা হয়েছিল যা পর্যালোচনা পয়েন্টের পরিবর্তে সিউডো পয়েন্ট ব্যবহার করে। এগুলিকে জিপিআই পাইথন লাইব্রেরি অন্তর্ভুক্ত করা হয়েছে। অন্যান্য পদ্ধতির মধ্যে র্যান্ডম ফুরিয়ার বৈশিষ্ট্যগুলি অন্তর্ভুক্ত রয়েছে।

এইচ-ম্যাট্রিক্স : এগুলি কোভরিয়েন্স ম্যাট্রিক্সের শ্রেণিবিন্যাসিক কাঠামোগত ব্যবহার করে এবং প্রতিটি কাঠামো সাবমেট্রিক্সে নিম্ন স্তরের আনুমানিক প্রয়োগ করে। জনপ্রিয় লাইব্রেরিতে এটি কম প্রয়োগ করা হয়।

ক্রোনেকার পদ্ধতি : এইগুলি মাথা গণ্ডগোলের ওপরে কম্পিউটারের গতি বাড়ানোর জন্য কোভেরিয়েন্স ম্যাট্রিক্সের ক্রোনেকার পণ্য ব্যবহার করে।

বায়েশিয়ান কমিটি মেশিনগুলি : এর মধ্যে আপনার ডেটা সাবটায় বিভক্ত করা এবং প্রতিটি জিপি দিয়ে মডেলিং করা জড়িত। তারপরে আপনি আউটপুটগুলির সর্বোত্তম বায়েশিয়ান সংমিশ্রণটি ব্যবহার করে পূর্বাভাসগুলি একত্রিত করতে পারেন। এটি নিজেকে বাস্তবায়ন করা বেশ সহজ এবং দ্রুত তবে আপনার কার্নেলটি সম্পর্কে আপনারা বিরক্ত হচ্ছেন। মার্ক ডেইজনথের কাগজটি এখানে অনুসরণ করা যথেষ্ট সহজ হওয়া উচিত ।


5

সাধারণত, আপনি যা করতে পারেন তা হ'ল আপনার ডেটাসেট (ব্যাগিং) -এর নমুনায় গউশিয়ান প্রক্রিয়াগুলি প্রশিক্ষণ। ব্যাগিং স্ক লারিতে প্রয়োগ করা হয় এবং সহজেই ব্যবহার করা যায়। উদাহরণস্বরূপ ডকুমেন্টেশন দেখুন

কল করা হচ্ছে এন পর্যবেক্ষণ সংখ্যা, এনএকটিগুলি আপনি যে ব্যাগ ব্যবহার করেন তার সংখ্যা এবং এনপি প্রতি ব্যাগের পয়েন্টের সংখ্যা, এটি থেকে প্রশিক্ষণের সময় পরিবর্তন করতে দেয় হে(এন3) to a হে(এনএকটিগুলিএনপি3)। অতএব, ছোট ব্যাগ সহ কিন্তু সমস্ত ডেটা ব্যবহার করে, আপনি অনেক কম প্রশিক্ষণের সময় অর্জন করতে পারেন। দুর্ভাগ্যক্রমে, এটি প্রায়শই মডেলের কর্মক্ষমতা হ্রাস করে।

ব্যাগিং কৌশলগুলি ছাড়াও, গাউসিয়ান প্রক্রিয়া অঞ্চলগুলিকে স্কেলযোগ্যযোগ্য করে তোলার বিষয়ে কিছু সক্রিয় গবেষণা রয়েছে। স্কেলেবল স্ট্রাকচার্ড গাউসিয়ান প্রসেসিস (কেআইএসএস-জিপি) এর জন্য কার্নেল ইন্টারপোলেশন নিবন্ধটি প্রশিক্ষণের সময়কে হ্রাস করার প্রস্তাব দিয়েছেহে(এন) এবং একটি ম্যাটলব কোড সহ আসে।


5

তুমি জিজ্ঞেস করেছিলে:

এক্ষেত্রে যেখানে 10 মিলিয়ন ডলারের গৌসিস প্রক্রিয়া রিগ্রেশন এখনও কাজ করে?

একটি বৃহত ম্যাট্রিক্স নির্মাণ এবং উল্টানোর মানক অর্থে নয়। আপনার দুটি বিকল্প রয়েছে: 1) একটি ভিন্ন মডেল চয়ন করুন বা 2) একটি আনুমানিক তৈরি করুন।

1) কিছু জিপি-ভিত্তিক মডেলগুলি খুব বড় ডেটা সেটগুলিতে স্কেল করা যায়, যেমন উপরের উত্তরে লিঙ্কযুক্ত বায়েশিয়ান কমিটি মেশিন। আমি এই পদ্ধতির চেয়ে বরং সন্তোষজনক বলে মনে করি: জিপি মডেল বাছাই করার পক্ষে যুক্তিসঙ্গত কারণ রয়েছে এবং যদি আমরা আরও বেশি গণনীয় মডেলটিতে চলে যেতে পারি তবে আমরা মূল মডেলের বৈশিষ্ট্য ধরে রাখতে পারি না। বিসিএমের ভবিষ্যদ্বাণীমূলক রূপগুলি উদাহরণস্বরূপ, ডেটা বিভক্তির উপর দৃ strongly়ভাবে নির্ভর করে।

2) জিপিগুলিতে আনুমানিকভাবে 'ক্লাসিকাল' পদ্ধতির কাছে কার্নেল ম্যাট্রিক্স আনুমানিক। এই ধরণের পদ্ধতিগুলির এখানে একটি ভাল পর্যালোচনা রয়েছে: http://www.jMLr.org/papers/volume6/quinonero-candela05a/quinonero-candela05a.pdf । প্রকৃতপক্ষে, আমরা সাধারণত এই ম্যাট্রিক্স অনুমানকে মডেল আনুমানিক হিসাবে দেখতে পারি এবং বায়েশিয়ান কমিটি মেশিনের সাথে এগুলি মিশ্রিত করতে পারি: তারা মডেলটিতে পরিবর্তন এসেছে এবং এই পরিবর্তনগুলি কখন প্যাথলজিকাল হতে পারে তা বোঝা শক্ত। এখানে একটি দুর্দান্ত পর্যালোচনা: https://papers.nips.cc/paper/6477- বোঝার-probabilistic-sparse-ga Persian-process-approximations.pdf

বৃহত জিপি-র জন্য প্রায় অনুমানের পক্ষে আমি যেভাবে পরামর্শ দিচ্ছি তা হ'ল কার্নেল ম্যাট্রিক্স বা মডেলটিকে ঘনিষ্ঠভাবে এড়ানো এবং ভেরিয়েশনাল ইনফারেন্স ব্যবহার করে উত্তরোত্তর বিতরণকে আনুমানিক এড়ানো to অনেকগুলি গণনা 'নিম্ন র‌্যাঙ্কের' ম্যাট্রিক্সের সান্নিধ্যের মতো দেখায়, তবে একটি খুব পছন্দসই সম্পত্তি রয়েছে: আপনি যত বেশি গণনা ব্যবহার করেন (আরও "র‌্যাঙ্কস") কাছাকাছি আসল কাছাকাছি হয়, যেমন কেএল দ্বারা পরিমাপ করা হয় বিকিরণ।

এই নিবন্ধগুলি একটি ভাল সূচনা পয়েন্ট: http://proceedings.MLr.press/v5/titsias09a/titsias09a.pdf https://arxiv.org/pdf/1309.6835

আমি এখানে একই যুক্তিতে একটি দীর্ঘ নিবন্ধ লিখেছি: https://www.prowler.io/blog/sparse-gps-approtimate-the-posterior-not-the-model

অনুশীলনে, পরিবর্তনীয় আনুমানিকতা অনেক ক্ষেত্রে সত্যই ভাল কাজ করে। আমি এটি বাস্তব অ্যাপ্লিকেশনগুলিতে ব্যাপকভাবে ব্যবহার করেছি। এবং সম্প্রতি এটি কেন কাজ করা উচিত তা ব্যাক আপ করার জন্য কিছু দুর্দান্ত তত্ত্ব রয়েছে ( https://arxiv.org/abs/1903.03571 )।

একটি চূড়ান্ত প্লাগ: জিপিগুলিতে ভেরিয়েন্টাল ইনফারেন্সনটি জিপিফ্লোতে প্রয়োগ করা হয় ( https://github.com/GP ফ্লো / জিপিফ্লো )


1
কেবল রেকর্ডের জন্য যদি কেউ এই কথাটি জানতে পারে এবং না জানে তবে জেমস মাইক ওসবার্ন, নিল লরেন্স এবং আরও কিছু সহ এই ক্ষেত্রের অন্যতম আধিকারিক হবেন
j__
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.