উচ্চ মাত্রিক ডেটা সেটগুলির জন্য গাউসিয়ান প্রক্রিয়া রিগ্রেশন reg


10

উচ্চ পর্যায়ের ডেটা সেটগুলিতে কাউকে গাউসিয়ান প্রক্রিয়া রিগ্রেশন (জিপিআর) প্রয়োগ করার কোনও অভিজ্ঞতা আছে কিনা তা দেখতে চেয়েছিলেন। আমি কয়েকটি বিচ্ছিন্ন জিপিআর পদ্ধতিতে (যেমন স্পার্স সিউডো-ইনপুটস জিপিআর) সন্ধান করছি যা উচ্চ মাত্রিক ডেটা সেটগুলির জন্য কী কাজ করতে পারে তা দেখতে আদর্শভাবে বৈশিষ্ট্য নির্বাচন প্যারামিটার নির্বাচন প্রক্রিয়ার অংশ part

কাগজপত্র / কোড / বা চেষ্টা করার বিভিন্ন পদ্ধতি সম্পর্কে যে কোনও পরামর্শ অবশ্যই প্রশংসিত হয়।

ধন্যবাদ।


2
যেমনটি বলা হয়েছে, এই প্রশ্নটি বেশ অস্পষ্ট। যে প্রশ্নগুলি স্বয়ংসম্পূর্ণ, কংক্রিট এবং সুপ্রেরণিত সেগুলি এখানে সর্বাধিক মনোযোগ এবং সর্বোত্তম উত্তর পেতে থাকে। (উদাহরণস্বরূপ, আপনি যদি সমাধান করার চেষ্টা করছেন এমন কোনও বিশেষ সমস্যা থেকে থাকে তবে পর্যাপ্ত বিবরণ দেওয়ার বিষয়টি বিবেচনা করুন যা আপনি কী করতে চাইছেন তা পাঠক বুঝতে পারে))
কার্ডিনাল

উত্তর:


13

গাউসিয়ান প্রক্রিয়া মডেলগুলি উচ্চ মাত্রিক ডেটাসেটগুলির সাথে সাধারণত ভাল থাকে (আমি এগুলিকে মাইক্রোয়ারে ডেটা ইত্যাদির সাথে ব্যবহার করেছি)। তারা কী হাইপার-প্যারামিটারগুলির জন্য ভাল মানগুলি বেছে নিতে পারে (যা নিয়মিতকরণের মতো একই পদ্ধতিতে মডেলের জটিলতা নিয়ন্ত্রণ করে)।

বিপুল সংখ্যক বৈশিষ্ট্যের পরিবর্তে বিপুল সংখ্যক নমুনা (> আমার কম্পিউটারের জন্য প্রায় 4000) সহ ডেটাसेटগুলির জন্য স্পার পদ্ধতি এবং সিউডো-ইনপুট পদ্ধতিগুলি বেশি more আপনার যদি কোভেরিয়েন্স ম্যাট্রিক্সের কোলেস্কি পচানোর জন্য শক্তিশালী কম্পিউটার থাকে (এন দ্বারা এন যেখানে নমুনাগুলির সংখ্যা হয়) তবে আপনার সম্ভবত এই পদ্ধতিগুলির প্রয়োজন হবে না।

আপনি যদি একজন ম্যাটল্যাব ব্যবহারকারী হন তবে আমি জিপিএমএল টুলবক্স এবং রাসমুসেন এবং উইলিয়ামসের বইটি শুরু করার ভাল জায়গা হিসাবে সুপারিশ করব।

তবুও, আপনি যদি বৈশিষ্ট্য নির্বাচনের প্রতি আগ্রহী হন তবে আমি জিপিগুলি এড়াতে পারি। জিপি সহ বৈশিষ্ট্য নির্বাচনের মানক পদ্ধতিটি একটি স্বয়ংক্রিয় প্রাসঙ্গিক নির্ধারণ কার্নেল (যেমন জিপিএমএল-এ কোভসার্ড) ব্যবহার করা হবে এবং তারপরে প্রান্তিক সম্ভাবনা সর্বাধিকতর করতে কার্নেল প্যারামিটারগুলি সুর করে বৈশিষ্ট্য নির্বাচন অর্জন করবে। দুর্ভাগ্যক্রমে এটি খুব সম্ভবত প্রান্তিক সম্ভাবনা বেশি ফিট করে এবং একটি সাদামাটা গোলাকার রেডিয়াল বেস ফাংশন (জিপিএমএল-এ কোভএসইসো) কোভেরিয়েন্সের তুলনায় একটি মডেলের তুলনায় খারাপ (সম্ভবত অনেক) আরও খারাপ পারফর্ম করার সমাপ্তি ঘটে।

আমার বর্তমান গবেষণার কেন্দ্রবিন্দু এই মুহুর্তে মডেল নির্বাচনের অতিরিক্ত ফিটিংয়ের উপর নির্ভর করে এবং আমি দেখতে পেয়েছি যে এটি জিপিগুলিতে প্রমাণ সর্বাধিককরণের জন্য যতটা সমস্যা কারণ এটি কার্নেল মডেলগুলিতে হাইপার-প্যারানটারগুলির ক্রস-বৈধতা ভিত্তিক অপ্টিমাইজেশনের জন্য, বিশদ জন্য দেখতে এই কাগজ , এবং এই এক

অ-লিনিয়ার মডেলগুলির জন্য বৈশিষ্ট্য নির্বাচন করা খুব জটিল is প্রায়শই আপনি একটি লিনিয়ার মডেলের সাথে লেগে থাকা এবং এল 1 নিয়মিতকরণ ধরণের পদ্ধতির (লাসো / এলএআরএস / ইলাস্টিক নেট ইত্যাদি) স্পারসিটি বা এলোমেলো বন পদ্ধতি অর্জনের মাধ্যমে আরও ভাল পারফরম্যান্স পান।


ধন্যবাদ ডিকরান। আমি নিয়মিত রৈখিক মডেলগুলির জন্য আর-তে গ্ল্যামনেট দেখার চেষ্টা করেছি। দুর্ভাগ্যক্রমে, আমার ভবিষ্যদ্বাণীগুলি সমস্ত একই হয়ে যায় (আমি মনে করি আমার প্রশিক্ষণের সেটটির গড়)। লিনিয়ার মডেলগুলিকে আমার ডেটাতে সিগন্যালটি বের করতে খুব কঠিন সময় মনে হচ্ছে। সে কারণেই আমি অ-লিনিয়ার মডেলগুলির সন্ধান করেছি যা অনেকগুলি বৈশিষ্ট্য / সম্ভাব্য বৈশিষ্ট্য ইন্টারঅ্যাকশনগুলির সাথে ডিল করতে পারে। আমি নিশ্চিত যে এটি অনেক জিজ্ঞাসা করছে। Front ফ্রন্টের কোন পরামর্শ? আমার কাছে পি >> এন সমস্যা নেই। 150 টি বৈশিষ্ট্য, 1000 উদাহরণ ব্যবহার করে।
টমাস

আরে দিকরান। এটি ছিল একটি খুব অস্পষ্ট প্রশ্ন যা সম্পর্কে আমি আমার মন্তব্যে জিজ্ঞাসা করেছি। আমি বোর্ডগুলিতে আরও নির্দিষ্ট প্রশ্ন রেখেছি। আপনার সাহায্যের জন্য আবার ধন্যবাদ। stats.stackexchange.com/questions/30411/...
Tomas

কোনও সমস্যা নেই, প্রায়শই প্রশ্নগুলির উত্তরগুলি দেওয়া কি তার চেয়ে বেশি কার্যকরী হয়! আমি অন্যান্য প্রশ্নের জন্য সন্ধান করব।
ডিকরান মার্শুপিয়াল

এই উত্তরের জন্য ধন্যবাদ। উচ্চ মাত্রিক বৈশিষ্ট্যগুলির ক্ষেত্রে তবে এত বড় ডেটাসেট নয় (এন ~ 10 কে ডি ~ 1 কে), গণনার গতি বাড়ানোর জন্য কি আরডি ব্যবহার করা সম্ভব? আমি জিপিএমএল টুলবক্স ব্যবহার করছি। প্রাসঙ্গিক বৈশিষ্ট্যগুলিতে ফোকাস করার জন্য আমরা কী স্বয়ংক্রিয়ভাবে কোভারিয়েন্স ম্যাট্রিক্সকে "স্পারসাইফাই" করতে পারি?
এমিল

1
" r.csail.mit.edu/papers/v8/cawley07a.html " লিঙ্কটি কাজ করছে না ... এটি কি এটি? jmlr.org/papers/v8/cawley07a.html । সম্ভবত কেবল লিঙ্কগুলির পরিবর্তে সম্পূর্ণ উদ্ধৃতি যুক্ত করা উপকারী হবে :-)
কৌতূহল

4

আপনি উচ্চ মাত্রিক ডেটা চিকিত্সার জন্য বিশেষভাবে পরিকল্পিত কোভারিয়েন্স ফাংশন ব্যবহার করার চেষ্টা করতে পারেন। উদাহরণস্বরূপ অ্যাডেটিভ কোভেরিয়েন্স ফাংশনে কাগজটি দেখুন । তারা আমার সংখ্যাসূচক পরীক্ষাগুলিতে আরও বড় ইনপুট মাত্রা (প্রায় ) এর বাস্তব তথ্য সহ অন্যান্য অত্যাধুনিক কোভেরিয়েন্স ফাংশনগুলির চেয়ে ভাল কাজ করেছে ।30

তবে, যদি ইনপুট মাত্রাটি সত্যই বিশাল হয় ( বা এরও ) এটি মনে হয় যে কোনও কার্নেল পদ্ধতি ব্যর্থ হবে এবং গাউসীয় প্রক্রিয়াগুলির প্রতিরোধের কোনও বর্জন নেই।100200

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.