গাউসিয়ান প্রক্রিয়াতে পর্যবেক্ষণ মার্জ করা


11

আমি রিগ্রেশনের জন্য গাউসিয়া প্রক্রিয়া (জিপি) ব্যবহার করছি।

আমার সমস্যাটিতে এটি দুটি বা ততোধিক ডেটা পয়েন্টের জন্য একেবারেই সাধারণ একে অপরের সাথে অপেক্ষাকৃত দৈর্ঘ্যের কাছে সমস্যার স্কেল। এছাড়াও, পর্যবেক্ষণগুলি অত্যন্ত গোলমাল হতে পারে। গণনাগুলির গতি বাড়ানোর জন্য এবং পরিমাপের নির্ভুলতার উন্নতি করার জন্য, একে অপরের নিকটে থাকা পয়েন্টগুলির ক্লাস্টারগুলিকে একীভূত করা / সংহত করা স্বাভাবিক বলে মনে হচ্ছে, যতক্ষণ না আমি বড় দৈর্ঘ্যের স্কেলে ভবিষ্যদ্বাণীগুলি যত্ন করি।x(1),x(2),

আমি আশ্চর্য হয়েছি এটি করার একটি দ্রুত তবে আধা-নীতিগত উপায় কী।

যদি দুটি ডেটা পয়েন্ট পুরোপুরি ওভারল্যাপিং হয়, , এবং পর্যবেক্ষণের শব্দ (অর্থাত্ সম্ভাবনা) গাউসিয়ান, সম্ভবত বৈষম্যযুক্ত কিন্তু পরিচিত , অগ্রগতির প্রাকৃতিক উপায়ে এগুলি একক ডেটা পয়েন্টের সাথে একীভূত হবে বলে মনে হয়:x(1)=x(2)

  • x¯x(k) জন্য ,।k=1,2

  • পর্যবেক্ষণকৃত মান যা পর্যবেক্ষণকৃত মান of of তাদের আপেক্ষিক নির্ভুলতার দ্বারা : । y(1),y(2) ˉ y =σ 2 y (x ( 2 ) )y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • সমানভাবে পর্যবেক্ষণের সাথে জড়িত শব্দ: ।σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

যাইহোক, আমি কীভাবে দুটি পয়েন্ট একত্রিত করব যেগুলি ওভারল্যাপিং নয় ?

  • আমি মনে করি যে the still এখনও আপেক্ষিক নির্ভরযোগ্যতা ব্যবহার করে দুটি পজিশনের একটি ওজনযুক্ত গড় হওয়া উচিত । যুক্তিটি হ'ল একটি গণ-আর্গুমেন্ট (যেমন, খুব সুনির্দিষ্ট পর্যবেক্ষণকে কম সুনির্দিষ্ট পর্যবেক্ষণের স্ট্যাক হিসাবে ভাবেন)।x¯

  • For উপরের মতো একই সূত্রের জন্য।y¯

  • পর্যবেক্ষণের সাথে জড়িত গোলমালের জন্য, আমি অবাক হয়েছি যে উপরের সূত্রটি ছাড়াও আমার যদি গোলমালের সাথে একটি সংশোধন শব্দ যুক্ত করা উচিত কারণ আমি ডেটা পয়েন্টটি প্রায় ঘুরছি। মূলত, আমি যে সঙ্গে সম্পর্কযুক্ত অনিশ্চয়তা বৃদ্ধি পাবে এবং (যথাক্রমে সংকেত ভ্যারিয়েন্স এবং সহভেদাংক ফাংশনের দৈর্ঘ্য স্কেল)। আমি এই পদটির ফর্ম সম্পর্কে নিশ্চিত নই, তবে সমবায় কার্যকারিতাটি দিয়ে এটি কীভাবে গণনা করা যায় তার জন্য আমার কিছু স্থায়ী ধারণা রয়েছে।2σf22

এগিয়ে যাওয়ার আগে আমি ভাবলাম সেখানে ইতিমধ্যে কিছু আছে কিনা; এবং যদি এটি এগিয়ে যাওয়ার কোনও বুদ্ধিমান উপায় বলে মনে হয়, বা আরও ভাল দ্রুত পদ্ধতি রয়েছে।

সাহিত্যে আমি যে নিকটতম জিনিসটি দেখতে পেলাম এটি হ'ল এই কাগজটি: ই স্নেলসন এবং জেড। ঘড়ামনি, সিউডো ইনপুট ব্যবহার করে স্পার্স গাউসিয়ান প্রসেসেস , এনআইপিএস '05; তবে তাদের পদ্ধতিটি (তুলনামূলকভাবে) জড়িত, সিউডো ইনপুটগুলি সন্ধান করার জন্য একটি অপ্টিমাইজেশন প্রয়োজন।


1
তারা যাইহোক, আমি প্রশংসা করি যে আমি আনুমানিক অনুমান বা কিছু বড় আকারের পদ্ধতি ব্যবহার করতে পারি, তবে এটি অন্য একটি বিষয়।
লেসারবি

উত্তর:


4

দুর্দান্ত প্রশ্ন এবং আপনি যা পরামর্শ দিচ্ছেন তা যুক্তিসঙ্গত শোনায়। তবে ব্যক্তিগতভাবে আমি দক্ষ হওয়ার জন্য আলাদাভাবে এগিয়ে যেতে চাই। যেমনটি আপনি বলেছিলেন যে দুটি পয়েন্ট নিকটবর্তী রয়েছে তারা অতিরিক্ত অতিরিক্ত তথ্য সরবরাহ করে এবং তাই মডেলের স্বাধীনতার কার্যকর ডিগ্রি পর্যবেক্ষণ করা ডেটার পয়েন্টের তুলনায় কম less এ জাতীয় ক্ষেত্রে জিপিএমএলে বর্ণিত নায়ারস্টর্ম পদ্ধতিটি ব্যবহার করা উপযুক্ত (স্পার্স সান্নিধ্যের অধ্যায়টি http://www.ga Persianprocess.org/gpml/ এ দেখা যাবে )। পদ্ধতিটি প্রয়োগ করা খুব সহজ এবং সম্প্রতি রুডি এট আল দ্বারা অত্যন্ত নির্ভুল হিসাবে প্রমাণিত হয়েছে। ( http://arxiv.org/abs/1507.04717 )


ধন্যবাদ, নাইস্ট্রমের পদ্ধতিটি একটি আকর্ষণীয় পদ্ধতির বলে মনে হচ্ছে, আমি এটিকে দেখব। তবে, আমার প্রথম পোস্টে আমি উল্লেখ করতে ভুলে গিয়েছিলাম যে পর্যবেক্ষণগুলির মধ্যে শব্দটি খুব বেশি হতে পারে (সম্ভবত সংকেতের চেয়েও বড়), যাতে কাছের পয়েন্টগুলিতে গড় বাড়ানো অতিরিক্ত তথ্য সরবরাহ করে।
lacerbi

1
আচ্ছা, এটি আসলে Nystroms পদ্ধতি ব্যবহার করার আরও একটি কারণ। উচ্চ শব্দটি স্বাধীনতার কার্যকর ডিগ্রি হ্রাস করে তাই যদি কেবলমাত্র প্রথম মিটার ইগেনভ্যালুগুলি সিগন্যাল ধরে থাকে এবং বাকীগুলি কেবল শব্দ হয় তবে নাইট্রোমস পদ্ধতিগুলি সমস্ত প্রথম মিটারের চেয়ে কম ফেলে দেবে। আমি মনে করি আপনি যা খুঁজছেন তার জন্য এটি বিলটি ফিট করে। শুভকামনা করছি!
j__

নাইট্রোম পদ্ধতিটি আমি পরামর্শ দিচ্ছি (+1)। কেবলমাত্র পয়েন্টগুলিকে একের মধ্যে মার্জ করা মডেলটির প্রান্তিক সম্ভাবনা অনুমান করার সাথে সমস্যা হতে পারে কারণ দুটি আসল ডেটাপয়েন্টগুলি একক পয়েন্টের মতো একই প্রভাব ফেলতে পারে না। আমার পরামর্শ রাখার দুই পয়েন্ট আলাদা, কিন্তু গণনার কম দামী তৈরীর একটি উপায়, যা Nystrom emthod অর্জন করা উচিত খোঁজার, হবে
Dikran মার্সুপিয়াল্স

কোন ধরণের সমস্যা? আপনি যদি গাউসিয়ান শব্দের সাথে দুটি ওভারল্যাপিং পয়েন্টের ক্ষেত্রে বিবেচনা করেন তবে গড় পদ্ধতিটি যথাযথ (যতক্ষণ আপনি পর্যবেক্ষণের গোলমালের হ্রাস হ্রাসের বিষয়টি লক্ষ্য রাখবেন)। আমি দেখতে পাচ্ছি না কেন একই যুক্তি এমন পয়েন্টগুলির জন্য কাজ করা উচিত নয় যা সমস্যার দৈর্ঘ্যের স্কেলের নিকটে আঁকা রয়েছে (ক্রমবর্ধমান দূরত্বের সাথে আনুমানিকতা আরও খারাপ হয়ে উঠছে)। সম্ভবত এটি ন্যাস্ট্রোমের পদ্ধতিটি আরও নীতিগত পদ্ধতিতে করে - আমার এখনও বিশদগুলি বুঝতে হবে। যথার্থতা এবং গতি উভয় ক্ষেত্রেই এটির গড় পদ্ধতির সাথে তুলনা করতে আমি আগ্রহী। ধন্যবাদ
lacerbi

1
@ সিডা আমরা নাইট্রোমকে প্রাকৃতিক শর্ত হিসাবে কার্যকর হ'ল সময় হ্রাসের পরিবর্তে কার্যকরভাবে ব্যবহার করি না, তাই হ্যাঁ।
j__

1

আমি গাউসিয়া প্রক্রিয়া রিগ্রেশন সম্পাদন করার সময় মার্জ পর্যবেক্ষণগুলিও তদন্ত করে চলেছি। আমার সমস্যায় আমার কেবল একটি সমবায় রয়েছে।

আমি নিশ্চিত না যে আমি অগত্যা সম্মত হয়েছি যে ন্যাস্ট্রোম আনুমানিক পছন্দনীয়। বিশেষত, যদি একত্রীভূত ডেটাসেটের উপর ভিত্তি করে পর্যাপ্ত অনুমানের সন্ধান পাওয়া যায়, কেউ যখন Nystrom সান্নিধ্য ব্যবহার করে তার চেয়ে গণনাগুলি দ্রুততর হতে পারে।

নীচে কিছু গ্রাফ রয়েছে যা 1000 ডেটা পয়েন্ট দেখায় এবং পোস্টেরিয়র জিপি মানে, পশ্চাৎ জিপি মানে মার্জড রেকর্ডগুলির সাথে, এবং উত্তরোত্তর জিপি মানে নাইট্রোম আনুমানিকতা ব্যবহার করা। অর্ডার করা কোভেরিয়েটের সমান আকারের বালতিগুলির ভিত্তিতে রেকর্ডগুলি গোষ্ঠীভুক্ত করা হয়েছিল। আনুমানিক অর্ডারটি দলগুলির সংখ্যার সাথে রেকর্ডগুলি মার্জ করার সময় এবং নাইস্ট্রমের সান্নিধ্যের ক্রমের সাথে সম্পর্কিত। মার্জিং পদ্ধতি এবং নাইস্ট্রোমের সান্নিধ্যে উভয়ই ফলাফল দেয় যা মানক জিপি রিগ্রেশন-এর সমান হয় যখন প্রায় অর্ডার পয়েন্টের সংখ্যার সমান হয়।

এক্ষেত্রে, যখন আনুমানিক আদেশটি 10 ​​হয় তবে মার্জ করার পদ্ধতির পছন্দ হয়। অর্ডার যখন 20 হয়, তখন ন্যাস্ট্রোম আনুমানিক থেকে গড়টি সঠিক জিপি উত্তরোত্তর গড় থেকে দৃশ্যত পৃথক হতে পারে, যদিও পর্যবেক্ষণকে মার্জ করার উপর ভিত্তি করে গড়টি সম্ভবত যথেষ্ট ভাল। অর্ডার যখন 5 হয় তখন উভয়ই বেশ দরিদ্র।

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.