মেশিন লার্নিং অ্যালগরিদমগুলির জন্য ভবিষ্যদ্বাণী অন্তরগুলি


14

আমি জানতে চাই যে নীচে বর্ণিত প্রক্রিয়াটি বৈধ / গ্রহণযোগ্য এবং কোনও ন্যায়সঙ্গত উপলব্ধ কিনা।

ধারণা: তদারকি করা অ্যালগরিদমগুলি ডেটা সম্পর্কে অন্তর্নিহিত কাঠামো / বিতরণকে ধরে নেয় না। দিনের শেষে তারা অনুমানের ফলাফল নির্ধারণ করে। আমি আশা করি কোনওভাবেই অনুমানের অনিশ্চয়তা মেটানোর জন্য। এখন, এমএল মডেল বিল্ডিং প্রক্রিয়া সহজাতভাবে এলোমেলো (উদাহরণস্বরূপ হাইপারপ্যারামিটার টিউনিংয়ের জন্য ক্রস-বৈধকরণের জন্য নমুনা দেওয়ার ক্ষেত্রে এবং স্টোকাস্টিক জিবিএম-এ সাবমলিংয়ে), সুতরাং একটি মডেলিং পাইপলাইন আমাকে প্রতিটি ভিন্ন বীজের সাথে একই ভবিষ্যদ্বাণীকারীদের জন্য আলাদা আউটপুট দেয়। আমার (নিষ্পাপ) ধারণাটি এই প্রসেসটি বারবার চালানো এবং ভবিষ্যদ্বাণীটির বন্টন নিয়ে আসে এবং আমি ভবিষ্যদ্বাণীগুলির অনিশ্চয়তা সম্পর্কে আশাবাদী বিবৃতি দিতে পারি।

যদি এটি গুরুত্বপূর্ণ হয় তবে আমি যে ডেটাসেটগুলির সাথে কাজ করি তা সাধারণত খুব ছোট (200 ডলার সারি) are

এটা কোনো কিছু হলো?

স্পষ্ট করার জন্য, আমি আসলে সনাতন অর্থে ডেটা বুটস্ট্র্যাপিং করছি না (অর্থাত্ আমি ডেটা পুনরায় নমুনা দিচ্ছি না)। প্রত্যেকটি পুনরাবৃত্তিতে একই ডেটাসেট ব্যবহার করা হয়, আমি কেবল এক্সওয়াল এবং স্টোকাস্টিক জিবিএম এ র্যান্ডমনেসটি ব্যবহার করছি।


2
যদি আপনি প্রকৃতপক্ষে কোনও ভবিষ্যদ্বাণী ব্যবধান চান (আত্মবিশ্বাসের ব্যবধানের পরিবর্তে), আপনাকে মডেল সম্পর্কে পর্যবেক্ষণগুলির পরিবর্তনের জন্য অ্যাকাউন্টিং করতে হবে, কেবলমাত্র মডেল পূর্বাভাসের মধ্যে তারতম্য নয়
Glen_b -Rininateate মনিকা

@ Glen_b হয় ওপি-তে বর্ণিত পদ্ধতির সাহায্যে বা একটি উত্সাহিত সংস্করণটি কি আমার আত্মবিশ্বাসের অন্তর পেতে পারে? আমি ভাবতে শুরু করি যে ডেটাগুলির জন্য অন্তর্নিহিত বিতরণ নির্দিষ্ট করে না দিয়ে ভবিষ্যদ্বাণী ব্যবধান সম্ভব নয় যাতে পরের বার আমার প্রশ্নটি পুনরায় লিখতে হবে।
কেভিনিকুও

আপনি পূর্বাভাসের
ব্যবধানগুলি

@ Glen_b আপনি উত্তরটিতে কীভাবে এটি করবেন তা বর্ণনা করতে পারবেন?
কেভিনিকুও

1
আমি এখানে যথেষ্ট উত্তর দিতে পারিনি। তবে একাধিক রিগ্রেশন এবং জিএলএম সম্পর্কিত অধ্যায়গুলিতে ডেভিসন এবং হিঙ্কলি (1997) দেখুন যা প্রয়োজন হতে পারে এমন কিছুর একটি ধারণা দেয়। উদাহরণস্বরূপ একাধিক রিগ্রেশনের ক্ষেত্রে, ভবিষ্যদ্বাণীমূলক অনিশ্চয়তার বুটস্ট্র্যাপ অনুমান (প্যারামিটারের অনিশ্চয়তার কারণে পূর্বাভাসের ভিন্নতা) পাওয়ার জন্য অবশিষ্টাংশগুলি পুনরায় মডেল করা হয় এবং প্রক্রিয়াটির প্রকরণের সাথে মোকাবিলা করার জন্য আবার পুনরায় মডেল করা হয়। একটি উপযুক্ত স্কিম দিয়ে আপনি সম্ভবত প্রথম ধাপে মডেল স্পেসিফিকেশন অনিশ্চয়তার সাথে মোকাবিলা করতে সক্ষম হতে পারেন তবে আপনি প্রক্রিয়াটির পরিবর্তনশীলতার জন্য ২ য় ধাপ বাদ দিতে পারবেন না
Glen_b -Rininstate Monica

উত্তর:


5

আমার কাছে ভবিষ্যদ্বাণীগুলির অনিশ্চয়তা পরিমাপ করার মতো যে কোনও হিসাবে ভাল পন্থা বলে মনে হচ্ছে। প্রতিটি বুটস্ট্র্যাপ পুনরায় নমুনায় স্ক্র্যাচ থেকে সমস্ত মডেলিং পদক্ষেপগুলি (একটি প্যারামিটার টিউনিং হবে এমন একটি জিবিএমের জন্য) পুনরায় নিশ্চিত করুন। র‌্যাঙ্কিংয়ের অনিশ্চয়তা পরিমাপ করার জন্য গুরুত্বপূর্ণ র‌্যাঙ্কিং বুটস্ট্র্যাপ করাও সার্থক হতে পারে।

আমি খুঁজে পেয়েছি যে কখনও কখনও অন্তরগুলিতে প্রকৃত পূর্বাভাস থাকে না, বিশেষত কোনও সম্ভাবনার অনুমান করার সময়। প্রতিটি টার্মিনাল নোডে ন্যূনতম সংখ্যার পর্যবেক্ষণ বৃদ্ধি করা সাধারণত এটি সমাধান করে, কমপক্ষে আমি যে ডেটা নিয়ে কাজ করেছি তার মধ্যে।

কনফরমাল পূর্বাভাস নতুন ডেটাতে ভবিষ্যদ্বাণীগুলির আত্মবিশ্বাসের পরিমাণ নির্ধারণের জন্য একটি কার্যকর পদ্ধতির মতো বলে মনে হচ্ছে। আমি কেবল এতদূর পর্যন্ত পৃষ্ঠটি স্ক্র্যাচ করেছি এবং অন্যরা সম্ভবত এটির উপর অপ্টিনিয়ন দেওয়ার পক্ষে আরও উপযুক্ত।

একটি জিবিএম পূর্বাভাস অন্তর্বর্তী সন্ধান সম্পর্কে এই পোস্টে আমার জবাবটিতে কিছু অশোধিত আর-কোড রয়েছে ।

আশাকরি এটা সাহায্য করবে!


2

ভবিষ্যদ্বাণী সম্পর্কে আপনার অনিশ্চয়তাটিকে 'পক্ষপাত' ​​এবং 'বৈকল্পিক' পদগুলিতে ভাগ করতে পারেন। বায়াস টার্মটি মডেলের ভুল বর্ণনাকে বোঝায়: আপনি যদি ননলাইনার ফাংশনের জন্য লিনিয়ার মডেল ফিট করেন তবে আপনি সর্বদা কিছু ত্রুটি পাবেন। 'ভেরিয়েন্স' শব্দটি মডেল প্যারামিটারের প্রাক্কলনের ত্রুটিতে বোঝায়। আপনি অনিশ্চয়তার বৈকল্পিক অংশের জন্য অ্যাকাউন্টের কাছে যান, পক্ষপাতটি অনুমান করতে পারবেন না।

@ এরিকল এর পরামর্শ অনুসারে কনফরমাল ভবিষ্যদ্বাণীটি তাত্ত্বিকভাবে ন্যায়সঙ্গত পন্থা যা বুটস্ট্র্যাপের জন্য বেশ অনুরূপ ধারণা গ্রহণ করে। নতুন বিন্দু ব্যবহার করে মডেল পুনর্গঠন ব্যবহার করে কনফরমাল ভবিষ্যদ্বাণী পক্ষপাত এবং বৈকল্পিকতা উভয়ই বিবেচনায় নেয়, যখন প্রতিরোধের জন্য তাদের উল্লেখযোগ্য গণনা সংস্থান প্রয়োজন। আপনি ননকনফর্মিস্ট লাইব্রেরি ব্যবহার করে পাইথন দিয়ে এটি ব্যবহার করে দেখতে পারেন ।


1

না, এটি একটি খারাপ ধারণা বলে মনে হচ্ছে। প্রথমত, আলেক্সি যেমন উল্লেখ করেছেন, সেখানে পক্ষপাত এবং বৈকল্পিকতা রয়েছে। এমনকি সেরা পরামিতিগুলির পছন্দের জন্য, আপনি বৈচিত্রটি এড়াতে পারবেন না। আপনার পদ্ধতি এটি সম্বোধন করার চেষ্টাও করে না। আরও একটি খুব গুরুত্বপূর্ণ সমস্যা রয়েছে, যা কিছু এবং সম্ভবত বেশিরভাগ ক্ষেত্রে আপনার মডেলের ত্রুটিটি মডেলের অন্তর্নিহিত এলোমেলোতার চেয়ে ডেটাতে থাকে। (উল্লেখযোগ্য না যে কিছু মডেল যেমন প্লেইন লিনিয়ার রিগ্রেশন মোটেও এলোমেলো নয় এবং এলোমেলো মডেলগুলির জন্য, এলোমেলোতার ডিগ্রি মডেল থেকে আলাদা হয়ে থাকে)

আমি আপনাকে কিছু সহজ সিমুলেটেড ডেটা এবং আপনার পরিচিত কিছু মডেল সম্পর্কে আপনার পদ্ধতির পরীক্ষা করার পরামর্শ দিচ্ছি। আমি নিশ্চিত যে, যে কারণে আমি বর্ণনা করেছি, আপনার আনুমানিক ত্রুটি আসল ত্রুটির চেয়ে অনেক ছোট হবে (বা আপনার বিতরণটি আরও সংকীর্ণ হবে)।

ত্রুটি বিতরণ অনুমান করার জন্য আপনি একটি ভাল পুরানো ক্রস-বৈধতা ব্যবহার করতে পারেন।


0

আমি এখন এই সমস্যাটি নিয়ে ভাবছি। আমার অনুসন্ধানগুলি এখানে:

(1) ডেল্টা পদ্ধতি
(2) বুটস্ট্র্যাপ পুনরায় মডেলিং
(3) বায়েশিয়ান পদ্ধতি
(4) গড়-ভেরিয়েন্স অনুমান (এমভিই)

ধারণাটি পূর্বাভাসের পরিবর্তনশীলতার দুটি উত্স, মডেল প্যারামিটার অনুমানের থেকে অনিশ্চয়তা এবং অদম্য ত্রুটিটি অনুমান করার চেষ্টা করছে।

এখানে বেশ কয়েকটি উল্লেখ রয়েছে:

মডেল আউটপুট জন্য পূর্বাভাস ব্যবধান অনুমানের জন্য মেশিন লার্নিং পদ্ধতি, দুর্গা এল শ্রেষ্টা, দিমিত্রি পি। সলোম্যাটাইন, 2006
নিউরাল নেটওয়ার্ক মডেলগুলির জন্য কিছু ত্রুটি অনুমানের একটি তুলনা, রবার্ট তিবশিরানী, 1995
নিউরাল নেটওয়ার্ক-ভিত্তিক পূর্বাভাস অন্তরগুলির নতুন পর্যালোচনা এবং নতুন অ্যাডভান্সেসস, আব্বাস খসরভি, ডগ ক্রেইটন, ২০১১

আশা করি এটি আমাকে উপরোক্ত যে কোনওটি অনুপযুক্ত এবং সংশোধন করতে সহায়তা করবে। আমি অন্যের কাছ থেকে আরও শুনতে চাই।


1
আপনি কি ব্যাখ্যা করতে পারেন যে এই পোস্টটি কীভাবে মূল প্রশ্নটিকে সম্বোধন করে?
whuber

শিরোনামটি 'এমএল অ্যালগরিদমগুলির জন্য পিআই', @ কেভিইনকুইও জিজ্ঞাসা করছে যে তার 'বুটস্ট্র্যাপিং' পদ্ধতিটি কাজ করে? নিউরাল নেটওয়ার্কের জন্য পিআইতে ব্যবহৃত কয়েকটি পদ্ধতির বিষয়ে আমি বেশ কয়েকটি উল্লেখ উল্লেখ করছি poin
ডেমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.