ক্রস-বৈধকরণের (সিভি) ভিত্তিক ভবিষ্যদ্বাণী ব্যবধান


19

পাঠ্য বই এবং ইউটিউব লেকচারগুলিতে আমি উত্সাহ দেওয়ার মতো পুনরাবৃত্ত মডেলগুলি সম্পর্কে অনেক কিছু শিখেছি, তবে পূর্বাভাস অন্তরালে প্রাপ্তির বিষয়ে আমি কিছুই দেখিনি।

ক্রস বৈধকরণ নিম্নলিখিতগুলির জন্য ব্যবহৃত হয়:

  • মডেল নির্বাচন : বিভিন্ন মডেল ব্যবহার করে দেখুন এবং সবচেয়ে ভাল ফিট করুন এমন একটি চয়ন করুন। উত্সাহ দেওয়ার ক্ষেত্রে, টিউনিং পরামিতিগুলি নির্বাচন করতে সিভি ব্যবহার করুন।
  • মডেল মূল্যায়ন : নির্বাচিত মডেলের কর্মক্ষমতা অনুমান করুন

বেশ কয়েকটি পরামিতি মডেল মূল্যায়নের ক্ষেত্রে গুরুত্বপূর্ণ, এর মধ্যে একটি হ'ল প্রত্যাশিত ত্রুটি। ক্রস বৈধতা পূর্বাভাস ত্রুটির একটি ভাল অনুমান সরবরাহ করে, পাশাপাশি "দ্য স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানগুলি" বইয়ে বর্ণিত।

কিন্তু ভবিষ্যদ্বাণী ব্যবধানটি তৈরি করতে আমরা কীভাবে প্রত্যাশিত পূর্বাভাস ত্রুটি ব্যবহার করব?

এবং যদি আপনি উদাহরণস্বরূপ কোনও বাড়ির দামের পূর্বাভাস দেন তবে 200,000,000 a বাড়ির তুলনায় ভবিষ্যতবাণী ব্যবধানটি 500.000 € বাড়ির জন্য বেশি হবে € ক্রস বৈধতা ব্যবহার করে আমরা কীভাবে এই পূর্বাভাস অন্তরগুলি অনুমান করব?


এটি ভাল দিকের একটি পদক্ষেপ: blog.datadive.net/prediction-intervals-for-random- বনজ
ক্যাস্পার

আমি মনে করি আপনি যা খুঁজছেন তা কনফরমাল পূর্বাভাস। শাফার এবং ভোভক jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdf দ্বারা কাগজটি দেখুন ।
আলেক্সি জায়টসেভ

আপনি কি দয়া করে ব্যাখ্যা করতে পারেন যে আপনি কেন 200k বাড়ির তুলনায় 500 কে বাড়ির জন্য পূর্বাভাস ব্যবধানটি "বেশি" হবে? এটি কি নমুনা সংখ্যার একটি ফাংশন? আপনি কি অনুমান করতে পারবেন যে মোট বিতরণ থেকে নমুনাগুলি আঁকা?
justanotherbrain

উত্তর:


3

এই প্রশ্নটি আবার পড়ার পরে, আমি আপনাকে নিম্নলিখিত বাউন্ড দিতে পারি:

ধরে নমুনা IID টানা হয়, বিতরণ সংশোধন করা হয়েছে, এবং ক্ষয় দ্বারা বেষ্টিত তারপর সম্ভাব্যতা অন্তত সঙ্গে, 1 - δ , [ ( ) ] ( ) + + বি বি1-δ

[()]^()+ +বিলগ1δ2মি

যেখানে নমুনা আকার, এবং 1 - δ সুমহান আস্থা থাকে। আবদ্ধ ম্যাকডিয়ারমিডের অসমতার দ্বারা তুচ্ছভাবে ধারণ করে।মি1-δ

নমুনা আকার, [ ( ) ] সাধারণীকরণ ত্রুটি, এবং ( ) হাইপোথিসিস জন্য পরীক্ষার ত্রুটি।মি[()]^()

দয়া করে কেবল ক্রস বৈধতা ত্রুটি বা পরীক্ষার ত্রুটিটি রিপোর্ট করবেন না , এগুলি সাধারণভাবে অর্থহীন, যেহেতু তারা কেবলমাত্র বিন্দু অনুমান।


রেকর্ডের জন্য পুরাতন পোস্ট:

আমি নিশ্চিত না যে আমি আপনার প্রশ্নটি পুরোপুরি বুঝতে পেরেছি, তবে আমি এটির জন্য একটি ছুরিকাঘাত করব।

প্রথমত, আমি নিশ্চিত নই যে আপনি কীভাবে মডেল নির্বাচনের জন্য পূর্বাভাস ব্যবধানটি সংজ্ঞায়িত করবেন, যেহেতু আমি এটি বুঝতে পারি, ভবিষ্যদ্বাণী অন্তরগুলি কিছু বণ্টনমূলক অনুমান করে। পরিবর্তে, আপনি ঘনত্বের বৈষম্য অর্জন করতে পারেন, যা কিছুটা সম্ভাবনার জন্য মূলত তার বৈকল্পিক দ্বারা একটি এলোমেলো পরিবর্তনশীলকে আবদ্ধ করে তোলে। ঘনত্বের অসমতা বৃদ্ধির জন্য উন্নত তত্ত্ব সহ মেশিন লার্নিংয়ের মাধ্যমে ব্যবহার করা হয়। এক্ষেত্রে আপনি আপনার অভিজ্ঞতাগত ত্রুটি (পরীক্ষার সেটটিতে আপনার ত্রুটি) এবং আরও কিছু জটিলতা শব্দ এবং বৈকল্পিকতার সাথে সম্পর্কিত একটি শব্দ দ্বারা সাধারণকরণ ত্রুটি (সাধারণভাবে আপনার ত্রুটি, আপনি দেখেননি পয়েন্টগুলি) আবদ্ধ করতে চান।

এখন আমার ক্রস বৈধকরণ সম্পর্কে একটি ভুল বোঝাবুঝি দূর করতে হবে যা অত্যন্ত সাধারণ। ক্রস বৈধতা কেবলমাত্র একটি নির্দিষ্ট নমুনা আকারের জন্য একটি মডেলের প্রত্যাশিত ত্রুটির একটি পক্ষপাতহীন অনুমান দেবে। এর প্রমাণটি কেবল ছুটির ওয়ান আউট প্রোটোকলের জন্য কাজ করে। এটি আসলে মোটামুটি দুর্বল, যেহেতু এটি আপনাকে বৈকল্পিক সম্পর্কিত কোনও তথ্য দেয় না। অন্যদিকে, ক্রস বৈধকরণ এমন একটি মডেল ফিরিয়ে দেবে যা কাঠামোগত ঝুঁকি হ্রাসের সমাধানের নিকটে রয়েছে, যা তাত্ত্বিকভাবে সর্বোত্তম সমাধান। আপনি এখানে পরিশিষ্টে প্রমাণটি পেতে পারেন: http://www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

তাহলে কীভাবে জেনারালাইজেশন সীমাবদ্ধ? (মনে রাখবেন একটি সাধারণীকরণ বাউন্ড একটি নির্দিষ্ট মডেলের সাধারণীকরণ ত্রুটি সম্পর্কে মূলত একটি পূর্বাভাস অন্তর)। ঠিক আছে, এই সীমাগুলি অ্যালগোরিদম নির্দিষ্ট। দুর্ভাগ্যক্রমে একটিমাত্র পাঠ্যপুস্তক রয়েছে যা মেশিন লার্নিংয়ে (বুস্টিং সহ) সাধারণভাবে ব্যবহৃত সমস্ত অ্যালগরিদমের জন্য সীমাবদ্ধ করে। বইটি ফাউন্ডেশনস অফ মেশিন লার্নিং (২০১২) মহরি, রোস্তামিজাদেহ এবং তালওয়ালকার রচনা। বিষয়বস্তুতে আচ্ছন্ন বক্তৃতা স্লাইডগুলির জন্য, আপনি এগুলি মোহরির ওয়েব পৃষ্ঠায় খুঁজে পেতে পারেন: http://www.cs.nyu.edu/~mohri/ML14/

যদিও স্ট্যাটাসটিকাল লার্নিংয়ের উপাদানগুলি একটি গুরুত্বপূর্ণ এবং কিছুটা সহায়ক বই, এটি খুব কঠোর নয় এবং এটি অ্যালগোরিদম সম্পর্কিত অনেকগুলি গুরুত্বপূর্ণ প্রযুক্তিগত বিবরণ বাদ দেয় এবং সাধারণকরণের কোনও সীমা সম্পূর্ণরূপে বাদ দেয়। মেশিন লার্নিংয়ের ফাউন্ডেশনগুলি মেশিন লার্নিংয়ের জন্য সর্বাধিক বিস্তৃত বই (যা ক্ষেত্রের সেরা কয়েকজন লিখেছেন বলে দেখার অর্থ হয়)। তবে পাঠ্যপুস্তকটি উন্নত, তাই কেবল প্রযুক্তিগত বিবরণ থেকে সাবধান থাকুন।

উত্সাহ দেওয়ার জন্য আবদ্ধ সাধারণকরণ এখানে (প্রমাণ সহ) পাওয়া যাবে: http://www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

আমি আশা করি এগুলি আপনার প্রশ্নের উত্তর দেওয়ার জন্য যথেষ্ট পয়েন্টার। আমি একটি সম্পূর্ণ উত্তর দিতে দ্বিধা বোধ করছি কারণ প্রয়োজনীয় সমস্ত বিবরণটি দেখতে প্রায় 50 পৃষ্ঠাগুলি লাগবে, প্রাথমিক আলোচনাটি ছেড়ে দেওয়া ...

শুভকামনা!


সুতরাং যদি আমি ভালভাবে বুঝতে পারি তবে এটি পুরো বিতরণে (কিছু অনুমানের উপর ভিত্তি করে) কোনও কোয়ান্টাইলের সাধারণকরণের ত্রুটির জন্য একটি উচ্চতর আবদ্ধ দেয়। তবে আমি আপনার বাক্যটি বুঝতে পারি না "দয়া করে ক্রস বৈধতা ত্রুটি বা পরীক্ষার ত্রুটিটি রিপোর্ট করবেন না"। আপনি কি বোঝাতে চেয়েছেন যে এই দুটি পদক্ষেপটি অকেজো বা ভবিষ্যদ্বাণী ব্যবস্থার সন্ধান করার জন্য এগুলি কেবল অকেজো?
লুইসবিবিবিবি

@ লুইসবিবিবি সিভি ত্রুটি এবং পরীক্ষার ত্রুটি হ'ল নমুনা গড়ের প্রতিবেদন করার মতো। কোনও ধরণের আত্মবিশ্বাসের ব্যবধান ছাড়াই নমুনাটির অর্থ প্রতিবেদন করা সাধারণত খারাপ অনুশীলন কারণ প্রতিবার পরীক্ষা চালানোর সময় আমি আলাদা ফলাফল পাব। আমি অর্থহীন বলেছিলাম, তবে সম্ভবত "অকেজো" আরও ভাল ... কেউ যুক্তি দিতে পারে যে বিন্দু অনুমানের কিছু অর্থ রয়েছে (অর্থাত্ সংজ্ঞাটি)। তবে বিন্দু অনুমানগুলি, সাধারণভাবে, এই অর্থে "অকেজো" যে এগুলি "কার্যকর উপায়ে" ত্রুটির বন্টনকে চিহ্নিত করে না। সিদ্ধান্ত গ্রহণের প্রসঙ্গে "দরকারী"।
justanotherbrain

আমি মনে করি আপনি কি বলেন আমি তা বুঝতে পেরেছি। সুতরাং আপনি গড়ের পরিবর্তে ত্রুটির বিতরণ বিশ্লেষণ করতে পছন্দ করেন। এবং যদি আমি প্রশ্নটিতে ফিরে যাই, ক্যাস্পার "প্রতি পয়েন্ট" হিসাবে পূর্বাভাস অন্তরগুলির অনুমান চেয়েছিলেন। আপনার উত্তরটি পূর্বাভাস ব্যবধান দৈর্ঘ্যের (বা কাছের কিছু) জন্য একটি গ্লোবাল আপার বাউন্ড ছিল, এটি কি ঠিক? তাহলে আপনি কি স্থানীয় ওপেন বাউন্ড করার কোনও উপায় জানেন?
লুইসবিবিবিবি

আহ - স্পষ্ট করার জন্য ধন্যবাদ। আমি মনে করি @ ক্যাস্পারের প্রশ্নটি আমি ভুল বুঝেছি এবং অনেকগুলি ফলোআপ প্রশ্ন রয়েছে। এটি নির্দেশ করার জন্য ধন্যবাদ, আমি কিছু খনন করব।
justanotherbrain
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.