পূর্বাভাস ত্রুটির একটি নির্দিষ্ট পরিমাপ (যেমন এমএডি) অন্য (যেমন এমএসই) এর বিপরীতে কেন ব্যবহার করবেন?


15

এমএডি = গড় নিখুঁত বিচ্যুতি এমএসই = গড় স্কোয়ার ত্রুটি

আমি বিভিন্ন জায়গা থেকে পরামর্শ দেখেছি যে কিছু অপ্রয়োজনীয় গুণাবলী থাকা সত্ত্বেও এমএসই ব্যবহার করা হয় (উদাঃ http://www.stat.nus.edu.sg/~staxyc/T12.pdf , যা পি 8 তে উল্লেখ করেছে "সাধারণত বিশ্বাস করা হয় যে এমএডি এমএসইয়ের চেয়ে ভাল মানদণ্ড However তবে গণিতের তুলনায় এমএসই এমএডের চেয়ে বেশি সুবিধাজনক "")

এর থেকেও কি আরও কিছু আছে? পূর্বাভাস ত্রুটি পরিমাপ করার বিভিন্ন পদ্ধতি আরও / কম উপযুক্ত বলে পরিস্থিতিগুলি পুরোপুরি বিশ্লেষণ করে এমন কোনও কাগজ রয়েছে কি? আমার গুগল অনুসন্ধানগুলি কিছুই প্রকাশ করেনি।

এর অনুরূপ একটি প্রশ্ন /programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sde- এ জিজ্ঞাসা করা হয়েছিল এবং ব্যবহারকারীকে বলা হয়েছিল stats.stackexchange.com এ পোস্ট করুন, তবে তারা কখনও করেনি বলে আমি মনে করি না।


2
এমএডি সাধারণত মিডিয়ান না হয়ে মিডিয়ান পরম বিচ্যুতি হয়?
ব্রায়ান ডি

@ ব্রায়ানডি: বিস্তৃত পরিসংখ্যান সম্প্রদায়ে, আপনি ঠিক বলেছেন। সংকীর্ণ পূর্বাভাস সম্প্রদায়ে, "এমএডি" হ'ল একেবারে "গড় পরম বিচ্যুতি", একেএ এমএই
স্টিফান কোলাসা

উত্তর:


23

কোন বিন্দু পূর্বাভাস ত্রুটির পরিমাপ করা হবে তা সিদ্ধান্ত নিতে, আমাদের একটি পদক্ষেপ পিছনে নেওয়া দরকার। মনে রাখবেন যে আমরা ভবিষ্যতের পরিণামকে পুরোপুরি জানি না এবং আমরা কখনই করব না। সুতরাং ভবিষ্যতের ফলাফল সম্ভাবনা বন্টন অনুসরণ করে । কিছু পূর্বাভাসের পদ্ধতিগুলি স্পষ্টরূপে এমন একটি সম্পূর্ণ বিতরণ আউটপুট দেয় এবং কিছু না - তবে এটি সর্বদা উপস্থিত থাকে, যদি কেবল স্পষ্টভাবেই হয়।

এখন, আমরা পয়েন্ট পূর্বাভাসের জন্য একটি ভাল ত্রুটি পরিমাপ করতে চাই । যেমন একটি বিন্দু পূর্বাভাস Ft সংক্ষেপ কি আমরা সময়ে ভবিষ্যতে বন্টন (অর্থাত, ভবিষ্যদ্বাণীপূর্ণ ডিস্ট্রিবিউশন) সম্পর্কে জানা আমাদের প্রচেষ্টা t একটি একক সংখ্যা, একটি তথাকথিত ব্যবহার কার্মিক ভবিষ্যৎ ঘনত্ব। ত্রুটি পরিমাপের পরে এই একক সংখ্যার সারাংশের গুণমানকে মূল্যায়নের একটি উপায়।

সুতরাং আপনার এমন একটি ত্রুটি পরিমাপ চয়ন করা উচিত যা ভবিষ্যতের ঘনত্বগুলির "ভাল" এক নম্বর সংক্ষিপ্তসারগুলি (অজানা, সম্ভবত পূর্বাভাসিত, তবে সম্ভবত কেবল অন্তর্নিহিত) প্রদান করে।

চ্যালেঞ্জটি হ'ল বিভিন্ন ত্রুটিযুক্ত পদক্ষেপগুলি বিভিন্ন কার্যকারিতা দ্বারা হ্রাস করা হয়। প্রত্যাশিত এমএসই ভবিষ্যতের বিতরণের প্রত্যাশিত মান দ্বারা হ্রাস পেয়েছে । প্রত্যাশিত এমএডি ভবিষ্যতের বিতরণের মধ্যস্থতা দ্বারা হ্রাস পেয়েছে । সুতরাং, যদি আপনি এমএই হ্রাস করার জন্য আপনার পূর্বাভাসগুলি ক্রমাঙ্কণ করেন তবে আপনার পয়েন্ট পূর্বাভাস ভবিষ্যতের প্রত্যাশিত মান নয়, ভবিষ্যতের মধ্যমা হবে এবং আপনার ভবিষ্যত বিতরণটি প্রতিসাম্য না হলে আপনার পূর্বাভাস পক্ষপাতদুষ্ট হবে।

এটি গণনা ডেটার জন্য সর্বাধিক প্রাসঙ্গিক, যা সাধারণত স্কিউড। চরম ক্ষেত্রে (বলুন, পইসন নিচে একটি গড় সঙ্গে বিক্রয় বিতরণ log20.69 , আপনার মায়ে একটি ফ্ল্যাট শূন্য পূর্বাভাস সর্বনিম্ন থাকবে)। দেখুন এখানে অথবা এখানে অথবা এখানে বিস্তারিত জানার জন্য।

আমি আরও কিছু তথ্য এবং একটি চিত্র দিচ্ছি যার মধ্যে গড় অর্থ নিখুঁত শতাংশের ত্রুটি (এমএপিই) এর ত্রুটিগুলি কী? এই থ্রেডটি বিবেচনা করে তবে অন্যান্য বিবেচনা করে এবং এতে অন্যান্য সম্পর্কিত থ্রেডের লিঙ্ক রয়েছে।


শেষ অবধি, কোন ত্রুটিটি পরিমাপ করা যায় তা নির্ভর করে আপনার কস্টের পূর্বাভাস ত্রুটির উপর নির্ভর করে, অর্থাৎ কোন ধরণের ত্রুটিটি সবচেয়ে বেদনাদায়ক। পূর্বাভাস ত্রুটির প্রকৃত প্রভাবগুলি না দেখে, "আরও ভাল মানদণ্ড" সম্পর্কে যে কোনও আলোচনা মূলত অর্থহীন।

পূর্বাভাসের নির্ভুলতার পরিমাপগুলি কয়েক বছর আগে পূর্বাভাস সম্প্রদায়ে একটি বড় বিষয় ছিল এবং সেগুলি এখনও এবং তারপরে এখনও আপ হয়। দেখার জন্য একটি খুব ভাল নিবন্ধ হ্যান্ডম্যান এবং কোহলার "পূর্বাভাসের সঠিকতার ব্যবস্থাগুলির আরেকটি চেহারা" (২০০))।

শেষ অবধি, একটি বিকল্প হ'ল সম্পূর্ণ ভবিষ্যদ্বাণীমূলক ঘনত্ব গণনা করা এবং সঠিক ব্যবহার করে এগুলি নির্ধারণ করা ।


প্রতিক্রিয়া, এবং লিঙ্ক জন্য ধন্যবাদ। "পূর্বাভাসের ত্রুটির মূল্য" শব্দটির সাথে আমি পরিচিত ছিলাম না। দেখে মনে হচ্ছে এটি পরিস্থিতিগুলির সাথে সম্পর্কিত যেখানে (উদাহরণস্বরূপ) কোনও ব্যবসায় এটি কতগুলি উইজেট বিক্রি করবে তার পূর্বাভাস দিচ্ছে এবং সম্ভবত তারা অত্যধিক মূল্যায়নের জন্য যে যন্ত্রণা ভোগ করে তারা দুর্বলতার জন্য যে ব্যথা ভোগ করে তার দ্বিগুণ। তবে, আমি বেশিরভাগ ক্ষেত্রেই এমন একটি প্রসঙ্গে চিন্তা করি যেখানে লোকেরা পূর্বাভাস ত্রুটির কোনও তাত্ক্ষণিকভাবে আপাত ব্যয় না করে ভবিষ্যদ্বাণী করে থাকে (উদাঃ "বিল গেটস আগামী 5 মাসে কতগুলি টুইট করবেন?")। এমন পরিস্থিতিতে আমার ত্রুটি পরিমাপের পছন্দটি স্বেচ্ছাচারিত হবে?
ব্যবহারকারী1205901 - মনিকা

3
পূর্বাভাসের ত্রুটির ব্যয়টি অনুশীলনাকারী -ভিত্তিক জার্নাল ফোরসাইটে আলোচনা করা হয়েছে : পূর্বাভাস । (সম্পূর্ণ প্রকাশ: আমি একজন সহযোগী সম্পাদক।) আমি সম্মত হই যে সিএফই আপনার উদাহরণে সহজেই প্রকাশিত হয় না তবে আমি ভাবতে পারি যে আপনার ত্রুটি পরিমাপকে অনুকূল করার ক্ষেত্রে আপনার কতটা প্রচেষ্টা ব্যয় করা উচিত ...
স্টিফান কোলাসা

4

এমএসইয়ের পরিবর্তে এমএই ব্যবহারের সুবিধাগুলি ডেভিডেনকো এবং ফিল্ডেস (২০১ 2016) এ ব্যাখ্যা করা হয়েছে , বিভাগটি ৩.১ দেখুন:

... কিছু লেখক (উদাঃ, জেলনার, 1986) যুক্তি দিয়েছিলেন যে আমরা যে মানদণ্ড দ্বারা পূর্বাভাসকে মূল্যায়ন করি তার মানদণ্ডের সাথে মিল থাকা উচিত যার দ্বারা আমরা পূর্বাভাসকে সর্বোত্তম করে তুলি। অন্য কথায়, যদি আমরা প্রদত্ত কিছু লোকসান ফাংশনটি ব্যবহার করে অনুমানের অনুকূলতা অর্জন করি তবে কোন মডেলটি আরও ভাল তা আবিষ্কার করতে আমাদের অবশ্যই অভিজ্ঞতাগত মূল্যায়নের জন্য একই ক্ষতির ফাংশনটি ব্যবহার করতে হবে।

একটি পরিসংখ্যানের মডেল ফিট করা সাধারণত চতুর্ভুজ ক্ষতির অধীনে অনুকূল পূর্বাভাস সরবরাহ করে। এটি, উদাহরণস্বরূপ, যখন আমরা একটি লিনিয়ার রিগ্রেশন ফিট করি happens যদি পরিসংখ্যানগত মডেলিং থেকে আমাদের ঘনত্বের পূর্বাভাসটি প্রতিসম হয়, তবে চতুর্ভুজ ক্ষতির অধীনে অনুকূল পূর্বাভাসও লিনিয়ার ক্ষতির অধীনে অনুকূল। তবে, আমরা যদি লগ-ট্রান্সফর্মেশনগুলি দ্বারা বৈকল্পিকতা স্থিতিশীল করি এবং তারপরে ক্ষণস্থায়ী দ্বারা পূর্বাভাসকে ফিরিয়ে ফেলা করি তবে আমরা কেবলমাত্র লিনিয়ার ক্ষতির অধীনে অনুকূল পূর্বাভাস পাই। আমরা যদি অন্য কোনও ক্ষতি ব্যবহার করি তবে অবশ্যই আমাদের অবশ্যই একটি পরিসংখ্যানের মডেল ব্যবহার করে ঘনত্বের পূর্বাভাসটি গ্রহণ করতে হবে এবং তারপরে আমাদের নির্দিষ্ট ক্ষতি ফাংশনটি প্রদান করে আমাদের অনুমানটি সামঞ্জস্য করতে হবে (গুডউইন, 2000 এ এটির উদাহরণ দেখুন)।

আসুন ধরে নেওয়া যাক আমরা অনুগতভাবে দুটি পদ্ধতির তুলনা করতে চাই এবং প্রতিসাম্য রৈখিক ক্ষতির ক্ষেত্রে কোন পদ্ধতিটি আরও ভাল তা খুঁজে বের করতে পারি (যেহেতু এই ধরণের ক্ষতি সাধারণত মডেলিংয়ে ব্যবহৃত হয়)। আমাদের যদি কেবল একটি সময়ের সিরিজ থাকে তবে একটি গড় পরম ত্রুটি (এমএই) ব্যবহার করা স্বাভাবিক বলে মনে হয়। এছাড়াও, এমএই আকর্ষণীয় কারণ এটি বোঝা এবং গণনা করা সহজ (হাইডম্যান, 2006) ...

তথ্যসূত্র

ডেভিডেনকো, এ।, এবং ফিল্ডেস, আর। (2016)। পূর্বাভাস ত্রুটি ব্যবস্থা: সমালোচনা পর্যালোচনা এবং ব্যবহারিক প্রস্তাবনা। ইন বিজনেস পূর্বাভাস: প্রাকটিক্যাল সমস্যা ও সমাধান। জন উইলি অ্যান্ড সন্স


আপনি কি কেবল "ডেভিডেনকো এবং ফিল্ডেস, 2016" এর চেয়ে কাগজে একটি সম্পূর্ণ প্রশংসা দিতে পারবেন ?
সিলভারফিশ

আমরা আমাদের উত্তরগুলি স্বতন্ত্র হতে চাই, যাতে তারা লিঙ্কগুলি মারা যাওয়ার কারণে বিরূপভাবে প্রভাবিত না হয়। আপনি কি মনে করেন যে আপনি এই প্রশ্নের প্রাসঙ্গিক তার বিষয়বস্তুর মূল বিষয়গুলি কী বলেছিলেন তা সংক্ষেপে, আপনি নিজের উত্তরটি কিছুটা প্রসারিত করতে পারেন? অন্যথায়, এটি উত্তরের চেয়ে মন্তব্যের জন্য সত্যই উপযুক্ত। (আপনার কাছে মন্তব্য পোস্ট করার মতো যথেষ্ট খ্যাতি নেই বলে আমি প্রশংসা করি, তবে আমরা এটিকে আপনার জন্য একটিতে রূপান্তর করতে পারি))
সিলভারফিশ

1
আপনার উত্তর দেওয়ার জন্য ধন্যবাদ! এখানে (ডেভিডেনকো এবং ফিল্ডেস, 2016) যা বলেছে তা এখানে: একটি পরিসংখ্যানের মডেল ফিট করা সাধারণত চতুর্ভুজ ক্ষতির অধীনে সর্বোত্তম পূর্বাভাস সরবরাহ করে। এটি, উদাহরণস্বরূপ, যখন আমরা একটি লিনিয়ার রিগ্রেশন ফিট করি happens যদি পরিসংখ্যানগত মডেলিং থেকে আমাদের ঘনত্বের পূর্বাভাসটি প্রতিসম হয় তবে চতুর্ভুজ ক্ষতির অধীনে অনুকূল পূর্বাভাসও লিনিয়ার ক্ষতির অধীনে অনুকূল are তবে, আমরা যদি লগ-ট্রান্সফর্মেশনগুলির মাধ্যমে বৈকল্পিকটি স্থিতিশীল করি এবং তারপরে ক্ষণস্থায়ী দ্বারা পূর্বাভাসের পিছনে রূপান্তর করি তবে আমরা কেবলমাত্র রৈখিক ক্ষতির অধীনে অনুকূল পূর্বাভাস পাই।
টার্বোফ্লাই

1
ধন্যবাদ! আপনি এই তথ্যটি আপনার উত্তরে সম্পাদনা করতে পারেন ("সম্পাদনা" বোতামটি আপনার পোস্টের নীচে রয়েছে)।
সিলভারফিশ

Thanks a lot. I've done some formatting and given a full citation.
Silverfish

3

Why not compare RMSE=MSE and MAE=MAD?

Actually,

MAERMSEnMAE for regression models:

  • lower bound: each case contributes the same absolute amount of error e:
    RMSE=1nei2=1nne2=e=MAE
  • upper bound: a single case having error e while all other cases have 0 error:
    MAE=en
    RMSE=1nei2=1ne2=1n(nMAE)2=nMAE

(MAERMSEMAE for classification with partial class memberships yi and/or y^i are [0,1] -- i.e. they can actually take values in between 0 and 1).

  • upper bound: here, ei is 1, so
    MAE=nwrongn
    RMSE=1nei2=1nnwrong=MAE
    (This upper bound occurs for integer nwrong, if you go for partial/fractional class membership and thus also for ei[0,1], things get a bit more complicated because you need to take into account that the maximum possible error can be less than 1, and you may have a "leftover" ei<1 which both lower the upper bound a bit further.)

If the RMSE is close the MAE, you have many small deviations, if it is close to its upper bound, there are few grossly wrong predictions.


do you mean sqrt(n)*MAE or sqrt(n*MAE) as an upper bound?
Chris

1
@Chris: it is sqrt (n) * MAE, see my edit.
cbeleites supports Monica
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.