পূর্বাভাসের জন্য একাধিক মডেল কখন ব্যবহার করবেন?


13

এটি মোটামুটি সাধারণ প্রশ্ন:

আমি সাধারণত দেখতে পেয়েছি যে নমুনার বাইরে কোনও সময় সিরিজের পূর্বাভাস দেওয়ার চেষ্টা করার সময় একাধিক বিভিন্ন মডেল ব্যবহার করে একটি মডেলকে ছাপিয়ে যায়। এমন কোনও ভাল কাগজপত্র রয়েছে যা প্রমাণ করে যে মডেলগুলির সংমিশ্রণটি একটি একক মডেলকে ছাড়িয়ে যাবে? একাধিক মডেলের সংমিশ্রণের চারপাশে কি কোনও সেরা-অনুশীলন রয়েছে?

কিছু তথ্যসূত্র:


আমার উত্তরের নীচে আপনার মন্তব্য / প্রশ্নের আলোকে আমি যা বলেছি এটি একটি বেশ ভাল উত্স (দুর্ভাগ্যক্রমে একটি পাঠ্যপুস্তক) ডাব্লু / টিকা আছে added আমি আমার আসল উত্তরটি সম্পাদনা করেছি, তাই এটি শেষে প্রদর্শিত হবে।
ডগ

উত্তর:


8

কখনও কখনও এই ধরণের মডেলগুলিকে একটি জুটি বলা হয়। উদাহরণস্বরূপ এই পৃষ্ঠাটি এটি কীভাবে কাজ করে তা একটি সুন্দর ওভারভিউ দেয়। এছাড়াও উল্লিখিত উল্লেখগুলি খুব কার্যকর।


3
প্রকৃতপক্ষে, সংমিশ্রণ সম্ভাব্য seক্যবদ্ধ কৌশলগুলির মধ্যে একটি। বিশেষত, যখন আপনি একই ধরণের শ্রেণিবদ্ধকারী, বুস্টিং (অ্যাডাবুস্টের মতো) এবং ব্যাগিং (র‌্যান্ডম ফরেস্টের মতো) এবং মিশ্রণ দুটি একত্রিত করেন, যেখানে আপনি বিভিন্ন শ্রেণিবদ্ধকে একত্রিত করেন (শেনের প্রশ্নটি কী ছিল)।

3
মিশ্রণের জন্য, নেটফ্লিক্স প্রতিযোগিতা থেকে এই কাগজটি পড়ার জন্য উপযুক্ত: দ্য-সেন্টিম্বল ডটকম / কনটেন্ট / ফিচার-ওয়েটেড-লাইনার-স্ট্যাকিং
শেন

2
এটি মজাদার যে আবহাওয়াবিদও "এনসেম্বল" শব্দটি ব্যবহার করেছেন তবে সংমিশ্রণের জন্য নয়: তারা এটি সংখ্যার মডেলের প্রাথমিক অবস্থার অবয়ব দ্বারা প্রাপ্ত ভবিষ্যদ্বাণীগুলির একটি সংশ্লেষের জন্য (দৃশ্যের মতো) ব্যবহার করে।
রবিন গিরার্ড

1
@ এমবিকিউ প্রকৃতপক্ষে তারা নিজেদেরকে পূর্বাভাসকারী বলে এবং তারা পরিসংখ্যানকে প্রচুর পরিমাণে ব্যবহার করে ...
রবিন গিরার্ড

1
@ আরবিন আমি জানি, এ কারণেই একে "এনসেম্বল" বলা হয় সেট বা এর মতো কিছু নয়।

10

নেটফ্লিক্স পুরষ্কার প্রতিযোগিতার চূড়ান্ত বছর (২০০৯) দেখে মনে হয়েছিল যে একাধিক শেখার অ্যালগরিদমের সংমিশ্রণের বিরুদ্ধে সাধারণ সম্প্রদায়-বিস্তৃত ধারণাটি তীব্রভাবে বদলেছে।

উদাহরণস্বরূপ, আমার আনুষ্ঠানিক প্রশিক্ষণ (বিশ্ববিদ্যালয় কোর্স) এবং পরে চাকরির উপর নজরদারি / পরামর্শদাতা আমাদের অ্যালগরিদম সংমিশ্রণ এড়াতে শিখিয়েছিলেন যতক্ষণ না আমাদের তা করার কোনও স্পষ্ট কারণ না থাকে - এবং "আমার বর্তমান অ্যালগরিদমের সমাধানের উন্নতি করতে", ছিল না সত্যিই একটি ভাল কারণ বলে মনে করা হচ্ছে। (অন্যের আলাদা আলাদা অভিজ্ঞতা থাকতে পারে - অবশ্যই আমি কেবল নিজের অভিজ্ঞতার ভিত্তিতে একটি সম্প্রদায়ভিত্তিক দৃষ্টিভঙ্গি অনুমান করছি, যদিও খারাপভাবে-সম্পাদনকারী এমএল অ্যালগরিদমগুলিকে কোড করার ক্ষেত্রে আমার অভিজ্ঞতা যথেষ্ট))

তবুও, কয়েকটি "নিদর্শন" ছিল যা একরকমভাবে বা অন্য কোনওভাবে অ্যালগরিদমের সংমিশ্রণ গৃহীত হয়েছিল এবং কার্যকারিতা উন্নত করেছে। আমার জন্য, সবচেয়ে ঘন ঘন উদাহরণটিতে মেশিন মোডে কনফিগার করা কিছু এমএল অ্যালগরিদম জড়িত (প্রতিটি ডাটা পয়েন্টে একটি শ্রেণির লেবেল নির্ধারণ করে) এবং যেখানে দুটি ক্লাসের (সাধারণত আরও অনেকগুলি) উপস্থিত ছিল। উদাহরণস্বরূপ, চার ক্লাস সমাধানের জন্য একটি তদারকি-শেখার অ্যালগরিদম ব্যবহার করার সময়, এবং আমরা চতুর্থ শ্রেণি বনাম চতুর্থ শ্রেণিটি বাদ দিয়ে চমৎকার বিভাজন দেখতে পাবো । সুতরাং এই ছয়টি সিদ্ধান্তের সীমানার মধ্যে কেবলমাত্র একটি প্রয়োজনীয় থ্রেশোল্ডের নীচে সমাধান করা হয়েছে। বিশেষত যখন তৃতীয় এবং চতুর্থ শ্রেণীর একসাথে উপাত্তের অল্প শতাংশের জন্য গণনা করা হয়েছিল, তখন কেবলমাত্র এই দুটি শ্রেণীর রেজোলিউশনে অনুকূলিত একটি অতিরিক্ত অ্যালগরিদম যুক্ত করা হয়েছে, এই বিশ্লেষণাত্মক সমস্যা ধরণের মোটামুটি সাধারণ সমাধান ছিল। (সাধারণত 'অন্ধ স্পট' প্রাথমিক অ্যালগরিদমের অন্তর্নিহিত সীমাবদ্ধতা ছিল - যেমন, এটি একটি লিনিয়ার শ্রেণিবদ্ধ এবং তৃতীয় / চতুর্থ সিদ্ধান্তের সীমানা অ-রৈখিক ছিল।

অন্য কথায়, যখন আমরা একটি নির্ভরযোগ্য অ্যালগরিদম প্রক্রিয়াকরণের পরিবেশের সাথে উপযুক্ত ছিল (যা সাধারণত স্ট্রিমিং ডেটা ছিল) এবং যেটি একক অন্ধ স্পট ব্যতীত অনুমানের মধ্যে সঞ্চালিত হয়েছিল যে কারণে এটি দুটি (বা আরও) শ্রেণি সমাধান করতে ব্যর্থ হয়েছিল তথ্যের একটি ছোট ভগ্নাংশ, তবে মূল অ্যালগরিদম পদ্ধতিগতভাবে কী অনুপস্থিত ছিল তা ধরার জন্য অন্য বিশেষায়িত অ্যালগরিদমকে 'বোল্ট-অন' করা সবসময়ই ভাল।

অবশেষে, এই বিষয়ে, আমি উচ্চতর অধ্যায় 17 সুপারিশ করতে চাই, একাধিক শিক্ষার্থী সমন্বিত , মেশিন লার্নিংয়ের পরিচিতিতে, 2 ডি, এথেম আলপেদিন, এমআইটি প্রেস, 2010 দ্বারা রচনা। উল্লেখ্য যে এটি কয়েক মাস আগে প্রকাশিত দ্বিতীয় সংস্করণ ; প্রথম সংস্করণ 2004 সালে প্রকাশিত হয়েছিল এবং আমি সন্দেহ করি যে এটির এই বিষয়টির একই কভারেজ রয়েছে। (আসলে আমি পুরো টেক্সটটি সুপারিশ করছি, তবে শ্যানের প্রশ্নের সাথে সম্পর্কিত বলে এই অধ্যায়ে বিশেষত।)

২৫ পৃষ্ঠায় লেখক সম্ভবত প্রতিটি এমএল অ্যালগরিদম-সংমিশ্রণ প্রকল্পটির সংক্ষিপ্তসার করেছেন যার একাডেমিক সাহিত্য বা অনুশীলনে যেমন ইউটিলিটি প্রদর্শিত হয়েছে - যেমন, ব্যাগিং, বুস্টিং, বিশেষজ্ঞদের মিশ্রণ, সজ্জিত সাধারণীকরণ, ক্যাসকেডিং, ভোটদান, ত্রুটি-সংশোধন, .. ..


এটি দুর্দান্ত তথ্য। আপনি কি এমন কোনও কাগজপত্র জানেন যা এটি কভার করে?
শেন

(আপনার মন্তব্যে এসএ থেকে কোনও বিজ্ঞপ্তিকারী পেলেন না) ভাল, আমি যখন লিখলাম তখন আমি কোনও কাগজপত্রের উল্লেখ করছি না, বরং আপনার প্রশ্নের সাথে প্রাসঙ্গিকভাবে আমার অভিজ্ঞতার টুকরো সংক্ষেপ করে বললাম। আমি আমার ফাইলগুলি সন্ধান করব এবং আমার কী তা প্রাসঙ্গিক তা দেখতে পাবো।
ডগ

4

জমায়েত পদ্ধতিতে পিটারের প্রতিক্রিয়া অনুসরণ করছেন:



1

বাম-ক্ষেত্রের উত্তরের বাইরে কিছুটা এখানে দেওয়া হয়েছে, যা কেবলমাত্র আপনার প্রশ্নের অংশটির "একাধিক মডেলের সংমিশ্রণের সেরা অনুশীলনগুলি" স্পর্শ করে । এটি মূলত আমার অনার্স থিসিসটি হ'ল ব্যতীত আমি জটিল, অত্যন্ত অ-রৈখিক মডেলগুলি নিয়ে বিশৃঙ্খলা ও গোলমাল প্রদর্শন করি - জলবায়ু মডেল। এটি বহু ক্ষেত্রে ব্যাপকভাবে প্রযোজ্য নয়, তবে বাস্তু বা একনোমেট্রিক্সে এটি কার্যকর হতে পারে।

মোটামুটি সম্প্রতি জলবায়ু মডেলিং সম্প্রদায়ের আগ পর্যন্ত মডেলগুলি কেবলমাত্র একটি অপ্রদর্শিত গড়কে একসাথে ছিন্ন করা হত (সাধারণত মডেলটিকে অংশীদারি বা সমস্ত নমুনা সময়কালের জন্য অপসারণের সাথে পক্ষপাত সংশোধন করার পরে )। এটিই মূলত চতুর্থ মূল্যায়ন প্রতিবেদন (4 এআর) এবং পূর্ববর্তী প্রতিবেদনের জন্য আইপিসিসি করেছিল।

এটি " সত্য প্লাস ত্রুটি " জড়ো সংমিশ্রণের বিদ্যালয়ের উদাহরণ , যেখানে এটি সুস্পষ্টভাবে বা স্পষ্টভাবে ধরে নেওয়া হয় যে পর্যবেক্ষণ সিরিজ (যেমন, বৈশ্বিক তাপমাত্রা, স্থানীয় বৃষ্টিপাত ইত্যাদি) সত্য, এবং যদি আপনি পর্যাপ্ত নমুনা নেন তবে (উদাহরণস্বরূপ, মডেল রান), মডেলের রানগুলির শব্দটি বাতিল হয়ে যাবে (দেখুন (1))।

সাম্প্রতিককালে, পারফরম্যান্স ওজনের ভিত্তিতে মডেলগুলির সংমিশ্রনের জন্য পদ্ধতিগুলি ব্যবহার করা হয়েছে। যেহেতু জলবায়ু মডেলগুলি এত গোলমাল, এবং অনেকগুলি ভেরিয়েবল এবং পরামিতি রয়েছে, তাই পারফরম্যান্সটি মূল্যায়নের একমাত্র উপায় (যা আমি জানি) হ'ল সমাহার গ্রহণ করা, বা মডেল আউটপুট এবং পর্যবেক্ষণ সময় সিরিজের মধ্যে এমএসই নেওয়া। মডেলগুলি তখন সেই পরিমাপের উপর ভিত্তি করে গড়কে ওজন করে একত্রিত করা যেতে পারে। (2) এ এর ​​একটি ভাল ওভারভিউ রয়েছে।

সিমুলেশনগুলির সমন্বয়ের এই পদ্ধতির পিছনে একটি ধারণা হ'ল মডেলগুলি সমস্ত যুক্তিযুক্তভাবে স্বতন্ত্র - যদি কেউ খুব নির্ভরশীল হন, তবে তারা পক্ষপাতিত্ব করবে। এই ধারণাটি 4 এআর ( সিএমআইপি 3) এর জন্য ব্যবহৃত ডেটাসেটের পক্ষে যুক্তিসঙ্গতভাবে ন্যায্য ছিল , যেহেতু এই ডেটা সেটটি অনেক মডেলিং গ্রুপ থেকে কয়েকটি মডেল রান নিয়ে গঠিত হয়েছিল (অন্যদিকে, মডেলিং সম্প্রদায়ের কোডটি ভাগ করা হয়েছে, তাই এখনও কিছুটা আন্তঃনির্ভরতা থাকতে পারে এটির একটি আকর্ষণীয় দৃষ্টিভঙ্গির জন্য দেখুন (3)) পরবর্তী মূল্যায়ন প্রতিবেদনের ডেটাসেট, সিএমআইপি 5, এর কিছুটা দুর্ভাগ্যযুক্ত বৈশিষ্ট্য নেই - কিছু মডেলিং দলগুলি কয়েক রান জমা দিবে, আবার কেউ কেউ শত শত জমা দিবে। বিভিন্ন দল থেকে আগত এনকেমবলগুলি প্রাথমিক শর্তের পেটব্যথ দ্বারা বা মডেল ফিজিক্স এবং প্যারামিট্রেশন দ্বারা উত্পাদিত হতে পারে। এছাড়াও, এই দুর্দান্ত নকশাটি কোনও নিয়মতান্ত্রিক উপায়ে নমুনাযুক্ত নয় - এটি কেবল যিনি কখনও এনে ডেটা গ্রহণ করেন (কারণ হিসাবে) is এটি ক্ষেত্রটিতে একটি " সুযোগের সংযুক্তি " হিসাবে পরিচিত । এমন একটি ন্যায্য সুযোগ রয়েছে যে এই জাতীয় গোষ্ঠীতে একটি অপ্রকাশিত গড় ব্যবহার করে আপনাকে আরও বেশি রান দিয়ে মডেলগুলির দিকে কিছু বড় পক্ষপাত প্রকাশ করতে চলেছে (যেহেতু শত শত রান থাকা সত্ত্বেও সত্যিকারের স্বাধীন রানগুলি সম্ভবত খুব কম সংখ্যক রয়েছে)।

আমার তত্ত্বাবধায়কের কাছে পর্যালোচনাতে একটি কাগজ রয়েছে এই মুহুর্তে পারফরম্যান্স এবং স্বতন্ত্রতা ওজনকে জড়িত মডেল সংমিশ্রণের একটি প্রক্রিয়া বর্ণনা করে । একটি কনফারেন্স পেপার অ্যাবস্ট্রাক্ট উপলব্ধ (4), আমি যখন কাগজটি প্রকাশিত হবে তখন এটির লিঙ্কটি পোস্ট করব (ধীর প্রক্রিয়া, আপনার নিঃশ্বাস ত্যাগ করবেন না)। মূলত, এই কাগজটিতে এমন একটি প্রক্রিয়া বর্ণনা করা হয়েছে যা মডেল ত্রুটির (মডেল-ওবস) কোয়ারভিয়েন্স গ্রহণ এবং অন্যান্য সমস্ত মডেলের (যেমন অত্যন্ত নির্ভরশীল ত্রুটিযুক্ত মডেল) সাথে উচ্চতর সমবায় রয়েছে এমন মডেলগুলির ভার ওজনকে অন্তর্ভুক্ত করে। মডেল ত্রুটি বৈকল্পিক হিসাবে গণনা করা হয়, এবং কর্মক্ষমতা-ওজন উপাদান হিসাবে ব্যবহৃত হয়।

এটা লক্ষণীয় যে জলবায়ু মডেলিং স্পষ্টতই সংখ্যার মডেলিংয়ের অস্পষ্টতাগুলির দ্বারা সাধারণভাবে প্রভাবিত হয়েছিল। "হাসি পরীক্ষা" বলে একটি জিনিস রয়েছে - যদি আপনি এমন একটি মডেল রান শেষ করেন যা 2050 সালের মধ্যে বিশ্বব্যাপী গড় তাপমাত্রা + 20 ডিগ্রি সেন্টিগ্রেড হয়ে থাকে তবে আপনি কেবল এটিকে ফেলে দিন, কারণ এটি শারীরিকভাবে সুস্পষ্টভাবে প্রাসঙ্গিক নয়। স্পষ্টতই এই ধরণের পরীক্ষাটি মোটামুটি বিষয়ভিত্তিক। আমি এখনও এটি প্রয়োজন হয়নি, তবে আমি অদূর ভবিষ্যতে আশা করি।

এই মুহূর্তে আমার ক্ষেত্রে রাজ্য মডেল সমন্বয় সম্পর্কে আমার বোঝা understanding স্পষ্টতই আমি এখনও শিখছি, সুতরাং আমি যদি বিশেষ কোনও বিষয়কে আঘাত করি তবে আমি ফিরে এসে এই উত্তরটি আপডেট করব।

(১) তেবলদী, সি ও নুটি, আর।, ২০০.. সম্ভাব্য জলবায়ু অনুমানের ক্ষেত্রে বহু মডেল ব্যবহার করা। দ্য রয়্যাল সোসাইটির দার্শনিক লেনদেন এ: গাণিতিক, শারীরিক ও প্রকৌশল বিজ্ঞান, 365 (1857), পৃষ্ঠা 2053-2075।

(২) নুতি, আর। ইত্যাদি।, ২০১০. একাধিক মডেল জলবায়ু অনুমানের মূল্যায়ন ও সংমিশ্রণ সম্পর্কিত আইপিসিসি বিশেষজ্ঞ সভা।

(3) ম্যাসন, ডি। ও নুতি, আর।, 2011. জলবায়ু মডেল বংশবৃত্ত। Geophys। রেস। লেট, 38 (8), p.L08703।

(৪) আব্রামোভিটস, জি ও বিশপ, সি।, ২০১০. সংবেদী ভবিষ্যদ্বাণীতে মডেল নির্ভরতার জন্য সংজ্ঞা এবং ওজন। এজিইউ ফলনের সভা সভাতে। পি। 07।


প্রথম অনুচ্ছেদে আপনার অর্থ "জটিল, অত্যন্ত অ-রৈখিক মডেল" ঠিক আছে? আমার কাজের ক্ষেত্রের জন্য (জলবায়ুহীন অঞ্চল), আমি প্রায়শই দেখতে পাই যে বিভিন্ন মডেল ব্যবহার করা সাধারণত সাধারণত বিভিন্ন পূর্বাভাসের দিকে না যায়। যাইহোক, কেবলমাত্র অ-বিজ্ঞাপন উপায়ে মডেলগুলির সংমিশ্রনের জন্য কেবল কম্পিউটিং করা এবং চালানো আমাদের জন্য একটি বিশাল বাধা। আমি আরও সঠিক ভবিষ্যদ্বাণী আশা করব, তবে আমার কাছে মডেলগুলি একত্রিত করার এবং সেই ভবিষ্যদ্বাণীগুলির ত্রুটিটি সঠিকভাবে অনুমান করার সময় নেই।
সম্ভাব্যতাব্লোগিক

ধন্যবাদ, স্থির। আমার কাছে অ্যাকমপুটিং ক্লাস্টারে অ্যাক্সেস রয়েছে, সুতরাং কম্পিউটিং শক্তি কোনও বিশাল সমস্যা নয়, তবে হ্যাঁ, এমনকি আমি সঠিকভাবে সেট আপ করতে চাইছি এমন একটি মডেল পাওয়া ব্যথা, এবং এটি ইতিমধ্যে লেখা আছে। যে কারণে সিএমআইপি বিদ্যমান, তাই লোকেরা প্রতিবার সেই সমস্ত সমস্যার মধ্য দিয়ে যেতে হবে না। আগ্রহী টাই আপনি কী ক্ষেত্রের মধ্যে তা জানতে পারবেন, যদি আপনি একই জিনিসগুলি করেন।
nnot101
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.