বুটস্ট্র্যাপিং এবং ক্রস-বৈধকরণের মধ্যে পার্থক্য কী?


21

আমি আমার মেশিন লার্নিং মডেলগুলির শক্ত মূল্যায়নের জন্য কে-ফোল্ড ক্রস-বৈধকরণ প্রয়োগ করতাম। তবে আমি এই উদ্দেশ্যে বুটস্ট্র্যাপিং পদ্ধতির অস্তিত্ব সম্পর্কেও অবগত। তবে, পারফরম্যান্স অনুমানের ক্ষেত্রে আমি তাদের মধ্যে প্রধান পার্থক্যটি দেখতে পাচ্ছি না।

যতদূর আমি দেখতে পাচ্ছি, বুটস্ট্র্যাপিং একটি নির্দিষ্ট সংখ্যক এলোমেলো প্রশিক্ষণ + টেস্টিং সাবসেটগুলি তৈরি করে (যদিও ভিন্ন উপায়ে) তবে সিভিতে এই পদ্ধতিটি ব্যবহার করার কী লাভ, সুবিধা কী? কেবলমাত্র আমি বুঝতে পারি যে বুটস্ট্র্যাপিংয়ের ক্ষেত্রে কেউ কৃত্রিমভাবে এই ধরণের সাবটেটের ভার্চুয়াল স্বেচ্ছাসেবী সংখ্যা তৈরি করতে পারে যখন সিভিতে উদাহরণগুলির সংখ্যা এটির জন্য এক প্রকার সীমাবদ্ধতা। তবে এই দিকটি খুব সামান্য উপদ্রব বলে মনে হচ্ছে।

উত্তর:


18

ক্রস বৈধকরণ এবং বুটস্ট্র্যাপিং উভয়ই পুনর্নির্মাণের পদ্ধতি।

  • প্রতিস্থাপন সহ বুটস্ট্র্যাপের প্রতিকারগুলি (এবং সাধারণত মূল ডেটা সেট হিসাবে একই সংখ্যক কেস সহ নতুন "সারোগেট" ডেটা সেট উত্পাদন করে)। প্রতিস্থাপনের সাথে অঙ্কনের কারণে, বুটস্ট্র্যাপযুক্ত ডেটা সেটে একই মূল ক্ষেত্রে একাধিক উদাহরণ থাকতে পারে এবং অন্যান্য আসল কেসগুলি পুরোপুরি বাদ দিতে পারে।
  • প্রতিস্থাপন ছাড়াই ক্রস বৈধকরণের রেসামালগুলি এবং এর ফলে মূলের চেয়ে ছোট আকারের ডেটা সেট তৈরি হয়। এই ডেটা সেটগুলি পদ্ধতিগত উপায়ে উত্পাদিত হয় যাতে সার্গেট ডেটা সেটগুলির একটি পূর্বনির্ধারিত সংখ্যা পরে , প্রতিটি কেস ঠিক একবার ছেড়ে যায়। একে কে-ফোল্ড ক্রস বৈধকরণ বা x- rac with সহ এক্স- আউট ক্রস বৈধকরণ বলা হয় , যেমন- লিভ-ওয়ান-আউট ক্রস বৈধতা প্রতিটি সার্গেট সেটের জন্য 1 কেস বাদ দেয়, অর্থাত্ ।knx=nkk=n

  • নামের ক্রস বৈধকরণের পরামর্শ অনুসারে, এর প্রাথমিক উদ্দেশ্যটি একটি মডেলের পরিমাপ (সাধারণীকরণ)। বিপরীতে, বুটস্ট্র্যাপিং মূলত পরিসংখ্যানের বিস্তৃত পরিসরের জন্য অভিজ্ঞতামূলক বিতরণ ফাংশন প্রতিষ্ঠার জন্য ব্যবহৃত হয় (ব্যাগযুক্ত এনসেম্বল মডেলগুলির মডেলগুলির প্রকরণের গড়ের প্রকরণ) say

  • বুটস্ট্র্যাগ পদ্ধতিটির লিভ-ওয়ান-আউট অ্যানালগকে জ্যাককনিফিং বলা হয় (এবং এটি আসলে বুটস্ট্র্যাপিংয়ের চেয়ে পুরানো)।

  • জেনারালাইজেশন ত্রুটির বৈধতা অনুমানের জন্য বুটস্ট্র্যাপ অ্যানালগকে আউট-অফ-বুটস্ট্র্যাপ অনুমান বলা হয় (কারণ পরীক্ষার কেসগুলি সেগুলি যা বুটস্ট্র্যাপ পুনর্নির্মাণ প্রশিক্ষণের সেটটির বাইরে ছিল)।

[ক্রস ভ্যালিডন বনাম।-বুটস্ট্র্যাপ বৈধতা] তবে, পারফরম্যান্স অনুমানের ক্ষেত্রে আমি তাদের মধ্যে প্রধান পার্থক্যটি দেখতে পাচ্ছি না।

এই স্বজ্ঞাততাটি সঠিক: অনুশীলনে প্রায়শই পুনরাবৃত্ত ফোল্ড ক্রস বৈধতা এবং বুট-স্ট্র্যাপের মধ্যে পার্থক্য খুব বেশি থাকে না । মূল্যায়িত সারোগেট মডেলের একই সংখ্যক সংখ্যার সাথে মোট ত্রুটি [মডেল পূর্বাভাস ত্রুটি পরিমাপের] অনুরূপ হিসাবে পাওয়া গেছে, যদিও oob সাধারণত সিভি অনুমানের তুলনায় বেশি পক্ষপাত এবং কম পার্থক্য রাখে।k

ওব বায়াস (.632-বুটস্ট্র্যাপ, .632 +-বুটস্ট্র্যাপ) হ্রাস করার জন্য অনেকগুলি প্রচেষ্টা রয়েছে তবে তারা বাস্তবে পরিস্থিতির উন্নতি করবে কিনা তা হাতের পরিস্থিতি নির্ভর করে।

সাহিত্য:


কেবলমাত্র আমি বুঝতে পারি যে বুটস্ট্র্যাপিংয়ের ক্ষেত্রে কেউ কৃত্রিমভাবে এই ধরণের সাবটেটের ভার্চুয়াল স্বেচ্ছাসেবী সংখ্যা তৈরি করতে পারে যখন সিভিতে উদাহরণগুলির সংখ্যা এটির জন্য এক প্রকার সীমাবদ্ধতা।

হ্যাঁ, বুটস্ট্র্যাপিংয়ের চেয়ে সিভিতে কম সংযোজনগুলি সম্ভব। তবে সিভির সীমা সম্ভবত আপনার সচেতনতার চেয়ে বেশি। কেস এবং ফোল্ড ক্রস বৈধকরণ সহ ডেটা সেট করার জন্য আপনার কাছে রয়েছেnk

  • সিভি replacement প্রতিস্থাপন ছাড়াই সংমিশ্রণগুলি (k <n এর জন্য যা সাধারণত সম্ভাবনাগুলি মূল্যায়নের সম্ভাবনার চেয়ে অনেক বেশি ) বনাম।(nk)k
  • বুটস্ট্র্যাপ / oob replacement প্রতিস্থাপনের সাথে সংমিশ্রণগুলি (যা আবার বলা যায় যে, 100 বা 1000 সরোগেট মডেল যা সাধারণত মূল্যায়ন করা হয় তার চেয়ে অনেক বেশি)(2n1n)

3

বুটস্ট্র্যাপিং এমন কোনও পরীক্ষা বা মেট্রিক যা প্রতিস্থাপনের সাথে এলোমেলো নমুনার উপর নির্ভর করে t এটি এমন একটি পদ্ধতি যা অনেক পরিস্থিতিতে যেমন ভবিষ্যদ্বাণীমূলক মডেল পারফরম্যান্সের বৈধতা, জড়িত পদ্ধতিগুলি, পক্ষপাতের প্রাক্কলন এবং কোনও মডেলের প্যারামিটারের বৈকল্পিক ইত্যাদির সাহায্য করে by মূল ডেটাसेट থেকে প্রতিস্থাপনের সাথে নমুনা প্রদর্শন করা এবং একই সাথে ধরে নেওয়া যে যে ডেটা পয়েন্টগুলি চয়ন করা হয়নি তা হ'ল পরীক্ষার ডেটাসেট। আমরা এই পদ্ধতিটি কয়েকবার পুনরাবৃত্তি করতে পারি এবং আমাদের মডেল পারফরম্যান্সের অনুমান হিসাবে গড় স্কোর গণনা করতে পারি। এছাড়াও, বুটস্ট্র্যাপিং প্রশিক্ষণ পদ্ধতির সাথে সম্পর্কিত, কারণ আমরা প্রতিটি বুটস্ট্র্যাপ ডেটাসেট ব্যবহার করে একটি মডেল তৈরি করতে পারি এবং "ব্যাগ" এই মডেলগুলিকে সংখ্যাগরিষ্ঠ ভোটদান (শ্রেণিবিন্যাসের জন্য) ব্যবহার করে বা সকলের জন্য গড় (সংখ্যার পূর্বাভাসের জন্য) গণনা করি আমাদের চূড়ান্ত ফলাফল হিসাবে এই মডেলগুলি।

ক্রস বৈধকরণ কোনও মডেলের কর্মক্ষমতা যাচাই করার জন্য একটি প্রক্রিয়া, এবং প্রশিক্ষণ ডেটা কে অংশে বিভক্ত করে এটি করা হয়। আমরা ধরে নিই যে কে -1 অংশগুলি প্রশিক্ষণ সেট এবং অন্য অংশটি আমাদের পরীক্ষার সেট। আমরা সেই সময়ের পুনরাবৃত্তি করতে পারি প্রতিবার ডেটার আলাদা অংশকে আলাদাভাবে রাখা। অবশেষে, আমরা আমাদের পারফরম্যান্সের অনুমান হিসাবে কে স্কোরগুলির গড় গ্রহণ করি। ক্রস বৈধতা পক্ষপাত বা বৈকল্পিকতায় ভুগতে পারে। বিভাজনের সংখ্যা বৃদ্ধি করে, বৈচিত্রটিও বাড়বে এবং পক্ষপাতও হ্রাস পাবে। অন্যদিকে, আমরা যদি বিভাজনের সংখ্যা হ্রাস করি তবে পক্ষপাত বাড়বে এবং প্রকরণটি হ্রাস পাবে।

সংক্ষেপে, ক্রস বৈধতা একাধিক ডেটাसेट তৈরি করতে উপলভ্য ডেটাসেটকে বিভক্ত করে এবং বুটস্ট্র্যাপিং পদ্ধতিটি প্রতিস্থাপনের সাথে পুনরায় মডেলিংয়ের পরে একাধিক ডেটাসেট তৈরি করতে মূল ডেটাसेट ব্যবহার করে। মডেল বৈধতার জন্য এটি ব্যবহার করার সময় এটি ক্রস বৈধতার মতো শক্তিশালী নয় Boot বুটস্ট্র্যাপিং মেশিনগুলি মডেল তৈরি করা বা পরামিতিগুলি অনুমান করার বিষয়ে আরও বেশি।


2

ক্রস-বৈধকরণ এমন একটি কৌশল যা লক্ষ্য করা যায় যে আপনার মডেলটি প্রশিক্ষণপ্রাপ্ত নয় এমন ডেটার বিষয়ে কতটা ভাল জেনারেলাইজ করে। এটি আপনার অ্যালগরিদমের ফলাফলগুলিকে প্রভাবিত করে না, এটি কেবল তাদের মূল্যায়ন করে।

বুটস্ট্র্যাপিং এমন একটি এনসেম্বল পদ্ধতি যা গড় গড় আউটপুট উত্পাদন করার জন্য ডেস্কশন ট্রিগুলির মতো কয়েকটি মডেলের আউটপুটগুলিকে একত্রিত করে । প্রযুক্তিগতভাবে বলতে গেলে, এটি একটি একক মডেলের উপর ভিত্তি করে শ্রেণিবদ্ধকরণ অ্যালগরিদমের বৈকল্পিকতা হ্রাস করে, যেহেতু এটি একই মডেলের কাঠামোর (বিভিন্ন পরামিতি সহ) বিভিন্ন ধরণের আউটপুটগুলির আউটপুটকে গড় দেয় a এটি শ্রেণিবদ্ধকরণ অ্যালগরিদমের কার্যকারিতা পরিবর্তন করে তাই এটি মূল্যায়ন করে না

অন্য কথায় : ক্রস-বৈধকরণ একটি অ্যালগরিদমকে কতটা জেনারেল করে তোলে তা মূল্যায়ন করে, অন্যদিকে বুটস্ট্র্যাপিং আসলে অ্যালগরিদমকে আরও ভাল করে তুলতে সহায়তা করে।

এটি কতটা জেনারেলাইজ করে তা দেখতে আপনি বুটস্ট্র্যাপ করা মডেলটিতে আসলে ক্রস-বৈধকরণ ব্যবহার করতে পারেন।


3
ব্যাগিং ঠিকঠাক বুটস্ট্র্যাপিং না?
এলেমোলোটিভ

0
  • ক্রস-বৈধকরণ: পরীক্ষার ত্রুটির অনুমান সরবরাহ করে।
  • বুটস্ট্র্যাপ: অনুমানের স্ট্যান্ডার্ড ত্রুটি সরবরাহ করে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.