বুটস্ট্র্যাপ: ওভারফিটিংয়ের বিষয়টি


14

অঙ্কন করার মাধ্যমে এক সঞ্চালিত তথাকথিত অ স্থিতিমাপ বুটস্ট্র্যাপ ধরুন B আকার নমুনা n মূল থেকে প্রতিটিn প্রতিস্থাপন সঙ্গে পর্যবেক্ষণ। আমি বিশ্বাস করি যে এই পদ্ধতিটি সমকালীন সিডিএফ দ্বারা संचयी বিতরণ ফাংশনটি অনুমান করার সমান:

http://en.wikipedia.org/wiki/Empirical_distribution_function

এবং তারপরে অনুমান করা সিডিএফ বি থেকে n পর্যবেক্ষণ অনুকরণ করে বুটস্ট্র্যাপ নমুনা প্রাপ্ত করুনB পরপর ।

আমি যদি এটিতে ঠিকই থাকি তবে ওভারফিটিংয়ের সমস্যাটি সমাধান করতে হবে, কারণ অভিজ্ঞতা সিডিএফটির প্রায় N পরামিতি রয়েছে। অবশ্যই, অ্যাসেম্পোটোটিকভাবে এটি জনসংখ্যার সিডিএফ-তে রূপান্তরিত করে তবে সীমাবদ্ধ নমুনার কী হবে? উদাহরণস্বরূপ যদি আমি আপনাকে বলি যে আমার 100 টি পর্যবেক্ষণ রয়েছে এবং আমি সিডিএফটিকে হিসাবে দুটি পরামিতি নিয়ে অনুমান করতে যাচ্ছি, আপনি বিস্মিত হবেন না। তবে, যদি প্যারামিটারের সংখ্যা 100-এ চলে যায় তবে এটি মোটেও যুক্তিযুক্ত বলে মনে হবে না।N(μ,σ2)

তেমনিভাবে, যখন কেউ একটি স্ট্যান্ডার্ড একাধিক লিনিয়ার রিগ্রেশন নিয়োগ করে, ত্রুটি শর্তটির বন্টন অনুমান করা হয় । যদি কেউ অবশিষ্টাংশগুলি বুটস্ট্র্যাপিংয়ে স্যুইচ করার সিদ্ধান্ত নেয়, তবে তাকে বুঝতে হবে যে এখন কেবল ত্রুটি শর্তাদি বিতরণ পরিচালনা করতে প্রায় N পরামিতি ব্যবহৃত হয়েছে usedN(0,σ2)n

আপনি কি দয়া করে আমাকে এমন কিছু উত্সের দিকে পরিচালিত করতে পারেন যা এই সমস্যাটিকে সুস্পষ্টভাবে সম্বোধন করতে পারে, বা আপনি যদি মনে করেন যে এটি আমার কাছে ভুল হয়ে গেছে তবে কেন এটি কোনও সমস্যা নয়।


এই "নন-প্যারাম্যাট্রিক" বুটস্ট্র্যাপটি দেখার একটি উপায় হ'ল এটি কিছু বড়, সীমাবদ্ধ জনগোষ্ঠীর (যেমন রেকর্ডের একটি আদমশুমারীর গড়) স্বাভাবিকতার প্যারাম্যাট্রিক অনুমানকে "আগ্রহের পরিমাণে" রূপান্তর করে। প্রকৃতপক্ষে, আপনি বুটস্ট্র্যাপের এই সংস্করণটি বহু-জাতীয় মডেলটির "সর্বাধিক সম্ভাবনা" অনুমানের উপর ভিত্তি করে জনসংখ্যার প্রতিটি স্বতন্ত্র "প্রকারের" জন্য 1 বিভাগযুক্ত।
সম্ভাব্যতাসংক্রান্ত

উত্তর:


2

আমি পুরোপুরি নিশ্চিত নই যে আমি আপনার প্রশ্নটি ঠিক বুঝতে পেরেছি ... আমি ধরে নিচ্ছি আপনি কেন্দ্রীকরণের ক্রমে আগ্রহী?

কারণ অভিজ্ঞতা সিডিএফ এর প্রায় N পরামিতি রয়েছে। অবশ্যই, আশ্রয়হীনভাবে এটি জনসংখ্যার সিডিএফ-তে রূপান্তরিত করে তবে সীমাবদ্ধ নমুনাগুলির কী হবে?

বুটস্ট্র্যাপ তত্ত্বের কোনও বেসিক আপনি পড়েছেন? সমস্যাটি হ'ল এটি খুব দ্রুত বন্য হয়ে পড়ে (গাণিতিকভাবে) খুব দ্রুত।

যাইহোক, আমি একবার দেখার পরামর্শ দিই

ভ্যান ডের ভার্ট "অ্যাসিম্পটোটিক স্ট্যাটিস্টিকস" অধ্যায় 23।

হল "বুটস্ট্র্যাপ এবং এজওয়ার্থ বিস্তৃতি" (ভ্যান ডার ভার্টের চেয়ে লম্বা তবে সংক্ষিপ্ত এবং কম হ্যান্ডউইভিং আমি বলতে চাই)

বেসিক জন্য।

চেরনিক "বুটস্ট্র্যাপ পদ্ধতিগুলি" গণিতবিদদের চেয়ে ব্যবহারকারীদের পক্ষে বেশি লক্ষ্য করা যায় তবে "যেখানে বুটস্ট্র্যাপ ব্যর্থ হয়" এর একটি বিভাগ রয়েছে।

ক্লাসিকাল ইফ্রন / তিবশিরানী বুটস্ট্র্যাপ আসলে কেন কাজ করে তা নিয়ে খুব কম ...


4

N(μ,σ2) পরিসংখ্যাত বিতরণের যেমন বিতরণ এবং বুটস্ট্র্যাপ মাধ্যমে পরিসংখ্যাত এর বন্টন আনুমানিক হিসাব বিন্দু হিট।

স্বজ্ঞাতভাবে, সসীম নমুনাগুলি থেকে বুটস্ট্র্যাপিং অন্তর্নিহিত বিতরণের ভারী লেজকে হ্রাস করে। এটি স্পষ্ট, যেহেতু সীমাবদ্ধ নমুনাগুলির একটি সীমাবদ্ধ পরিসীমা থাকে, এমনকি যদি তাদের আসল বিতরণের পরিধি অসীম বা এমনকি আরও খারাপ হয় তবে ভারী লেজ থাকে। সুতরাং বুটস্ট্র্যাপের পরিসংখ্যানের আচরণ কখনই মূল পরিসংখ্যানের মতো "বন্য" হতে পারে না। (প্যারামেট্রিক) রিগ্রেশন-এর অনেক বেশি পরামিতিগুলির কারণে ওভারফিটিং এড়ানো সমান, আমরা কয়েকটি-প্যারামিটার সাধারণ বিতরণ ব্যবহার করে ওভারফিটিং এড়াতে পারি।

মন্তব্য প্রতিক্রিয়া সম্পাদনা করুন: মনে রাখবেন সিডিএফ অনুমান করার জন্য আপনার বুটস্ট্র্যাপের দরকার নেই। আপনি সাধারণত কিছু পরিসংখ্যানের বিতরণ (কোয়ান্টাইলস, মুহুর্তগুলি সহ যা প্রয়োজন তার বিস্তৃত অর্থে) বুটস্ট্র্যাপ ব্যবহার করেন। সুতরাং অগত্যা আপনার খুব বেশি সমস্যা হবে না ("আমার সীমাবদ্ধ তথ্যের কারণে অনুমানটি সত্য বন্য বিতরণের সাথে আমার কী দেখতে হবে" তার তুলনায় খুব সুন্দর দেখাচ্ছে)। তবে যেমনটি প্রমাণিত হয়েছে (উদ্ধৃত কাগজ দ্বারা এবং নীচে ফ্র্যাঙ্ক হ্যারেলের মন্তব্য দ্বারা), এই জাতীয় অতিরিক্ত সমস্যাটি একই পরিসংখ্যানের প্যারাম্যাট্রিক অনুমানের সাথে সমস্যার সাথে যুক্ত।

সুতরাং আপনার প্রশ্নটি ইঙ্গিত হিসাবে, বুটস্ট্র্যাপিং প্যারামিমেট্রিক অনুমানের সাথে সমস্যাগুলির বিরুদ্ধে কোনও নিরাময়ের উপায় নয়। পুরো বিতরণ নিয়ন্ত্রণ করে বুটস্ট্র্যাপ প্যারামিটার সমস্যার সাথে সহায়তা করবে এই আশা উত্সাহজনক।


1
এটি এখনও স্পষ্ট নয় যে বুটস্ট্র্যাপ কীভাবে কাজ করতে পরিচালিত করে বুটস্ট্রাপের সাথে জড়িত কার্যকর পরামিতিগুলির সংখ্যা নমুনার আকারের সমান। আমার একটি অনুমান আছে: বুটস্ট্র্যাপের চূড়ান্ত লক্ষ্যটি পুরো বিতরণটি অনুমান করা নয়, তবে বিতরণের 1-2 পরিসংখ্যান অনুমান করা। অতএব, বুটস্ট্র্যাপে এম্বেড থাকা ইমিরিকাল সিডিএফ সত্ত্বেও, মোটামুটিভাবে অত্যধিক মানানসই, 1-2 অনুমানের পরিসংখ্যান কোনওভাবেই শেষ হয়। আমি কি অধিকার পেয়েছি?
জেমস

4
কার্যকর পরামিতিগুলির সংখ্যা নমুনার আকারের মতো নয়। বন্টন অনুমান করার জন্য 4 টি অজানা প্যারামিটার থাকলে অভিজ্ঞতাগত ক্রমবর্ধমান বিতরণ ফাংশনের বৈকল্পিকটি বিতরণের সাথে প্যারামেট্রিক ফিটের ভেরিয়েন্সের মতোই। একটি কারণ হ'ল এমিরিকাল সিডিএফ অনুমানগুলি আরোহী ক্রম হতে বাধ্য হয়।
ফ্রাঙ্ক হ্যারেল

ভাল যুক্তি. আপনি একটি রেফারেন্স প্রদান করতে পারেন?
জেমস

আমি যদি আমার একটি থাকতাম। আমি মন্টি কার্লো সিমুলেশন দ্বারা অতীতে এটি দেখিয়েছি।
ফ্র্যাঙ্ক হ্যারেল

L2F^FF^(x)F(x)

0

অন্তর্নিহিতের একটি উত্স আইডি ডেটার জন্য প্যারামেট্রিক সিডিএফ বনাম ইসিডিএফগুলির জন্য রূপান্তর হারের তুলনা করা হতে পারে।

n1/2

n1/2σμ

সুতরাং একটি নির্দিষ্ট অর্থে, আপনাকে যে হারে আরও বেশি নমুনা অর্জন করতে হবে তা সমান, আপনি সিপিএফ অনুমিতভাবে সিডিএফ ব্যবহার করছেন বা আপনি কোনও নমুনা-গড়-টাইপ অনুমানকারী ব্যবহার করে সরাসরি কোনও পরামিতি অনুমান করছেন কিনা। এটি ফ্র্যাঙ্ক হ্যারেলের এই মন্তব্যকে ন্যায়সঙ্গত করতে সহায়তা করতে পারে যে "কার্যকর পরামিতিগুলির সংখ্যা নমুনার আকারের মতো নয়" "

অবশ্যই, এটি পুরো গল্প নয়। যদিও হারগুলি আলাদা হয় না, তবে ধ্রুবকরা তা করেন। এবং আরো অনেক আছে ECDFs চেয়ে nonparametric বুটস্ট্র্যাপ করার জন্য আরও --- আপনি কি এখনও প্রয়োজন না ECDF সঙ্গে জিনিসগুলি একবার আপনি এটা অনুমান।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.