বুটস্ট্র্যাপিং - আমার আগে আউটলিয়ারগুলি অপসারণ করা দরকার?


19

আমরা একটি নতুন পণ্য বৈশিষ্ট্যের বিভাজন পরীক্ষা চালিয়েছি এবং উপার্জনের উপর উত্সাহটি উল্লেখযোগ্য হলে তা পরিমাপ করতে চাই। আমাদের পর্যবেক্ষণগুলি অবশ্যই সাধারণত বিতরণ করা হয় না (আমাদের বেশিরভাগ ব্যবহারকারী ব্যয় করেন না এবং এটির মধ্যে, এটি প্রচুর পরিমাণে ছোট ব্যয়কারী এবং কয়েকটি খুব বড় ব্যয়কারীদের দিকে ভারী হয়)।

আমরা উপায়গুলি তুলনা করার জন্য বুটস্ট্র্যাপিং ব্যবহার করার সিদ্ধান্ত নিয়েছি, সাধারণত তথ্য বিতরণ করা হচ্ছে না এমন বিষয়টি প্রকাশ করার জন্য (পার্শ্ব-প্রশ্ন: এটি কি বুটস্ট্র্যাপিংয়ের বৈধ ব্যবহার?)

আমার প্রশ্নটি হ'ল, বুটস্ট্র্যাপিং চালানোর আগে আমার কি ডেটা সেট (যেমন কয়েকটি খুব বড় ব্যয়কারী) থেকে ট্রিমিং করা দরকার, বা তাতে কিছু আসে যায় না?


1
ভাল প্রশ্ন: আমি সম্ভবত পক্ষে এবং বহিরাগতদের অপসারণের বিরুদ্ধে তর্ক করতে পারি। আপনি যদি বহিরাগতদের সম্পর্কে উদ্বিগ্ন থাকেন এবং আপনি যা খুঁজছেন তা কেবল "কেন্দ্রীয় প্রবণতা" হিসাবে কেন মিডিয়ানদের ব্যবহার করবেন না? অর্থ-সম্পর্কিত ভেরিয়েবলগুলি প্রদত্ত যে বেশিরভাগ ক্ষেত্রে অত্যন্ত স্কিউড বিতরণ থাকে (উদা। প্যারেটো) যা প্রথমে অযৌক্তিক নয় not
usεr11852 15 ই

1
@ ইউজার 11852 মিডিয়ানরা আপনাকে গড়ের বিষয়ে সামান্য কিছু বলে দেয়, যা আয়ের সাথে প্রাসঙ্গিক। "আউটলিয়ার্স" অপসারণের পক্ষে আপনার যুক্তিটি দেখতে আকর্ষণীয় হবে, বিশেষত যখন এগুলি সম্ভবত মোট রাজস্বের প্রধান অবদানকারী হয়।
whuber

1
দুর্ভাগ্যক্রমে মিডিয়ান সর্বদা শূন্য হতে পারে, কারণ <10% ব্যবহারকারী
মোটেও

2
@ user11852 আপনার সাধারণ যুক্তি যে বহিরাগতরা বৈধ। তবে, পরিবর্ধনের সম্ভাবনা সম্পর্কে, আমার কাছে এটির বিপরীতটি সত্য বলে মনে হয়: সম্পূর্ণ নমুনা ব্যবহার করা হলে বুটস্ট্র্যাপিংয়ের কাজ করার সুযোগ রয়েছে। অন্যথায় এটি একটি রূপকথার গল্প উপস্থাপন করে, যখন আমাদের বলে যে বিদেশীদের উপস্থিত না থাকলে জিনিসগুলি কেমন হবে - তবে স্পষ্টতই তারা তা করে। বৃহত্তর সমস্যাটি হ'ল ছোট নমুনাগুলির ক্ষেত্রে প্রয়োগ করার সময় বুটস্ট্র্যাপিংয়ের তাত্ত্বিক ন্যায্যতা থাকে: তত্ত্বটি একটি অ্যাসিম্পটোটিক
whuber

2
এটি একটি গুরুত্বপূর্ণ প্রশ্ন (+1)। আপনি কি নিজের ডেটাসেটের একটি ছোট নমুনা বা প্রশ্নের সাথে সাদৃশ্য একটি সিমুলেটেড নমুনা যুক্ত করতে পারেন? আমি মনে করি এই ক্ষেত্রে একটি উদাহরণ প্রদান করা আরও ফলপ্রসূ হবে।
ব্যবহারকারী 60

উত্তর:


6

এটিকে সম্বোধন করার আগে, এটি স্বীকার করা জরুরী যে "প্রয়োগকারীদের অপসারণ" এর পরিসংখ্যানগত অপব্যবহারটি প্রয়োগ করা অনেকগুলি পরিসংখ্যানের পাঠ্যবিদ্যায় ভুলভাবে প্রবর্তিত হয়েছে। Ditionতিহ্যগতভাবে, আউটলিয়ারগুলি উচ্চ উত্তোলন, উচ্চ প্রভাব পর্যবেক্ষণ হিসাবে সংজ্ঞায়িত হয়। ডেটা বিশ্লেষণে এই জাতীয় পর্যবেক্ষণগুলি সনাক্ত করতে এবং করা উচিত, তবে কেবলমাত্র শর্তাদি এই পর্যবেক্ষণগুলি অপসারণের পরোয়ানা দেয় না। একটি "সত্য আউটলেটর" একটি উচ্চ লিভারেজ / উচ্চ প্রভাব পর্যবেক্ষণ যা পরীক্ষামূলক ডিজাইনের প্রতিরূপগুলির সাথে সঙ্গতিপূর্ণ নয়। এটিকে পর্যবেক্ষণ হিসাবে বিবেচনা করার জন্য সেই জনসংখ্যার বিশিষ্ট জ্ঞান এবং "ডেটা তৈরির প্রক্রিয়া" এর পিছনে বিজ্ঞানের প্রয়োজন। সর্বাধিক গুরুত্বপূর্ণ দিকটি হ'ল আপনার সম্ভাব্য আউটলিয়ারদের অ্যাপ্ররিওরি সনাক্ত করতে সক্ষম হওয়া উচিত ।

জিনিসগুলির বুটস্ট্র্যাপিং দিকটি হিসাবে, বুটস্ট্র্যাপটি নমুনা জনসংখ্যার থেকে স্বতন্ত্র, পুনরাবৃত্তি আঁকানোকে অনুকরণ করে। যদি আপনি আপনার বিশ্লেষণ পরিকল্পনায় বর্জনীয় মানদণ্ডটিকে পূর্বনির্ধারিত করেন তবে আপনার পৃথক বুটস্ট্র্যাপ নমুনা বিতরণে বাদ দেওয়া মানগুলি ছেড়ে দেওয়া উচিত । এটি আপনার ডেটা স্যাম্পল করার পরে ব্যতিক্রম প্রয়োগের কারণে পাওয়ার ক্ষতির দায়বদ্ধ হবে। তবে, যদি কোনও পূর্বনির্ধারিত বর্জনীয় মানদণ্ড না থাকে এবং পোস্ট হকের সিদ্ধান্তটি ব্যবহার করে আউটলিয়ারগুলি অপসারণ করা হয় , কারণ আমি স্পষ্টতই এর বিরুদ্ধে পদক্ষেপ নিচ্ছি, তবে এই মানগুলি অপসারণের ফলে অপসারণকারীদের অপসারণের ফলে ঘটে যাওয়া একই ত্রুটিগুলি প্রচার করবে।

100 জন ব্যক্তির একটি অনাস্থিহীন সহজ এলোমেলো নমুনায় সম্পদ এবং সুখ সম্পর্কে একটি গবেষণা বিবেচনা করুন। যদি আমরা এই বিবৃতিটি গ্রহণ করি, "জনসংখ্যার 1% বিশ্বব্যাপী 90% সম্পদ ধারণ করে", তবে আমরা গড়ে একটি অত্যন্ত প্রভাবশালী মান পর্যবেক্ষণ করব। আরও ধরুন যে, জীবনের একটি মৌলিক গুণকে সমর্থন করার বাইরে, বৃহত্তর আয়ের (ননকন্ট্যান্ট লিনিয়ার ট্রেন্ড) এর জন্য অতিরিক্ত কোনও সুখের কারণ ছিল না। সুতরাং এই স্বতন্ত্র এছাড়াও উচ্চ উত্তোলন হয়।

অপ্রয়োজনীয় ডেটাতে সর্বনিম্ন স্কোয়ার রিগ্রেশন সহগ ফিট করে এমন একটি জনসংখ্যার গড় এই ডেটাতে প্রথম অর্ডার প্রবণতার গড় অনুমান করে। এটি নমুনায় আমাদের 1 জন ব্যক্তি দ্বারা ভারীভাবে তত্পর হয়ে উঠেছে যার সুখ মধ্যম আয়ের স্তরের সাথে সুসংগত। আমরা যদি এই ব্যক্তিকে অপসারণ করি তবে সর্বনিম্ন স্কোয়ারগুলির রিগ্রেশন opeাল অনেক বড়, তবে রেজিস্ট্রারের বৈকল্পিকতা হ্রাস পেয়েছে, সুতরাং সমিতি সম্পর্কে অনুমান প্রায় একই। এটি করার ক্ষেত্রে অসুবিধাটি হ'ল আমি এমন শর্তগুলি পূর্বনির্ধারিত করি নি যেখানে ব্যক্তিদের বাদ দেওয়া হবে। অন্য গবেষক যদি এই অধ্যয়নের নকশাটির অনুলিপি করেন তবে তারা গড়ে এক উচ্চ আয়ের নমুনা দিতেন, মাঝারিভাবে সুখী ব্যক্তি, এবং আমার "ছাঁটা" ফলাফলের সাথে অসামঞ্জস্যপূর্ণ ফলাফলগুলি অর্জন করতেন।

আমরা যদি মাঝারি আয়ের সুখ সমিতিতে আগ্রহী হয়ে থাকি , তবে আমাদের পূর্বনির্ধারিত হওয়া উচিত ছিল, যেমন, "বার্ষিক গৃহস্থালির আয়ের তুলনায়। 100,000 ডলারের চেয়ে আয়ের ব্যক্তিদের তুলনা করুন"। সুতরাং আউটলেট সরানো আমাদের এমন কোনও সংস্থার অনুমানের কারণ ঘটায় যা আমরা বর্ণনা করতে পারি না, সুতরাং পি-মানগুলি অর্থহীন।

অন্যদিকে, ভ্রান্ত ক্যালকুলেটেড চিকিত্সা সরঞ্জাম এবং স্বতঃস্ফূর্ত স্ব-প্রতিবেদন করা জরিপের মিথ্যা অপসারণ করা যেতে পারে। প্রকৃত বিশ্লেষণ হওয়ার আগে বর্জনীয় মানদণ্ডটি আরও সঠিকভাবে বর্ণনা করা যেতে পারে, এই জাতীয় বিশ্লেষণের ফলাফল আরও কার্যকর এবং সঙ্গতিপূর্ণ হবে।


আমি নিশ্চিত না কেন আমি বুঝতে পেরেছি কেন " যদি আপনি আপনার বিশ্লেষণ পরিকল্পনায় বর্জনীয় মানদণ্ডকে পূর্বনির্ধারিত করেন তবে আপনাকে আলাদা বুটস্ট্র্যাপ নমুনা বিতরণে বাদ দেওয়া মানগুলি ছেড়ে দেওয়া উচিত। " আপনি উল্লেখ করেছেন যে এটি হ'ল " কারণ আপনি ক্ষমতার ক্ষতির জন্য দায়বদ্ধ হবেন আপনার ডেটা স্যাম্পল করার পরে ব্যতিক্রম প্রয়োগ করা। " নমুনা দেওয়ার পরে বর্জনীয় মানদণ্ড প্রয়োগ করার ফলে বিদ্যুৎ হ্রাস হয় বা কেন / কেন বুটস্ট্র্যাপের নমুনায় বাদ যায় না" (এর জন্য) এই অ্যাকাউন্টগুলিকে রেখে যায়? না কেন এটি কেন এমন কিছু যা স্পষ্টভাবে অবশ্যই "তার জন্য জবাবদিহি করা উচিত"। সম্ভবত আমি এখানে ঘন হচ্ছে।
জেক ওয়েস্টফল

পি

হুম, আমার চিন্তাভাবনাটি ছিল যে যদি কেউ আগে থেকে বর্জনের মানদণ্ড নির্দিষ্ট করে দেয় - যাতে আমরা নির্দিষ্ট ধরণের মামলায় স্পষ্টভাবে আগ্রহী না, এবং সম্ভবত ভবিষ্যতে অধ্যয়নগুলির প্রতিরূপগুলি এই একই বর্জনীয় মানদণ্ডটি ব্যবহার করবে - তবে এটি ছেড়ে দেওয়া বুদ্ধিমান হবে বুটস্ট্র্যাপের নমুনা ছাড়াই সেগুলিগুলি হ'ল, কারণ এগুলি জনসংখ্যার একটি অংশ যা সম্পর্কে আমরা কোনও ধারণা তৈরি করতে চাই না। আমি দেখতে পাচ্ছি যে ভবিষ্যতের প্রতিলিপিগুলি কেসগুলির ভিন্ন অনুপাত বাদ দিয়ে কীভাবে শেষ হতে পারে তবে আমি যে মামলাগুলির ক্ষেত্রে আমাদের স্পষ্টত আগ্রহী সেগুলির জন্য কেন এই বিষয়টির যথেষ্ট সংযোগ দিতে পারি না ..
জ্যাক ওয়েস্টফল

1
পিএইচ0

0

এটিকে বাইরের সমস্যা হিসাবে দেখানো আমার কাছে ভুল বলে মনে হচ্ছে। যদি "<10% ব্যবহারকারীর মোটেই ব্যয় হয়", আপনাকে সেই দিকটি মডেল করতে হবে। টোবিট বা হেকম্যান রিগ্রেশন দুটি সম্ভাবনা হবে।


2
বর্তমানে, এটি একটি উত্তর চেয়ে মন্তব্য বেশি। এটিকে আরও উত্তর-ইশ করতে আপনি কি কিছুটা প্রসারিত করতে আপত্তি করবেন?
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.