ছাঁটাই মানে বনাম মধ্যমা


9

আমার কাছে জরুরি পরিষেবাতে করা সমস্ত কল এবং অ্যাম্বুলেন্স বিভাগের প্রতিক্রিয়ার সময়গুলির সাথে একটি ডেটা সেট রয়েছে। তারা স্বীকার করেছে যে প্রতিক্রিয়া বারের সাথে কিছু ভুল রয়েছে কারণ এমন ঘটনা আছে যেখানে তারা রেকর্ডিং শুরু করেনি (সুতরাং মানটি 0) বা যেখানে তারা ঘড়িটি থামেনি (তাই মানটি চূড়ান্ত হতে পারে)।

আমি কেন্দ্রীয় প্রবণতাটি অনুসন্ধান করতে চাই এবং আমি ভাবছিলাম যে বিদেশীদের হাত থেকে মুক্তি পাওয়ার জন্য মধ্যস্থতা বা ছাঁটাইযুক্ত মাধ্যমটি ব্যবহার করা ভাল কি না?


1
প্রথমত, আমি সমস্ত অবৈধ ডেটা মুছব (মান = 0)। তারপরে আমি কোনও হিস্টোগ্রাম বা বক্স প্লট দিয়ে ডেটা ভিজ্যুয়ালাইজ করব যেখানে আমি দাঁড়িয়ে আছি তা দেখতে। কারণ আপনার যদি 10% খারাপ ডেটা থাকে তবে আপনি অন্ধভাবে ডেটা 5% কে ট্রিম করতে পারবেন না ...
অ্যালেসক

হ্যাঁ, বা সিডিএফ প্লট করুন। আর এ, এটি করুন: বার = বার [বার> 0]; প্লট (ইসিডিএফ (বার))
পল

উত্তর:


12

ছাঁটাইয়ের অর্থ কী তা বিবেচনা করুন: প্রোটোটাইপিকাল ক্ষেত্রে আপনি প্রথমে আপনার ক্রমবর্ধমান ক্রমে আপনার ডেটা সাজান। তারপরে আপনি নীচ থেকে ট্রিমিং শতাংশ পর্যন্ত গণনা করুন এবং সেই মানগুলি বাতিল করুন। উদাহরণস্বরূপ একটি 10% ছাঁটাই গড় সাধারণ; সেক্ষেত্রে আপনি আপনার সেটের সমস্ত ডেটার 10% পাস না করা পর্যন্ত আপনি সর্বনিম্ন মান থেকে গণনা করুন। এই চিহ্নের নীচের মানগুলি আলাদা করে রাখা হয়েছে। তেমনি, আপনি নিজের ট্রিমিং শতাংশ পেরিয়ে যাওয়া না হওয়া পর্যন্ত আপনি সর্বোচ্চ মান থেকে গণনা করেন এবং সমস্ত মানটিকে একপাশে আরও বেশি সেট করেন। আপনি এখন মাঝখানে ৮০% রেখে গেছেন। আপনি এর গড় গ্রহণ করুন এবং এটি আপনার 10% ছাঁটা গড়। (মনে রাখবেন যে আপনি দুটি লেজ থেকে অসম অনুপাত ছাঁটাই করতে পারেন, বা কেবল একটি লেজ ছাঁটাই করতে পারেন, তবে এই পদ্ধতিগুলি কম সাধারণ এবং আপনার অবস্থার সাথে তেমন প্রযোজ্য বলে মনে হয় না))

এখন আপনি যদি 50% ছাঁটাইয়ের গড় গণনা করেন তবে কী হবে তা ভেবে দেখুন। উপরের অর্ধেকটি নীচের অর্ধেকটি আলাদা করে রাখা হবে। আপনি মাঝখানে একক মান (সাধারণভাবে) রেখে যাবেন। আপনি তার ছাঁটাই করা অর্থ হিসাবে এর অর্থ গ্রহণ করবেন (যা বলতে গেলে, আপনি কেবল সেই মানটি নেবেন)। তবে নোট করুন যে মানটি হ'ল মাঝারি। অন্য কথায়, মিডিয়ান একটি ছাঁটাই গড় (এটি একটি 50% ছাঁটা গড়)। এটি কেবল খুব আক্রমণাত্মক। সংক্ষেপে এটি ধরে নেওয়া হয় যে আপনার 99% ডেটা দূষিত। এটি আপনাকে শক্তি / দক্ষতার চূড়ান্ত ক্ষতির বিনিময়ে বহিরাগতদের বিরুদ্ধে চূড়ান্ত সুরক্ষা দেয় ।

আমার অনুমান একটি মধ্যমা / 50% ছাঁটা গড়টি আপনার ডেটার জন্য প্রয়োজনীয় তুলনায় অনেক বেশি আক্রমণাত্মক এবং আপনার কাছে উপলব্ধ তথ্য অপ্রয়োজনীয়। আপনার যদি বিদ্যমান আউটলিয়ারের অনুপাতের কোনও ধারণা থাকে তবে আমি সেই তথ্যটি ছাঁটাই শতাংশ নির্ধারণ করতে এবং উপযুক্ত ছাঁটাইযুক্ত গড়টি ব্যবহার করতে চাই। ট্রিমিং শতাংশ বাছাই করার কোনও ভিত্তি আপনার কাছে না থাকলে আপনি ক্রস বৈধকরণের মাধ্যমে একটি নির্বাচন করতে পারেন, বা কেবল একটি বাধা দিয়ে একটি শক্তিশালী রিগ্রেশন বিশ্লেষণ ব্যবহার করতে পারেন।


1
আমি এর আত্মার সাথে একমত, তবে এটি বোঝা যায় না যে ছাঁটাইযুক্ত অর্থ প্রতিটি লেজের সমান ভগ্নাংশ ছাঁটাইয়ের উপর ভিত্তি করে। এটি কেবল সাধারণ প্রক্রিয়া, এবং প্রায়শই প্রতিসাম্য সম্পর্কিত সম্ভবত সম্ভাব্য চর্বিযুক্ত লেজযুক্ত বিতরণ সম্পর্কিত একটি রেফারেন্সের ক্ষেত্রে প্রক্রিয়াটি প্রায়শই আলোচিত হয়, তবে এটি কোনওভাবেই বাধ্যতামূলক নয়। কেবল একটি পুচ্ছের মধ্যে ছাঁটাইয়ের সাহিত্য রয়েছে, যা সমস্ত সন্দেহজনক মানগুলি লেজের মধ্যে থাকতে পারে তখন তা বোঝা যায়।
নিক কক্স

@ নিককক্স, ভাল পয়েন্ট। আমি এটি স্পষ্ট করার জন্য একটি সামান্য পাঠ্য যুক্ত করেছি। আপনার যদি মনে হয় এটির আরও প্রয়োজন হয় তবে আমাকে জানান।
গুং - মনিকা পুনরায়

ভাল লাগছে। প্রাকৃতিকভাবে একটি লেজে ট্রিমিং অসম অনুপাতের কেবল সেই বিশেষ ক্ষেত্রে যেখানে একটি অনুপাত শূন্য।
নিক কক্স

@ নিককক্স, নিশ্চিত, তবে আমি ভেবেছিলাম স্পষ্ট করে বলাই ভাল।
গুং - মনিকা পুনরায়

-1

প্রথমত, অবৈধ তথ্য মুছে ফেলুন।

দ্বিতীয়ত, আপনার বহিরাগতদের মান পর্যবেক্ষণ করা হয় তা মুছে ফেলার দরকার নেই। কিছু ক্ষেত্রে, এটি দরকারী (যেমন লিনিয়ার রিগ্রেশন হিসাবে) তবে আপনার ক্ষেত্রে আমি বিষয়টি দেখতে পাচ্ছি না।

অবশেষে, মিডিয়াকে ব্যবহার করা পছন্দ করুন কারণ এটি আপনার ডেটার কেন্দ্রটি খুঁজে পেতে আরও সুনির্দিষ্ট। যেমনটি আপনি বলেছেন, গড়টি বহিরাগতদের কাছে সংবেদনশীল হতে পারে (ছাঁটাইযুক্ত মাধ্যম ব্যবহার পক্ষপাতমূলক হতে পারে)।


3
যেহেতু অবস্থানের অনুমানটি হ'ল রিগ্রেশনের একটি বিশেষ কেস, তাই আমি জানতে আগ্রহী যে এটি কীভাবে পরবর্তীকালে বিদেশীদের অপসারণ করতে দরকারী তবে পূর্বের ক্ষেত্রে নয়।
ব্যবহারকারী 603
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.