অপারীদের অপসারণ করার জন্য ভাল ফর্ম?

12

আমি সফটওয়্যার তৈরির জন্য পরিসংখ্যান নিয়ে কাজ করছি। পাস / ব্যর্থ এবং অতিবাহিত সময়ের প্রতিটি বিল্ডের জন্য আমার কাছে ডেটা রয়েছে এবং আমরা এই / সপ্তাহের 200 ডলার উত্পন্ন করি।

সাফল্যের হার একত্রিত করা সহজ, আমি বলতে পারি যে 45% কোনও নির্দিষ্ট সপ্তাহ পেরিয়ে গেছে। তবে আমি পাশাপাশি সময় অতিবাহিত করতে চাই এবং আমি নিশ্চিত করতে চাই যে আমি ডেটা খুব খারাপভাবে উপস্থাপন করব না। অনুভূত আমি আরও ভাল পেশাদার জিজ্ঞাসা করব :-)

বলুন আমার 10 টি সময়কাল আছে। তারা পাস এবং ব্যর্থ উভয় ক্ষেত্রে প্রতিনিধিত্ব করে। কিছু বিল্ড তত্ক্ষণাত ব্যর্থ হয় যা সময়কালকে অস্বাভাবিকভাবে সংক্ষিপ্ত করে তোলে। কিছু পরীক্ষার সময় স্তব্ধ হয়ে থাকে এবং অবশেষে সময় শেষ হয়ে যায়, ফলে খুব দীর্ঘ সময়সীমার কারণ হয়। আমরা বিভিন্ন পণ্য তৈরি করি, তাই সফল বিল্ডগুলি 90 সেকেন্ড থেকে 4 ঘন্টার মধ্যে পরিবর্তিত হয়।

আমি এই মত একটি সেট পেতে পারে:

[50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100]

আমার প্রথম পদ্ধতির সেটটি বাছাই করে মধ্য-মানটি বাছাইয়ের মধ্যবর্তী সময়টি পাওয়া ছিল, এক্ষেত্রে 78৮১২ (সমান সংখ্যাযুক্ত সেটগুলির জন্য আমি গাণিতিক গড়টির সাথে বিরক্ত করিনি))

দুর্ভাগ্যক্রমে, এটি প্রচুর পরিমাণে বৈচিত্র উত্পন্ন বলে মনে হচ্ছে, যেহেতু আমি কেবল একটি প্রদত্ত মানই বেছে নিই। সুতরাং যদি আমি এই মানটি প্রবণতা করি তবে এটি 5000 বা 10000 সেকেন্ডের মধ্যে বাউন্ড হয়ে যাবে যার উপর নির্ভর করে কোন বিল্ডটি মিডিয়ানে ছিল।

সুতরাং এটি সহজ করার জন্য, আমি আরেকটি পদ্ধতির চেষ্টা করেছিলাম - আউটলিয়ারগুলি সরান এবং তারপরে অবশিষ্ট মানগুলির চেয়ে একটি গড় গণনা করুন। আমি এটিকে টেরিটলে বিভক্ত করার সিদ্ধান্ত নিয়েছি এবং কেবলমাত্র মধ্যবর্তী স্থানে কাজ করব:

[50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] ->
[50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] ->
[3014, 7812, 8378, 8993]

যে কারণে এটি আমার কাছে ভাল বলে মনে হচ্ছে তা দ্বিগুণ:

আমরা দ্রুত গড়ার বিষয়ে কোনও পদক্ষেপ নিতে চাই না, তারা ইতিমধ্যে ভাল
দীর্ঘতম বিল্ডগুলি সম্ভবত সময়সীমা-প্ররোচিত এবং সর্বদা থাকবে। সেগুলি সনাক্ত করার জন্য আমাদের অন্যান্য ব্যবস্থা আছে

সুতরাং এটি আমার কাছে মনে হয় যে এটি আমি যে ডেটাটি খুঁজছি তা হ'ল তবে আমি উদ্বিগ্ন যে আমি সত্যকে সরিয়ে দিয়ে মসৃণতা অর্জন করেছি।

এটা কি বিতর্কিত? পদ্ধতিটি কি বুদ্ধিমান?

ধন্যবাদ!

outliers robust average

— কিম গ্রোসম্যান
সূত্র

আপনি এখনও অবধি বলেননি যে আপনি কেন আপনার অতিবাহিত সময়ের পরিমাপ করতে চান। আপনি কী পরিমাণ মেশিন সময় দিচ্ছেন তা অনুমান করার দরকার আছে? আপনি যে কফি মেশিনটি তৈরি করতে সক্ষম হবেন তার কতগুলি ট্রিপ অনুমান করার দরকার আছে? আপনি যদি সময়গুলি জানতেন তবে আপনি সম্ভবত কী পদক্ষেপ নেবেন?

— স্টাসকে

এছাড়াও, যদি আপনার নিজের নির্মিত বৈজাতীয় পণ্য থাকে তবে চারপাশে ঝাঁকুনি দেওয়া স্বাভাবিক এবং আপনার এ থেকে মুক্তি পাওয়ার চেষ্টা করা উচিত নয়। যদি আপনার প্রদত্ত প্রকল্পের জটিলতার একটি পরিমাপ থাকে (ফাইলের # টি, কোডের লাইন # লাইন, # রুটিন ইত্যাদির ইত্যাদি), তবে জটিলতার দ্বারা স্বাভাবিক হয়ে যাওয়া সময় অতিবাহিত হতে আপনার আগ্রহী হতে পারে, যা আরও স্থিতিশীল হতে পারে। আপনি যদি সময়ের সাথে এটি সত্যই স্থিতিশীল এবং চ্যাপ্টা করতে চান তবে আপনি যখন আপনার পদক্ষেপ নেওয়ার প্রয়োজন তখন আপনি তা জানতে সক্ষম হবেন না।

— স্টাসকে

@ স্ট্যাস্ক: আপনার মন্তব্যের জন্য ধন্যবাদ, এটি মূল্যবান ইনপুট। ক্রিয়াটি ইতিমধ্যে জানা গেছে: এই বিল্ডগুলির মধ্যে অনেকগুলি ওয়া ওয়াকে খুব বেশি সময় নেয় এবং এগুলি আরও দ্রুত করার জন্য আমাদের কাজ করা উচিত। জিনিসগুলি আরও ভাল হচ্ছে বা খারাপ হচ্ছে কিনা তা দেখতে আমি সামগ্রিক পরিমাপটি ব্যবহার করতে চাই।

— কিম গ্রসম্যান

এবং হ্যাঁ, আদর্শভাবে আমি সম্ভবত পণ্য দ্বারা এটি করব, তবে উত্স ডেটা সেই তথ্য বজায় রাখে না তাই আমি বিতরণ সম্পর্কে যা জানি তার উপর ভিত্তি করে প্রতারণা করি। এটি সময়ের সাথে সাথে অবশ্যই পরিবর্তন হতে পারে এবং আমাকে পুনরায় চিন্তা করতে হতে পারে।

— কিম গ্রসম্যান

ভাল এটি আমার কাছে মনে হয় যে আপনার ডেটাতে আপনার তিনটি গ্রুপ রয়েছে: (i) যে বিল্ড তৈরি করে; (ii) ব্যর্থ হয় (এবং আপনি বলছেন যে তারা বরং দ্রুত ব্যর্থ হয়) এবং (iii) যেগুলি স্তব্ধ করে দেয় (বা প্রায় তাই) - এবং এটিই সম্ভবত প্রধান যেটি আপনি এই পদক্ষেপ নিতে চান না এমন গোষ্ঠী না হলে। সময়ের সামগ্রিক পরিমাপ খুব কার্যকর নাও হতে পারে; তবে দশম দীর্ঘতম বিল্ড বা বিল্ড টাইম বিতরণের দশম সর্বোচ্চ পার্সেন্টাইলের মতো কিছু হতে পারে আপনি যে বিতরণের যত্ন নেবেন তার চূড়ান্ত স্থানে কী রয়েছে better এটি প্রায় EPA তাদের দূষণ পর্যবেক্ষণে ব্যবহার করে।

— স্টাসকে

8

আপনার দৃষ্টিভঙ্গি আমার লক্ষ্যটিকে বিবেচনায় নিয়ে আমার কাছে অর্থবোধ করে। এটি সহজ, এটি সোজা, এটি কাজটি সম্পন্ন করে এবং সম্ভবত আপনি এটি সম্পর্কে একটি বৈজ্ঞানিক কাগজ লিখতে চান না।

একটা জিনিষ যে এক উচিত সবসময় outliers সঙ্গে তার আচরণ না হয় বুঝতে তাদের, এবং আপনি ইতিমধ্যে এই সম্পর্কে একটি মহান কাজ। আপনার পদ্ধতির উন্নতির সম্ভাব্য উপায়গুলি হ'ল: আপনি কোন বিল্ডগুলিতে ঝুলন্ত তথ্য ব্যবহার করতে পারেন? আপনি উল্লেখ করেছেন যে আপনার কাছে "সেগুলি সনাক্ত করার জন্য অন্যান্য প্রক্রিয়া রয়েছে" - আপনি কি সেগুলি সনাক্ত করতে পারবেন এবং কেবলমাত্র নমুনা থেকে সেগুলি সরাতে পারবেন?

অন্যথায়, যদি আপনার আরও ডেটা থাকে তবে আপনি টেরিলেটগুলি নয়, কুইন্টাইলগুলি অপসারণ করার বিষয়ে ভাবতে পারেন ... তবে কোনও এক সময় এটি সম্ভবত খুব বেশি পার্থক্য আনবে না।

— স্টিফান কোলাসা
সূত্র

আমি যখন "অন্যান্য" মেকানিজম বলি, তখন আমার অর্থ এই ডেটা সেটের বাইরে সম্পূর্ণ আলাদা , তাই আমি এখানে এর ভিত্তিতে সিদ্ধান্ত নিতে পারি না। আমরা প্রতিদিন ডেটা সংগ্রহ করি এবং আমরা প্রতিদিন কেবল ~ 50 বিল্ড পাই, তাই আমি মনে করি কুইন্টাইলগুলি খুব অল্প ডেটা পেতে পারে তবে পরামর্শের জন্য ধন্যবাদ, আমি এটি দিয়ে পরীক্ষা করতে পারি!

— কিম গ্রসম্যান

13

আপনি যা করছেন তা ছাঁটাই করা অর্থ হিসাবে পরিচিত ।

যেমনটি আপনি করেছেন, প্রতিটি পক্ষ থেকে একই অনুপাতটি ছাঁটাই করা সাধারণ (ট্রিমিং অনুপাত)।

আপনি 0% (একটি সাধারণ গড়) এর মধ্যে (প্রায়) 50% (যা মিডিয়ান দেয়) এর মধ্যে যে কোনও কিছু ট্রিম করতে পারেন। আপনার উদাহরণটি প্রতিটি প্রান্ত থেকে 30% ছাঁটাই হয়েছে।

দেখুন এই উত্তর এবং প্রাসঙ্গিক Wikipedia নিবন্ধটি ।

[সম্পাদনা করুন: এই বিষয়ে নিক কক্সের দুর্দান্ত আলোচনা দেখুন ]]

এটি বেশ যুক্তিসঙ্গত, কিছুটা দৃ location় অবস্থানের অনুমানকারী। এটি সাধারণত উচ্চ স্কিউযুক্তগুলির চেয়ে নিকট-প্রতিসাম্য বিতরণের জন্য আরও উপযুক্ত হিসাবে বিবেচিত হয় তবে এটি আপনার উদ্দেশ্য অনুসারে * এটি ব্যবহার না করার কোনও কারণ নেই। কতটা ছাঁটাই ভাল তা নির্ভর করে আপনার যে ধরণের বিতরণ এবং যে বৈশিষ্ট্যগুলি আপনি অনুসন্ধান করছেন তার উপর।

* আপনি এখানে কী অনুমান করতে চান তা সম্পূর্ণ পরিষ্কার নয়।

ডিস্ট্রিবিউশনের 'কেন্দ্র' সংক্ষিপ্তসারে প্রচুর অন্যান্য শক্তিশালী পন্থা রয়েছে যার মধ্যে কয়েকটি সম্ভবত আপনি দরকারীও বোধ করতে পারেন। (উদাঃ এম-অনুমানকারীদের সম্ভবত আপনার কিছুটা ব্যবহার হতে পারে)

[যদি আপনার ছাঁটাইযুক্ত গড়ের সাথে চলার জন্য আপনার যদি একই পরিমাণের পরিবর্তনশীলতার প্রয়োজন হয় তবে একটি উইনসরাইজড স্ট্যান্ডার্ড বিচ্যুতি আপনার কিছু উপকারে আসতে পারে (মূলত, এসডি গণনা করার সময়, সর্বাধিক চূড়ান্ত মানগুলির সাথে ছাঁটাই করার সময় আপনি যে মানগুলি কাটবেন তা প্রতিস্থাপন করুন) কাটা হয়নি)।]

— গ্লেন_বি -রাইনস্টেট মনিকা
সূত্র

আমি আসলে আমার বিতরণের আদর্শ আকৃতিটি পরীক্ষা করে দেখিনি, আমি মনে করি লোকেরা কোথায় পরিবর্তন আনবে তার উপর নির্ভর করে সপ্তাহে প্রতি সপ্তাহে এটি পরিবর্তিত হয়। এটি আসলে উচ্চ স্কুড হতে পারে।

— কিম গ্রসম্যান

বিটিডব্লিউ, আমার হ্যাক-জব এ একটি নাম রাখার জন্য ধন্যবাদ। এটি কিছুটা আত্মবিশ্বাসকে অনুপ্রাণিত করে :-)

— কিম গ্রসম্যান

2

তবুও অন্য পদ্ধতিটি হ'ল সমস্ত জোড় গড়ের মধ্যম গণনা করা বা বুটস্ট্র্যাপিং করা।

হালনাগাদ:

সমস্ত জুটিযুক্ত অ্যাভারেজের মাঝারিটিকে হজস – লেহম্যান অনুমানক বলে । এই অনুমানকারীটির সাধারণত উচ্চ দক্ষতা থাকে। স্কট এল। হার্শবার্গারের এই বিশ্বকোষ এন্ট্রি বলেছেন:

মিডিয়ান এবং হজস-লেহমান উভয় অনুমানকারী উভয়ই অংকিত সংশ্লেষের জন্য নমুনা গড়ের চেয়ে পছন্দসই, হজস-লেহম্যান অনুমানকারীটির গড়টির তুলনায় গড়ের তুলনায় বৃহত্তর অ্যাসিপোটিক আপেক্ষিক দক্ষতা রয়েছে

বুটস্ট্র্যাপিং কম প্রাসঙ্গিক এবং আরও বেশি গণনামূলক নিবিড় হতে পারে তবে আপনি প্রতিস্থাপনের সাথে উপাত্তের একটি ছোট্ট এলোমেলো নমুনা নিতে পারেন এবং সেই সাবমেলটির গড় গণনা করতে পারেন, এটি বহুবার করতে পারেন এবং সমস্ত মাধ্যমের মাধ্যম গণনা করতে পারেন।

উভয় ক্ষেত্রেই আপনাকে আর আপনার ডেটার মানগুলির মধ্যে কোনও মান বাছাই করতে হয় না (যখন আপনি সাধারণ মিডিয়ান গণনা করেন), তবে পরিবর্তে আপনি ডেটার উপগ্রহ থেকে অনেক গড়ের মধ্যে বেছে নেবেন।

— ফিন আরপ নীলসান
সূত্র

2

আপনি এই পদ্ধতির সুবিধা এবং অসুবিধাগুলি বর্ণনা করতে পারেন? একটি লাইনের উত্তরটি অপর্যাপ্ত।

— স্টাসকে

1

আমি আরও ব্যাখ্যা দিয়ে একটি আপডেট করার চেষ্টা করেছি

— ফিন রুপ

জুটিওয়ালা গড় এবং বুটস্ট্র্যাপিং উভয়ই পুরো ডেটাসেটের জন্য বেশ কয়েকটি পুনরুক্তি জড়িত বলে মনে হয়। নমুনাটি সাধারণত খুব ছোট (<500 মান), সুতরাং এটি সম্ভবত কোনও সমস্যা নয় তবে এটি আরও জটিল বলে মনে হচ্ছে। ছাঁটাই মানে খুব ভোঁতা হয়ে যায় যদি পরীক্ষার জন্য আরও অনেক পন্থা রয়েছে তা জেনে রাখা ভাল। ধন্যবাদ!

— কিম গ্রসমান

1

আপনি যা করছেন তা যুক্তিসঙ্গত বলে মনে হচ্ছে: কেবল তথ্যের জন্য আমি নীচের প্রক্রিয়াটি প্রায় একই জাতীয় উদ্দেশ্যে ব্যবহার করি: তবে আমি কেবল উচ্চ আউটলিয়ারদের মধ্যেই আগ্রহী।

পাঁচটি সংখ্যার সারাংশ গণনা করুন: ন্যূনতম, কিউ 1, মিডিয়ান, কিউ 3, সর্বোচ্চ। আন্তঃদেশীয় রেঞ্জ গণনা করুন: Q3-Q1। আপনার আউটলেটার 'বেড়া' কিউ 1-আইকিউআর * এক্স এবং কিউ 3 + আইকিউআর * এক্স এ সেট করুন: যেখানে 'এক্স' এর যুক্তিসঙ্গত মান 1.5 হয়।

এক্সেল এবং উপরের আপনার চিত্রগুলি ব্যবহার করে ('এক্স' ** এর জন্য 1.5 ব্যবহার করে) একটি উচ্চতর আউটলেটর দেয়: 21011

MIN 50
Q1  3014
MEDIAN  8095
Q3  9073.25
MAX 21011
IQR 6059.25
UPPER FENCE 18162.125
LOWER FENCE -6074.875

সুতরাং নীচের বেড়াটি এখানে আপনার উদাহরণের জন্য কার্যকর বা বাস্তববাদী নয়: যা আপনার নির্দিষ্ট ডেটার অর্থ বোঝার গুরুত্ব সম্পর্কিত অন্যান্য পোস্টের তৈরি পয়েন্টটিকে ব্যাক আপ করে।

(** '১.৫' বিধিটির জন্য একটি প্রশংসা পাওয়া গেছে: আমি এটিকে প্রামাণ্যবাদী বলছি না, তবে এটি আমার কাছে একটি যুক্তিসঙ্গত সূচনা বিন্দু বলে মনে হচ্ছে: http://statistics.about.com/od/Descripttive-Statistics/a/ আন্তঃআরক্ষীয়-পরিসীমা-বিধি-বিধি-শৃঙ্খলা কী )

আপনি নিজেই আইকিউআর-এর মধ্যে থাকা ডেটা পয়েন্টগুলি ব্যবহার করার জন্যও (সম্ভবত) সিদ্ধান্ত নিতে পারেন: এটি বোধগম্য ফলাফল বলে মনে হচ্ছে (এতে আপনার পদ্ধতির সদস্যপদটি খুব মিল রয়েছে)।

একই ডেটা ব্যবহার করে, এটি 'আগ্রহের ক্ষেত্রের' ক্ষেত্রে নিম্নলিখিত ডেটা পয়েন্টগুলি রাখবে:

একটি বক্সপ্লট-এ: এই পয়েন্টগুলি সমস্ত চিত্রের বাক্স-অংশের (হুইস্কার অংশের চেয়ে) পড়ে যাবে।

এ দেখা যায় যে এই তালিকায় এমন কিছু আইটেম রয়েছে যা আপনার মূল তালিকায় নেই (দীর্ঘকাল চলতে শুরু করে); একটি তালিকা কোনওভাবেই আরও নির্ভুল কিনা তা আমি বলতে পারি না। (আবার, আপনার ডেটাসেট বোঝার জন্য নেমে আসে)।

— monojohnny
সূত্র

ধন্যবাদ, আমি ইতিমধ্যে যা করছি এটি নীতিগতভাবে খুব কাছাকাছি মনে হয়। কোন উপায়ে এই পদ্ধতিটি কেবলমাত্র ডেটা সেট বিভাজনের চেয়ে ভাল হতে পারে?

— কিম গ্রসম্যান

1

উভয়ই পদ্ধতি ভাল কিনা তা আমি সত্যিই বলতে পারি না: আমি স্ট্যাটাস বই / সাইটগুলিতে যা পড়েছি তার ভিত্তিতে আমি এটিকে পরামর্শ দিয়েছি। পদ্ধতিটি যুক্ত করে একটি জিনিস (আমি মনে করি) এটি আপনাকে 'বেড়াগুলি' যা উপযুক্ত মনে হয় তার সাথে সামঞ্জস্য করতে দেয় (1.5 ফ্যাক্টরটি সামঞ্জস্য করে); যেখানে মাঝারি তৃতীয়টি গ্রহণ করা সম্ভবত সম্ভাব্য উচ্চ আউটলেট (যা তর্কীয়ভাবে বেড়ার বাইরে আরও শ্রেণিবদ্ধ করা যেতে পারে) অন্তর্ভুক্ত করার ক্ষেত্রে আরও সংবেদনশীল হতে পারে ..... তবে আমি নিশ্চিতভাবে বলতে পারি না say কোয়ার্টাইলগুলি ব্যবহার সম্পর্কে অন্য একটি বিষয় হ'ল 5-সংখ্যার সারাংশটি বেশ ভালভাবে বোঝা যায় এবং সাধারণত ব্যবহৃত হয়।

— মনোজোহনি

যুক্ত বিশদ জন্য ধন্যবাদ! আমি পাইথনে এটি করি, তাই আমার ইতিমধ্যে একটি ফাংশন রয়েছে যেখানে আমি ডেটাসেটটিকে এন অংশে বিভক্ত করি এবং তারপরে মাঝের অংশটি টান। পরিবর্তে 5 বা 7 টি পার্টিশন তৈরি করা এটি এক-চরিত্রের পরিবর্তন। তবে আপনার বক্তব্যটি ভালভাবে নেওয়া হয়েছে এবং এই সমস্যাটির কাছে যাওয়ার আরও একটি সাধারণ উপায় দেখতে ভাল। আবার ধন্যবাদ.

— কিম গ্রোসমান

আমাকে শোনায় জরিমানা: আমি ক্যুয়ারটাইলস এবং বেড়া (বরং পরিবর্তনশীল পার্টিশন থাকার চেয়ে) ব্যবহার সম্পর্কে জোর আরও একটি জিনিস যোগ করা হবে - হয় যে তারা সোজা boxplots সম্মুখের মানচিত্র: en.wikipedia.org/wiki/Box_plot যা অনুমতি (অন্যান্য বিষয়ের মধ্যে) গ্রাফিকভাবে বিভিন্ন বিতরণের তুলনা করার একটি স্ট্যান্ডার্ড উপায়।

— monojohnny