বিদেশীদের সনাক্ত করার জন্য আইকিউআর কতটা সঠিক


11

আমি একটি স্ক্রিপ্ট লিখছি যা প্রক্রিয়া চলমান সময় বিশ্লেষণ করে। আমি তাদের বিতরণ সম্পর্কে নিশ্চিত নই তবে আমি জানতে চাই যে কোনও প্রক্রিয়া "খুব দীর্ঘ" হয় কিনা। এখনও অবধি আমি সর্বশেষ রান বারের (এন> ৩০) তিনটি স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করেছি, তবে আমাকে জানানো হয়েছিল যে ডেটা স্বাভাবিক না হলে (যা এটি প্রদর্শিত হবে না) তা কার্যকর কিছু সরবরাহ করে না। আমি আরও একটি আউটলেট পরীক্ষা পেয়েছি যা জানিয়েছে:

আন্তঃ কোয়ার্টাইল রেঞ্জটি সন্ধান করুন যা আইকিউআর = কিউ 3 - কিউ 1, যেখানে কিউ 3 তৃতীয় কোয়ার্টাইল এবং কিউ 1 হ'ল প্রথম কোয়ার্টাইল। তারপরে এই দুটি সংখ্যাটি সন্ধান করুন:

ক) কিউ 1 - 1.5% আইকিউআর খ) কিউ 3 + 1.5 * আইকিউআর

বিন্দুটি একটি আউটলেটর হয় <a বা> বি

আমার ডেটা 2 সেক, 3 সেক, 2 সেক, 5 সেক, 300 সেক, 4 সেক, .... এর মতো জিনিস হতে পারে যেখানে 300 সেক স্পষ্টতই একটি বাহ্যিক।

কোন পদ্ধতিটি ভাল? আইকিউআর পদ্ধতি বা এসটিডি বিচ্যুতি পদ্ধতি?


4
আপনি এখানে @ ব্যবহারকারী 603 এর উত্তর যাচাই করতে চাইতে পারেন: স্কিউ ডেটার জন্য এই নিয়মটি কীভাবে সামঞ্জস্য করা যায় সে সম্পর্কিত তথ্যের জন্য পোয়েসন বিতরণ করা ডেটার জন্য একটি বক্সপ্লট বৈকল্পিক রয়েছে
গুং - মনিকা পুনরায়

3
এই "আইকিউআর" পদ্ধতিটি কখনও অন্ধভাবে প্রয়োগ করার উদ্দেশ্যে করা হয়নি। এটি অনুসন্ধানের ডেটা বিশ্লেষণের প্রক্রিয়াটির একটি অংশ (নিক উত্তর তার নিকট উত্তর হিসাবে কক্স দ্বারা বর্ণিত) এই সময় আপনি প্রায়শই প্রতিসাম্যিকভাবে বিতরণ করার জন্য ডেটা পুনরায় প্রকাশ করার উপায় খুঁজে পাবেন।
হোবার

2
উত্তরের উপর আপনার মন্তব্যের ভিত্তিতে সঠিক উত্তরটি "না হয়", কারণ আপনার অন্তর্নিহিত উদ্বেগটি বিদেশী সম্পর্কে নয়, এটি প্রক্রিয়া
হোবার


সংখ্যাগুলি সময়_আপনি করা হয় তাই আপনি যদি কোনওভাবে পুনরায় স্কেল না করেন তবে সেগুলি কখনই প্রতিসম হয় না।
জেপি বেনিট

উত্তর:


14

প্রকৃতপক্ষে আউটলিয়ারদের পুরো বই রয়েছে।

সাধারণ নির্দিষ্ট উত্তরটি হ'ল স্ট্যান্ডার্ড বিচ্যুতিটি বহিরাগতদের দ্বারা টানা হয়, সুতরাং এসডির উপর ভিত্তি করে কোনও নিয়ম খারাপভাবে সম্পাদন করতে পারে।

কোয়েটাইল + +- 1.5 আইকিউআর-এর উপর টুকি নিয়মগুলি আপনার উদ্ধৃতিটি 1970 এর দশকে ছোট এবং মাঝারি আকারের ডেটাসেটগুলির সাহায্যে হাতের কাজ থেকে বেরিয়ে এসেছিল এবং আপনি পৃথকভাবে ভাবতে চান এমন মানগুলি নির্দেশ করার জন্য ডিজাইন করা হয়েছিল। এটি স্পষ্ট নয় যে তারা অনেক বড় ডেটাসেট বহন করে, না আপনি যখন যথেষ্ট পরিমাণে ঘাটতি আশা করেন তখন সেগুলি প্রয়োগ হয়।

আরও সাধারণ উত্তরটি হ'ল একটি আউটলারের নিয়ম ভাল যদি এটি সর্বদা সঠিক সিদ্ধান্ত নেয় তবে আপনি কীভাবে বলতে পারেন?

এটি বিতর্কিত অঞ্চল, তবে আমি প্রত্যাশা করব যে কোনও আউটলেট অন্যের তুলনায় খুব আলাদা বলে একটি গ্রাফের উপর আটকে থাকবে। তবে প্রায়শই (সাধারণত?) ভারী লেজযুক্ত বিতরণে আপনি কী প্রত্যাশা করেন এবং একটি বহিরাগত ছাড়া অন্য কিছু বিবেচনা করার পক্ষে খুব বুনো কিসের মধ্যে পার্থক্য জানানোর জন্য এটি একটি কঠোর কল। কখনও কখনও রূপান্তর একটি আউটলেট অনেক বেশি সাধারণ দেখায়।

তদ্ব্যতীত, আপনি যদি শক্ত পদ্ধতিগুলি ব্যবহার করেন তবে আপনি অবশ্যই সঠিকভাবে সম্পর্কে কিছুটা চিন্তিত হতে পারেন যা মেধাটিকে আউটলিয়ার বলে আখ্যায়িত করে তবে সাধারণভাবে বিদেশী সম্পর্কে চিন্তাভাবনা করে।


1

আপনি বলছেন যে আপনি বিতরণ সম্পর্কে নিশ্চিত নন তবে প্রক্রিয়াগুলি যা চলছে তা বিতরণের জন্য সংগ্রহ এবং মূল্যায়ন করা সহজ। কয়েকবার সময় সংরক্ষণ করুন এবং সেগুলি বিশ্লেষণ করুন। আপনি যে সময় পোস্ট করেছেন সেগুলি দেওয়া কয়েক ঘন্টার মধ্যে আপনি প্রচুর পরিমাণে পেতে পারেন।

একজন আউটলারের জন্য কোনও নিয়মের জন্য আপনার সন্ধানটি এত সাধারণ হওয়া উচিত নয়। এটি আপনার কাজের ক্ষেত্রে সুনির্দিষ্ট হতে পারে। আপনি প্রচুর ডেটা সংগ্রহ করতে সক্ষম। এটি সংগ্রহ করুন, এটি পরীক্ষা করুন এবং তারপরে কোনও প্রক্রিয়াটি দীর্ঘ হলে সিদ্ধান্ত নিন। হতে পারে একটি আইকিউআর ভিত্তিক পদ্ধতির কাজ করবে তবে সিমুলেশনগুলি করতে আপনি নিজের ডেটা সেট বা একটি প্যারাম্যাট্রিক ফিট ব্যবহার করতে পারেন এবং এটি ভালভাবে কাজ করে কিনা তা দেখতে পারেন। একই এসডি জন্য যায়। এটি কেবল এটিই হতে পারে যে> 50s খুব দীর্ঘ এবং আপনার যা প্রয়োজন তা কেবল।


আমি বেশ কয়েকটি প্রক্রিয়ার ডেটা সংগ্রহ করছি। তাদের প্রত্যেকের আলাদা আলাদা বিতরণ হতে পারে। প্রযুক্তিবিদদের বিষয়গুলিতে আরও নজর দেওয়ার জন্য সতর্ক করার জন্য আমার কেবল "চলমান সময় খুব দুর্দান্ত" বলার সহজ উপায় দরকার। এটি এতক্ষণ সাধারণ হতে পারে যতক্ষণ এটি ফ্ল্যাগ করা উচিত এমন জিনিসগুলিকে ফ্ল্যাগ করে। কয়েকটি ভ্রান্ত ইতিবাচক উপস্থিতি থাকলে তা হ'ল। তবে মিথ্যা ধনাত্মকতাগুলি সর্বনিম্ন রাখা উচিত কারণ যদি খুব বেশি থাকে তবে এটি স্ক্রিপ্টের উদ্দেশ্যকে পরাভূত করে এবং আমার কেবল সমস্ত ফলাফল ডাম্প করা উচিত এবং প্রযুক্তিবিদরা এতে থাকা উচিত। স্ক্রিপ্টের উদ্দেশ্য হ'ল "সঙ্কুচিত বিষয়গুলি
হ'ল

প্রক্রিয়াগুলি একই বা পৃথক কিনা তা আপনি মূল্যায়ন করতে পারেন। যদি তারা সত্যিই খুব আলাদা হয় তবে কিছু সাধারণ নিয়ম একটি নির্দিষ্ট প্রক্রিয়াটি প্রয়োজনের চেয়ে সতর্কতার সাথে আরও ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন ঘন সতর্কতা ট্রিগার করতে পারে। এই তথ্যটি আপনার প্রশ্নের মধ্যে থাকা উচিত।
জন

3
এই সমস্যাটিকে আউটলাইজার, খ্রিস্টের অনুসন্ধান হিসাবে চিহ্নিত করা কি এটি অন্যায় করে: আপনি আসলে একটি মান নিয়ন্ত্রণের সমস্যাটি মোকাবেলা করছেন । প্রধান পার্থক্যগুলি হ'ল (1) বিশ্লেষণ করার জন্য আপনার কাছে স্থিতিশীল ডেটাসেটের পরিবর্তে ডেটাগুলির একটি চলমান স্ট্রিম রয়েছে এবং (2) প্রতিটি বিশ্লেষণের ফলস্বরূপ আপনি পর্যায়ক্রমিক পদক্ষেপগুলি নির্দিষ্ট করতে চান: এটি হস্তক্ষেপ করতে হবে কিনা (এবং চেষ্টা করার চেষ্টা করা হবে) প্রক্রিয়াটি উন্নত করুন) বা না (এবং প্রক্রিয়াটি যেমন চলছে তেমন চলুন)। এটি আপনার সমস্যার প্রকৃতি তা বোঝা যায় যে মান নিয়ন্ত্রণে বিশাল সাহিত্য প্রাসঙ্গিক, সমাধানের একটি সমৃদ্ধ ভাণ্ডার সরবরাহ করে।
হোবার

+1 @ শুভ আউটলিয়ারগুলি এখানে প্রাসঙ্গিক নয়। গড় রান সময় বা এটির কোনও শতাংশই "খুব দীর্ঘ" এর সাথে সম্পর্কিত নয়। "খুব দীর্ঘ" কী তা খুঁজে বের করার উপায়টি ব্যবহারকারীদের সমীক্ষা, বা ইঞ্জিনিয়ারদের সাথে একটি চেক বা অনুমান করা প্যান্টের কেবল সিট, বা অন্য কিছু হতে পারে, তবে এটি কোনও পরিসংখ্যানগত প্রশ্ন নয়।
পিটার ফ্লুম - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.