অ্যানোমালি এবং আউটিলারের মধ্যে পার্থক্য


13

মেশিন লার্নিংয়ের প্রসঙ্গে আউটিলার এবং অ্যানোমালির মধ্যে পার্থক্য কী। আমার বোঝা হচ্ছে যে উভয়ই একই জিনিসকে বোঝায় to


3
কৌতূহলের বাইরে সাহিত্যে কোথায় এমন পার্থক্য তৈরি হয়? আমি এই ছাপে ছিলাম যে "আউটলিয়ারদের" কোনও উচ্চতর লিভারেজ এবং উচ্চ প্রভাব পর্যবেক্ষণ হওয়ার বাইরে কোনও প্রথাগত সংজ্ঞা নেই। প্রভাব ও লিভারেজ কি গাণিতিক সংজ্ঞা আছে, কিন্তু কিছু "উচ্চ" বিবেচনা করা হয় নির্বিচারে। মনে হচ্ছে চারপাশে নির্বিচারে শব্দগুলি বদলে যাচ্ছে।
আদমো

"অন্তর্নিহিত" শব্দটি ব্যবহার করে এমন লোকেরা স্পষ্টভাবে "বিপর্যয়কর" এবং "আউটলিয়ার" এর মধ্যে এক ধরণের পার্থক্য তৈরি করে কারণ ইন ইনিলার এক প্রকার ব্যঙ্গাত্মকতা। যেহেতু "আউটলেট" বা "অমানবিক" উভয়েরই সুনির্দিষ্ট, সাধারণভাবে উপলব্ধ প্রযুক্তিগত সংজ্ঞা নেই, তাই আমাদের এই প্রশ্নের একাধিক উত্তর আশা করা উচিত যা একে অপরের থেকে পৃথক (অন্তত কিছুটা)।
whuber

উত্তর:


9

দুটি পদটি প্রতিশব্দ অনুসারে:

আগরওয়াল, চারু সি আউটিলার বিশ্লেষণ। স্প্রিঞ্জার নিউ ইয়র্ক, 2017, দোই: http://dx.doi.org/10.1007/978-3-319-47578-3_1

পৃষ্ঠা 1 থেকে উদ্ধৃতি:

আউটলিয়ারদের ডেটা মাইনিং এবং পরিসংখ্যান সাহিত্যের অস্বাভাবিকতা, বিভেদ, বিচ্যুততা বা ব্যতিক্রম হিসাবেও ডাকা হয় ।

সাহসী পাঠ্য মূল পাঠ্যের অংশ নয়।

লেখকের কাছ থেকে উপলব্ধ বইয়ের পিডিএফ ডাউনলোড বিনামূল্যে here


"আউটলিয়ারদের" "ব্যতিক্রম" হিসাবে উল্লেখ করা হয়েছে তার অর্থ এই নয় যে তারা সমার্থক। "কুকুর" কখনও কখনও "প্রাণী" হিসাবে উল্লেখ করা হয়। আমি এই উত্তরে এটিকে আরও বিস্তারিতভাবে সম্বোধন করার চেষ্টা করেছি (আমি এটি এখানে পোস্ট করতে পারিনি, কারণ প্রশ্নটি সুরক্ষিত)।
মার্কো

9

একটি জিভ ইন গাল উত্তর:

আউটলেটর: এমন একটি মান যা আপনি পূর্বে আপনার ডেটাতে সন্ধান করেন যা আপনার মডেলটি সঠিকভাবে কাজ করে না তা নির্দেশ করে

অ্যানোমালি: একটি মান যা আপনার ডেটাতে খুঁজে পাওয়া সমস্ত প্রতিকূলের বিরুদ্ধে যা আপনার মডেলটিকে সঠিকভাবে কাজ করে তা নির্দেশ করে

আরও মারাত্মক, কম ক্রিপ্টিক উত্তর:

আউটলিয়ারদের ধারণাটি এমন একটি মডেল তৈরির বিষয়টি থেকে শুরু হয় যা ডেটা সম্পর্কে অনুমান করে। আউটলিয়াররা প্রায়শই সূচক হয় যে মডেলটি ডেটা সঠিকভাবে বর্ণনা করে না এবং তাই আমাদের মডেলগুলির ফলাফল বা আমাদের ডেটার গুণমান সম্পর্কে প্রশ্ন করা উচিত।

তাত্ত্বিক জগতের বাইরে এবং প্রয়োগকৃত বিশ্বের ভিতরে ব্যতিক্রমগুলির ধারণাটি শুরু হয়: আমরা আমাদের তথ্যগুলিতে অস্বাভাবিক আচরণের সন্ধান করতে চাই, কখনও কখনও এই সত্য দ্বারা অনুপ্রাণিত হয় যে কেউ এমন আচরণের প্রতি আগ্রহী যেটি লুকানোর চেষ্টা করছে (একটি ভাইরাসের মতো একটি ভাইরাস হিসাবে) ইমেইল)। সমস্যাটি হ'ল যেহেতু লোকেরা যা করছে তা আড়াল করার চেষ্টা করছে, তাই আমরা কীভাবে সন্ধান করব তা সত্যি জানি না। সুতরাং আমরা "ভাল" ডেটার একটি সেট নিয়েছি এবং সিদ্ধান্ত নিয়েছি যে আমরা আমাদের নতুন ডেটাসেটে যা দেখতে পাই যা "ভাল" দেখাচ্ছে না তা একটি বিরাগ এবং আমাদের বিশদটি আরও বিশদে বিশদ অনুসন্ধানের জন্য উপযুক্ত। প্রায়শই, অসঙ্গতিগুলির সন্ধানের অর্থ আপনার নতুন ডেটা সেটে বহিরাগতদের সন্ধান করা। তবে মনে রাখবেন যে আপনার পুরানো ডেটাসেটে বিরল সত্ত্বেও এই মানগুলি আপনার নতুন ডেটাসেটে খুব সাধারণ হতে পারে !

সংক্ষেপে, দুটি ধারণাগুলি তাদের পেছনের পরিসংখ্যানের ক্ষেত্রে খুব একই রকম (যেমন আপনার উপযুক্ত মডেলটি দেওয়া অস্বাভাবিক মান) তবে বিভিন্ন কোণ থেকে ধারণাটি আসে come তদুপরি, যখন আমরা আউটলিয়ারদের নিয়ে কথা বলি, আমরা সাধারণত আমাদের মডেলটিকে ফিট করার জন্য ব্যবহৃত ডেটাতে একটি অস্বাভাবিক ডেটা পয়েন্ট বলতে বুঝি যেখানে অসাধারণতা হিসাবে সাধারণত আমাদের মডেলটি ফিট করার জন্য ব্যবহৃত ডেটার বাইরে কোনও ডেটাসেটে একটি অস্বাভাবিক ডেটা পয়েন্ট হিসাবে বোঝানো হয় ।

দ্রষ্টব্য: এই উত্তরটি আমি আনুষ্ঠানিক সংজ্ঞা পরিবর্তে দুটি শব্দটি প্রায়শই কীভাবে ব্যবহার করেছি তা নির্ভর করে। ব্যবহারকারীর অভিজ্ঞতা পৃথক হতে পারে।


6

বেমানান এমন একটি ফলাফল যা বেস বিতরণ (আমাদের অনুমানগুলি সঠিক হলে একটি অসম্ভবতা) দিয়ে ব্যাখ্যা করা যায় না। বেস ডিস্ট্রিবিউশন (একটি অসম্ভাব্যতা) প্রদত্ত একটি আউটলিয়ার একটি সম্ভাবনাময় ঘটনা।


7
সংজ্ঞা এবং উদাহরণের উত্স উদ্ধৃত করা উত্তরের উন্নতি করবে।
টিম

4
আমি যতদূর জানি তারা প্রতিশব্দ। সুতরাং @ এইচ। ইকবালকে সত্যই উত্সটি উদ্ধৃত করতে হবে এবং সমস্ত পাঠকদের অবশ্যই অবশ্যই উত্সের অনুমোদনের মূল্যায়ন করতে হবে
জ্যাক ওয়াইনার

2
অসম্ভবতাটিকে পি (এক্স = অ্যানোমালাই) = 0 (অর্থাৎ ঠিক 0) বোঝায়। অসাধারণ শনাক্তকরণ সম্পর্কে আমার উপলব্ধি হ'ল গবেষক এমন ইভেন্টগুলিতে আগ্রহী হতে পারে যার ইতিবাচক সম্ভাবনা থাকতে পারে।
ক্লিফ এবি

4

পদগুলি মূলত একটি বিনিময়যোগ্য পদ্ধতিতে ব্যবহৃত হয়। "আউটিলার" বলতে আদর্শের বাইরে থাকা কিছুকে বোঝায় - সুতরাং এটি "ব্যতিক্রমী"। তবে আমার কাছে এমন আক্ষেপ রয়েছে যা "আউটলেট" সাধারণত খুব বিরল পর্যবেক্ষণের জন্য ব্যবহৃত হয় । পরিসংখ্যানগুলিতে, একটি সাধারণ বিতরণে, আপনি তিনটি সিগমাকে আউটলিয়ার হিসাবে বিবেচনা করবেন। এটি আপনার 99.7% অবজেক্টের "স্বাভাবিক" হওয়ার প্রত্যাশা। "অ্যানোমালি" অনেক বেশি উদারভাবে ব্যবহৃত হয়। যদি হঠাৎ আপনার ওয়েবসাইটে লক্ষ লক্ষ দর্শক থাকে তবে এগুলি বিরল দর্শক নয়। আকস্মিক দর্শনার্থীদের বৃদ্ধি এখনও "ব্যতিক্রমী", যেখানে প্রতিটি পৃথক দর্শনার্থী কোনও "বহিরাগত" নয়।

এটি এই নিবন্ধে থাকতে পারে যেখানে আমি এই পার্থক্যগুলি আলোচিত দেখেছি, তবে দুর্ভাগ্যক্রমে আমি এখনই এটি অ্যাক্সেস করতে পারছি না।

পরিসংখ্যানগত বিশ্লেষণ এবং ডেটা মাইনিং, খণ্ড 5, ইস্যু 5, অক্টোবর 2012, পৃষ্ঠাগুলি 363–387 উচ্চ-মাত্রিক সংখ্যাসূচক তথ্যগুলিতে নিরীক্ষণযুক্ত আউটলেট সনাক্তকরণ সম্পর্কিত জরিপ


1
আমি মনে করি আপনি আউটলিয়ার এবং ব্যতিক্রমগুলির মধ্যে পার্থক্য সম্পর্কে সূক্ষ্মভাবে ইঙ্গিত করেছেন; আউটলিয়ারগুলি এমন ডেটা বর্ণনা করতে ব্যবহৃত হয় যা কোনও সাধারণ ট্রেন্ডের সাথে খাপ খায় না, ব্যতিক্রমগুলি একটি সার্ভারে অস্বাভাবিক ট্র্যাফিক বর্ণনা করে। 50% জে.কে.
ক্লিফ এবি

2

জলকে আরও কাদামাটি করতে জলবায়ুবিদ্যায় অসাধারণভাবে কেবল মূল্য এবং গড় বা বিচ্যুতির মধ্যে পার্থক্য বোঝায়:

তাপমাত্রা শব্দের বিচ্ছিন্নতার অর্থ একটি রেফারেন্স মান বা দীর্ঘমেয়াদী গড় থেকে প্রস্থান। একটি ইতিবাচক অসঙ্গতি ইঙ্গিত দেয় যে পর্যবেক্ষণ করা তাপমাত্রা রেফারেন্স মানের তুলনায় উষ্ণ ছিল, অন্যদিকে aণাত্মক বিপর্যয় নির্দেশ করে যে পর্যবেক্ষণ করা তাপমাত্রা রেফারেন্স মানের থেকে শীতল ছিল।

যেমন দেখুন

এটিকে বাইরের মেশিন লার্নিং হিসাবে ভাল হিসাবে বিবেচনা করা যেতে পারে তবে প্রশ্নে আগ্রহী লোকেরা এতে আগ্রহী হতে পারে।


1

(1,5)Y=এক্স(1,1)(5,5)(3,3.1)Y=এক্স

একটি অনিয়ম একটি ডেটা পয়েন্ট হতে পারে, বা কোনও মডেল তৈরি হওয়ার পরে ডেটাতে একটি সাধারণ প্রবণতা বা আচরণ পর্যবেক্ষণ বা আচরণ তৈরির প্রক্রিয়া বোঝার জন্য তৈরি হতে পারে। আপনি অসঙ্গতিগুলির মুখোমুখি হচ্ছেন কারণ সিস্টেমটি ভিন্নভাবে আচরণ শুরু করে, বা আপনি এই জাতীয় ডেটা পয়েন্টগুলি সন্ধান করেন, কারণ যখন কোনও ইভেন্ট ঘটে তখন আপনার মডেলটি বৈধ নয় বলে আপনাকে অবহিত করতে চাই। আপনি সমুদ্রের তরঙ্গের প্রশস্ত পরিমাণে যে কোনও অস্বাভাবিক আচরণ পর্যবেক্ষণ করার বিষয়ে চিন্তা করতে পারেন, আপনি সেই তথ্য পয়েন্টগুলি ফেলে দিতে এবং আরও ভাল মডেল তৈরি করতে চান তা নয়, তবে সুনামি কখন ঘটবে তা আপনি সচেতন হতে চান বলে।


2
আমি এর বেশিরভাগের সাথে একমত নই। প্রথমত, প্রথম বাক্যটি আপনার পছন্দ মতো আউটলারের সংজ্ঞা হতে পারে তবে অন্যান্য অনেক সংজ্ঞা বা ব্যবহারের সাথে মিলিয়ে নেওয়া শক্ত hard যদি ডেটা (1, 1), (2, 2), (3, 3), (অনেক বড়, অনেক বড়) হয় তবে অনেক বড় পয়েন্টটি প্রায়শই আউটলেট হিসাবে বর্ণনা করা যায় তবে কোনও মডেল ফিটনে কোনও সমস্যা নেই। আপনি সম্ভবত (এবং হওয়া উচিত) অবাক করে দিয়েছিলেন কেন ডেটা সেভাবে আসে তবে মডেল ফিট করা সহজ। আরও সাধারণভাবে, নীতিটি হ'ল কোনও আউটলারের ডেটার মূল অংশ থেকে পৃথক করা যেতে পারে তবে তবুও এটি একটি কল্পনাযোগ্য মডেলের সাথে সামঞ্জস্যপূর্ণ।
নিক কক্স

দ্বিতীয়ত, যদি আউটলিয়ারদের বাদ দেওয়ার বিষয়টি বোঝায় যে আপনার কাজটি করা উচিত, তবে (ক) প্রায়শই সমস্যাযুক্ত এমনকি এটি বলাও হয় যে বহিরাগতরা কী (খ) রয়েছে আরও অনেকগুলি সমাধান রয়েছে। থ্রেড স্ট্যাটস.স্ট্যাকেক্সেঞ্জাওয়েজ / প্রশ্ন / 80৮০63//২ বেশ কয়েকটি উল্লেখ করার জন্য এর শিরোনামের চেয়ে বেশি বিস্তৃত।
নিক কক্স

1
আপনি যদি আমার লিঙ্কটি অনুসরণ করেন তবে আপনি দেখতে পাবেন যে আমি ইতিমধ্যে বিদেশীদের কিছুটা দুরত্ব পোস্ট করেছি। আপনার উত্তরটি পুনরায় পড়ার বিষয়ে আমি কোনও বুদ্ধি পাই না যে আপনি ফিট করার সময় আউটলিয়ারদের অপসারণের বিষয়ে কথা বলছেন বলে মনে হচ্ছে আপনি পূর্বপরিকল্পিতভাবে ভাবছেন। পুনরায় পড়ার সময়, আমি এও নোট করি যে আপনার দ্বিতীয় অনুচ্ছেদের প্রথম বাক্যে এই ধারণাটি অন্তর্ভুক্ত করা হয়েছে যে একটি বিচ্ছিন্নতা 'একটি সাধারণ প্রবণতা বা আচরণ' হতে পারে, যা আপনার অর্থ হতে পারে - বা যদি তা হয় তবে আমি ডন করি না ' এটি বুঝতে পারি না।
নিক কক্স

1

ভাল প্রশ্ন. যাইহোক, "আউটলিয়ার এবং ব্যতিক্রমী সাইটের মধ্যে পার্থক্য: .edu" এ গুগল অনুসন্ধান দেখায় যে এই দুটি পদগুলির মধ্যে কোনও তাত্ত্বিক পার্থক্য নেই। এগুলি সাহিত্যে পরিবর্তিতভাবে ব্যবহৃত হচ্ছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.