খুব ছোট সেটগুলিতে আউটলেট সনাক্তকরণ


12

বারোটি নমুনা আলোকিত মানের মান প্রদত্ত একটি মূলত স্থিতিশীল আলোক উত্সের উজ্জ্বলতার জন্য আমার যথাসম্ভব নির্ভুল হওয়া দরকার। সেন্সরটি অসম্পূর্ণ, এবং আলো মাঝে মাঝে "ঝাঁকুনি" উজ্জ্বল বা গাer় হতে পারে, যা উপেক্ষা করা যায়, অতএব আমার বহিরাগত সনাক্তকরণের প্রয়োজন (আমার মনে হয়?)?

আমি এখানে বিভিন্ন পদ্ধতির উপর কিছু পড়া করেছি এবং কোন পদ্ধতির জন্য যেতে হবে তা সিদ্ধান্ত নিতে পারি না। বহিরাগতদের সংখ্যা আগে থেকে কখনই জানা যায় না এবং প্রায়শই শূন্য হবে। ফ্লিকার হ'ল স্থিতিশীল উজ্জ্বলতা থেকে একটি খুব বড় বিচ্যুতি (একটি বড় উপস্থিতির সাথে নেওয়া কোনও গড়ের সাথে সত্যিই গণ্ডগোল যথেষ্ট) তবে অগত্যা তা নয় not

প্রশ্নের সম্পূর্ণতার জন্য এখানে 12 পরিমাপের একটি নমুনা সেট রয়েছে:

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

আমার অন্ত্র অনুভূতিটি সম্ভবত সেই নির্দিষ্ট সেটে কোনও বিদেশী নেই, যদিও 292 এবং 295 দেখতে কিছুটা উঁচু।

সুতরাং, আমার প্রশ্নটি হল, এখানে সর্বোত্তম পদ্ধতির কী হবে? আমার উল্লেখ করা উচিত যে মানগুলি শূন্য (কালো) বিন্দু থেকে আলোর আরজি এবং বি উপাদানগুলির ইউক্লিডিয়ান দূরত্ব গ্রহণ করে আসে। যদি প্রয়োজন হয় তবে এই মানগুলিতে ফিরে আসার জন্য এটি প্রোগ্রামিকভাবে বেদনাদায়ক, তবে সম্ভব হবে। ইউক্লিডিয়ান দূরত্বটি "সামগ্রিক শক্তি" হিসাবে পরিমাপ করা হয়েছিল কারণ আমি রঙে আগ্রহী নই, কেবলমাত্র আউটপুট শক্তি। যাইহোক, যুক্তিসঙ্গত সম্ভাবনা রয়েছে যে আমি উল্লিখিত ফ্লিকারগুলি স্বাভাবিক আউটপুটে আলাদা আরজিবি রচনা রয়েছে।

এই মুহুর্তে আমি এমন কিছু ফাংশন নিয়ে কাজ করছি যা অনুমোদিত ব্যবস্থার স্থায়ী সদস্যপদ না পৌঁছানো পর্যন্ত পুনরাবৃত্তি করবে:

  1. স্ট্যান্ডার্ড বিচ্যুতি সন্ধান করা
  2. 2 এসডিগুলিকে বাইরের সমস্ত কিছু উপেক্ষা করে তালিকায় রাখুন
  3. উপেক্ষা তালিকা বাদ দিয়ে গড় এবং এসডি পুনরায় গণনা করা
  4. নতুন গড় এবং এসডির ভিত্তিতে কাকে উপেক্ষা করবেন তা পুনরায় সিদ্ধান্ত নেওয়া (সমস্ত 12 মূল্যায়ন করুন)
  5. স্থির হওয়া পর্যন্ত পুনরাবৃত্তি করুন।

এই পদ্ধতির কোনও মূল্য আছে কি?

সমস্ত মন্তব্য কৃতজ্ঞভাবে গৃহীত!


যদিও তা যন্ত্রণাদায়ক তবে আপনার অনুমান যে কোনও ফ্লিকারটিতে আসলে আলাদা আলাদা আরজিবি উপাদান থাকতে পারে (যদিও কখনও কখনও কালো থেকে একই দূরত্ব হয়) তা অনুসরণ করার জন্য উপযুক্ত। আর একটি বিকল্প হ'ল আপনার লক্ষের উপর নির্ভর করে কেবল গড়ের পরিবর্তে মিডিয়ান ব্যবহার করা।
ওয়েইন

উত্তর:


7

ছোট নমুনায় আউটলিয়াররা সনাক্ত করা সর্বদা খুব কৃপণ হতে পারে। বেশিরভাগ ক্ষেত্রেই আমি সমর্থন করব যে আপনি যদি মনে করেন যে আপনার ডেটা ভোঁতাভাবে দুর্নীতিগ্রস্থ হয়নি, তবে "আউটরিশাল" মান সমস্যাযুক্ত নাও হতে পারে এবং এর বর্জন অযৌক্তিক হতে পারে। সম্ভবত শক্তিশালী পরিসংখ্যান কৌশলগুলি আরও বুদ্ধিমান এবং একটি মাঝের স্থল সমাধানের কাছাকাছি হবে। আপনার একটি ছোট নমুনা রয়েছে; প্রতিটি নমুনা পয়েন্ট গণনা করার চেষ্টা করুন। :)

আপনার প্রস্তাবিত পদ্ধতির বিষয়ে: আমি তাত্ক্ষণিকভাবে তাদের উপর -৮-৯৯-৯ with..7 রুল দিয়ে আপনার ডেটাতে একটি স্বাভাবিকতা অনুমানটি প্রয়োগ করব না (যেমন আপনি মনে করেন যে আপনার 2SD হিউরিস্টিক নিয়মটি কোনওভাবেই করেন)। চেবিশেভের অসমতার জন্য একবার তাদের উপর একটি 75-88.9-93.8 রুল ধরেছে যা স্পষ্টতই কম অনড়। অন্যান্য " বিধি " এছাড়াও বিদ্যমান; শনাক্ত করা outliers অধ্যায় আউটলিয়ার উইকিপিডিয়া থিম হিউরিস্টিক একটা বান্ডিল হয়েছে।

এখানে অন্য একটি: নিখরচায় এই বইয়ের রেফারেন্সটি আমি এনেছি, এনআইএসটি / সেমেটেকের ই-হ্যান্ডবুক অফ স্ট্যাটিস্টিকাল মেথডস , ইগলিউইচস এবং হোয়াগলিনের নীচের ধারণাটি উপস্থাপন করেছেন (1993): পরিবর্তিত স্কোর ব্যবহার করুন যা:ZM

Mi=.6745(xix~)/MAD

যেখানে আপনার মিডিয়ান এবং এমএডি হ'ল আপনার নমুনার মধ্যম পরম বিচ্যুতি । তারপরে ধরে নিন যে 3.5 এর উপরে নিরঙ্কুশ মানগুলি সম্ভাব্য বিদেশী। এটা একটা আধা স্থিতিমাপ পরামর্শ (যেমন তাদের অধিকাংশই হয়, হয় প্যারামিটার হচ্ছে এখানে )। আপনার উদাহরণস্বরূপ এটি আপনার 295.5 কে প্রান্তিকভাবে বাদ দেবে তবে আপনার 292.6 পরিমাপ পরিষ্কারভাবে ধরে রাখবে ... (এর জন্য আমি আপনার উদাহরণের ক্ষেত্রে কোনও মান বাদ দেব না lude)x~M3.5

আবার, যদি আপনার সত্যিকার অর্থে একটি ছোট্ট নমুনা থাকে তবে আপনি যদি বিশ্বাস করেন যে আপনার নমুনাটি স্পষ্টতই দুর্নীতিগ্রস্থ নয় (একজন মানব 9'4 "লম্বা), আমি আপনাকে তাড়াহুড়ো করে ডেটা বাদ না দেওয়ার পরামর্শ দেব Your আপনার" সন্দেহযুক্ত অপ্রত্যাচারীরা "নিরবচ্ছিন্ন ডেটা হতে পারে; তাদের ব্যবহারটি আপনার বিশ্লেষণের ক্ষতি করার চেয়ে আসলে সহায়তা করতে পারে।


1
একটি ছোট পয়েন্ট, তবে খুব সম্ভবত এমন একটি যা দংশন করতে পারে, বিশেষত যদি আপনার ডকুমেন্টেশনগুলি অযত্নে পড়া বা উদ্ধৃত করা হয়: আমি মধ্যমাটির পক্ষে সাধারণভাবে সাধারণ ব্যবহারের জন্য চিহ্নিতকরণ against এর বিরুদ্ধে দৃ strongly়ভাবে পরামর্শ দিচ্ছি । অদ্ভুতভাবে বা না, কোনও স্বরলিপি সাধারণত মিডিয়ানদের জন্য ব্যবহৃত হয় বলে মনে হয় না তবে প্রায় কোনও কিছু , যেমন মেড বা চেয়ে ভাল । x¯x¯x~
নিক কক্স

1
দৃust় সংক্ষিপ্তসার মানগুলিতে জোর দেওয়ার জন্য +1। এই সাইটে অন্যান্য থ্রেড দেখুন।
নিক কক্স

1
@ নিককক্স: ভাল কথা, আমি জানি না যে আমি প্রথমে কী ভাবছিলাম। এখনই এটি পরিবর্তন করা হয়েছে। পরামর্শের জন্য ধন্যবাদ.
usεr11852

0

খুব ছোট ডেটাসেটে আউটলিয়ারদের জন্য ডিকসনের কিউ-টেস্ট এই ধরণের পরিস্থিতিটির সাথে উপযুক্ত বলে মনে হয়:

http://en.wikipedia.org/wiki/Dixon%27s_Q_test

http://www.chem.uoa.gr/applets/AppletQtest/Text_Qtest2.htm


না! কারণ ডিকসনের পরীক্ষাটি সর্বাধিক একক আউটলেটর সনাক্ত করতে পারে (লিঙ্কটি এখানে দেখুন ) এবং ওপি কখনও উল্লেখ করেনি যে তার কেবল একক বহিরাগত রয়েছে।
ব্যবহারকারী 60

0

প্রথমটি নির্দেশ করুন - এটি আরজিবি রঙে ফিরে যাওয়া মূল্যবান হতে পারে। এটি ডেটা ফেলে দেওয়া খুব কমই ভাল, আরজিবি ভেক্টরের প্রস্থতা কেবল উজ্জ্বলতা উপস্থাপনের একমাত্র উপায় নয় - এইচএসভিতে মান হিসাবে উপলব্ধ উজ্জ্বলতা আলাদা ।

তবে এটিকে একদিকে রাখলে এবং আপনার কাছে থাকা ডেটাগুলি নিয়ে কাজ করে, আপনি কি মডেলিংয়ের পরিবর্তে শ্রেণিবিন্যাসের সমস্যা হিসাবে এটি গঠন এবং কিছু মেশিন লার্নিং করার বিষয়টি বিবেচনা করেছেন? আপনার কাছে একটি ইনপুট রয়েছে যা এটিতে 12 টি প্রকৃত মান সহ একটি ভেক্টর (উজ্জ্বলতা পাঠক)। আপনার একটি আউটপুট রয়েছে, যা 12 বাইনারি মানগুলির ভেক্টর (1 = ইনিলার, 0 = আউটলেট)। একাধিক উজ্জ্বলতা পড়ার সেট পান এবং সেগুলি নিজেই হ্যান্ড লেবেল করে দেখান যে প্রতিটি সেটে কোন উজ্জ্বলতা পড়া পড়া একটি ইনিলার / আউটলেটর। এটার মতো কিছু:

x1 = {212.0, 209.6, 211.5, d , 213.0}, y1 = {1,0,1, d , 1

x2 = { 208.1, 207.9, 211.2, d , 208.2}, y2 = {1,1,0, d , 1

x3 = { 223.4, 222.9, 222.8, d , 223.0}, y3 = {1,1,1, d , 1

তারপরে, কোনও কোনও শ্রেণিবদ্ধের মাধ্যমে পুরোটা চালান:

  • আপনি একটি একক শ্রেণিবদ্ধকারী ব্যবহার করতে পারেন যা 12 টি বিভিন্ন বাইনারি মানকে আউটপুট করে - একটি নিউরাল নেটওয়ার্ক আপনাকে এটি খুব সহজেই সেট আপ করতে দেয়।
  • অথবা, আপনি একটি স্ট্যান্ডার্ড বাইনারি ক্লাসিফায়ার ব্যবহার করতে পারেন (যেমন এসভিএমলাইট ) এবং 12 টি বিভিন্ন মডেলকে প্রশিক্ষণ দিতে পারেন, আউটপুটটির প্রতিটি উপাদান একটি ইনিলার / আউটলেটর কিনা তা শ্রেণিবদ্ধ করে।

এবং তুমি করে ফেলেছ! অন্তর্ভুক্তকারীদের নিজেকে বিদেশী থেকে আলাদা করে এমন 'নিয়ম' সন্ধানের চেষ্টা করার জন্য কোনও হট্টগোলের দরকার নেই। কেবলমাত্র কয়েকটি সেট ডেটা পান যা বুদ্ধিমান দেখায় এবং মেশিনটিকে এটি করতে দেয় :)

~~~

সম্পাদনা: প্রসঙ্গক্রমে, আপনার প্রস্তাবিত পদ্ধতিটি যেখানে আপনি পুনরাবৃত্তভাবে কোনও গাউসিয়ান ফিট করেন তারপরে প্রতিটি নমুনাকে আউটলার হিসাবে 2 স্ট্যান্ডার্ড বিচ্যুতির চেয়ে দূরে শ্রেণীবদ্ধ করেন, দেখতে অনেকটা প্রত্যাশা সর্বাধিকীকরণ অ্যালগরিদমের মতো লাগে। এটার মতো কিছু:

  • একটি একক গাউসিয়ান উপাদান (ইনিলারদের মডেলিং)
  • অভিন্ন পটভূমি উপাদান (আউটলিয়ার্স)
  • প্রত্যেকটির কিছু পূর্ব সম্ভাবনা যা গাউসির প্রস্থে একটি 'স্পষ্টভাবে' নির্ভর করে ('2 স্ট্যান্ডার্ড বিচ্যুতির' শ্রেণিতে শ্রেণিবদ্ধ ')।
  • প্রত্যাশা পদক্ষেপে কঠোর শ্রেণিবিন্যাস।

আপনি যদি সেই রাস্তায় নামেন তবে ইএম অ্যালগরিদমগুলির জন্য গুগল করা এবং আপনি নিজের মডেলটিতে কী অনুমানগুলি তৈরি করছেন তা যাচাই করা উপযুক্ত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.