টাইম-সিরিজে আউটিলার সনাক্তকরণ: মিথ্যা পজিটিভ কীভাবে হ্রাস করা যায়?


11

আমি সময়-সিরিজে আউটলেট সনাক্তকরণ স্বয়ংক্রিয় করার চেষ্টা করছি এবং আমি এখানে রব হ্যান্ডম্যান প্রস্তাবিত সমাধানটির একটি পরিবর্তন ব্যবহার করেছি ।

বলুন, আমি প্রতিদিন বিভিন্ন দেশ থেকে কোনও ওয়েবসাইটে ভিজিট পরিমাপ করি। এমন কয়েকটি দেশে যেখানে প্রতিদিনের পরিদর্শনগুলি কয়েক হাজার বা হাজার হাজার, আমার পদ্ধতিটি যুক্তিযুক্তভাবে কাজ করছে বলে মনে হয়।

যাইহোক, যেসব দেশে প্রতিদিন কেবল 1 বা 2 টি দেখার জন্য নেতৃত্ব দেওয়া হয়, অ্যালগরিদমের সীমা খুব সংকীর্ণ হয় (উদাহরণস্বরূপ 1 ± 0.001) এবং তাই 2 টি দর্শন একটি আউটলেট হিসাবে বিবেচিত হয়। আমি কীভাবে এই জাতীয় কেসগুলি স্বয়ংক্রিয়ভাবে সনাক্ত করতে পারি এবং কীভাবে আমি বিদেশীদের সনাক্ত করতে তাদের সাথে চিকিত্সা করতে পারি? আমি একটি ম্যানুয়াল প্রান্তিক সেট সেট করতে চাই না, বলতে চাই, প্রতিদিন 100 টি দর্শন।

ধন্যবাদ!


2
প্রাকৃতিক, সহজ উপায় যে আপনার সমস্যা সমাধানের পারে - একটি অত্যন্ত পরিবর্তনশীল ভ্যারিয়েন্স যা কারণে (কমপক্ষে অংশে) - একটি ভ্যারিয়েন্স-স্থিরকারী রূপান্তর যেমন একটি হিসাবে, আবেদন করতে হয় Anscombe বা ফ্রিম্যান-Tukey রূপান্তর ডেটাতে, বিদেশী খুঁজছেন আগে।
হোবার

উত্তর:


3

ছোট, পৃথক গণনার জন্য খুব বেশি আশা করবেন না। 1 থেকে 2 টি পরিদর্শন করা 100% বৃদ্ধি এবং 0 থেকে 1 টি পরিদর্শন করা অসীম বৃদ্ধি। নিম্ন স্তরে আপনি শূন্য-স্ফীত মডেলগুলির সাথে লেনদেন করছেন এবং এটি সেখানে খুব গোলমালও করতে পারে।

আমার অভিজ্ঞতায়, বৃহত এবং ছোট গননাগুলির মিশ্রণ সহ ডেটা গণনা করুন এর ফলে আপনার ছোট ছোট গণনাগুলির সাথে দুটি সমস্যার সৃষ্টি হয়: 1) তারা খুব বেশি মোটা হয়, 2) এগুলি বিভিন্ন প্রক্রিয়া দ্বারা উত্পন্ন হয়। (ছোট, পল্লী পোস্ট অফিস বনাম বড় শহর ডাকঘর মনে করুন)। সুতরাং আপনাকে কমপক্ষে আপনার মডেলিংকে দুটি ভাগে ভাগ করতে হবে: আপনি বৃহত্তর গননার জন্য সফলভাবে যা করছেন তা করুন এবং ছোট পরিসংখ্যান সহ মোটা এবং আরও আনুমানিক - কিছু আলাদা করুন। তবে ছোট সংখ্যাগুলির খুব বেশি আশা করবেন না।

সুসংবাদটি হ'ল সংজ্ঞা অনুসারে বৃহত গণনাগুলি আপনার আরও বেশি লেনদেনকে অন্তর্ভুক্ত করে, সুতরাং আপনার ভাল মডেলটি আপনার বেশিরভাগ সাইটের আচ্ছাদন না করে সত্ত্বেও, আরও বেশি ডেটা কভার করে।

(আমি সাধারণ হিসাবে "মডেলিং" বলি, তবে অবশ্যই আউটলেট সনাক্তকরণ একটি নির্দিষ্ট মডেল ধরে নিচ্ছে এবং সেই পয়েন্টগুলি আবিষ্কার করবে যা সেই মডেলের অনুমানের সাথে অত্যন্ত সম্ভাবনাযুক্ত নয়।)


1

আপনার সময় সিরিজের প্রতিটি মান হ'ল সম্ভাবনা বন্টন থেকে প্রাপ্ত নমুনা। আপনাকে প্রথমে সম্ভাব্যতা বন্টন কী তা খুঁজে বের করতে হবে এবং তারপরে সেই বিতরণের মধ্যে শব্দটির বিরল অর্থ কী তা নির্ধারণ করতে হবে।

সুতরাং অনুমিত সিডিএফ গণনা করুন, এবং 95% আত্মবিশ্বাসের ব্যবধান গণনা করুন যখনই সেই অঞ্চলের বাইরের কিছু ঘটেছে, তখন সংজ্ঞা দ্বারা আপনি জানেন যে এটি অবশ্যই একটি বিরল ঘটনা be


0

আউটলারের একটি নির্দিষ্ট স্তরের আত্মবিশ্বাসের সনাক্ত করা একটি জিনিস এবং দ্বিতীয় স্পেসিফিকেশন স্থাপন করা অন্যটি যা আউটলারের গ্রহণযোগ্যতাকে আরও সীমাবদ্ধ করে would আমাকে একবার নীচের প্রশ্নটি জিজ্ঞাসা করা হয়েছিল "আত্মবিশ্বাসের একটি পূর্ব-নির্দিষ্ট স্তরে এক্সটক্স এক্স ইউনিটগুলির গড় শিফটটি অটোবক্স সনাক্ত করতে পারে"? মূলত যা প্রয়োজন ছিল তা ছিল দ্বৈত পরীক্ষা। অটবক্স হ'ল এমন একটি সফ্টওয়্যার যা আমি বিকাশে সহায়তা করেছি যা আপনি ব্যয়বহুল হিসাবে খুঁজে পেতে পারেন কারণ কোনও নিখরচায় সফ্টওয়্যার এই দ্বৈত পরীক্ষাটি কার্যকর করে নি।

ধন্যবাদ নিক: আমি একটি "আউটলেটর" বা সাধারণভাবে বোধগম্যভাবে নির্ধারিত ডিটারমিনিটিক প্রভাবের একটি বিশেষ উদাহরণ হিসাবে লেভেল শিফ্টটি ব্যবহার করছিলাম। "আউটলিয়ার" এর অন্যান্য ফর্মগুলি হ'ল ডাল, মৌসুমী ডাল এবং স্থানীয় সময় প্রবণতা এবং নির্দিষ্ট সংমিশ্রণ যেমন একটি নতুন স্তরে ক্ষণস্থায়ী পরিবর্তন। মূল বক্তব্যটি ছিল এমন দুটি অনুমানও হতে পারে যা পরিসংখ্যানগত তাত্পর্য এবং বাস্তব-বিশ্বের তাত্পর্য প্রতিবিম্বিত করে play যে গ্রাহকটি মূলত আমার সমস্যাটি এই বিষয়টি নিয়ে এসেছিল তারা উভয়ের মধ্যেই আগ্রহী।


একজন আউটলারের কোনও গড় বদল বোঝাতে হবে না .... আসলে, বিভিন্ন উপায়ে শাসনকর্তাদের মধ্যে পদক্ষেপ বা র‌্যাম্প পরিবর্তনের কোনও কারণেই বহিরাগতদের প্ররোচিত করা উচিত নয়। আপনি এটি খুব ভাল জানেন, তবে আমার মনে হয় যা বোঝায় তা হ'ল এটি আপনার উত্তরটি খুঁজে বের করতে অন্যের পক্ষে সবচেয়ে বেশি সহায়ক হবে।
নিক কক্স

দুজন কেই ধন্যবাদ. আমি বাস্তব বিশ্বের তাত্পর্য আগ্রহী। একজন আউটলেটারের শনাক্ত করার পরে, আমি এর চূড়ান্ত তাত্পর্য অর্জনের জন্য মোট পরিদর্শনের তুলনায় ভিজিটের অনুপাতের সাথে এটির তাত্পর্য বোঝাচ্ছি। যদিও অনুপাত 2 টি দেখার ক্ষেত্রে সত্যিই ছোট, প্রত্যাশিত মানগুলি 1 ± 0.001 হওয়ায় প্রত্যাশিত সীমা থেকে প্রকৃত পয়েন্টের 'দূরত্ব' খুব বেশি (যেমন 2 / 0.002 যেখানে 0.002 'আইকিআর' হয়) । সুতরাং, তে ইস্যুটি শেষ পর্যন্ত উচ্চ তাত্পর্য অর্জন করে। কোন ধারনা?
স্টেরজিওস

আমি ফ্ল্যাগ করব যে এখানে "আউটিলার" এর বর্ধিত ব্যবহার এমনকি অনেক সাহিত্যে সাধারণ যে চরম কোনও কিছু উদার বোধের চেয়েও বিস্তৃত। পাকা পাঠকগণ জানতে পারবেন যে @ আইরিস্ট স্ট্যাট তার দৃte়, সময় সিরিজের বিশ্লেষণে আটকে আছে।
নিক কক্স

0

আপনার সমস্যাটি হচ্ছে কারণ আপনার ডেটা একটি সাধারণ বিতরণ থেকে অনেক দূরে। যদি বিতরণটি অত্যধিক অসম্পৃক্ত থাকে তবে গলদা, কুঁচি বা খুব দীর্ঘ / সংক্ষিপ্ত লেজ সহ আপনার সমস্যার মুখোমুখি হতে পারে। আপনার পদ্ধতিটি ব্যবহারের আগে বক্স কক্স বা ইয়েও-জনসনের মতো রূপান্তর প্রয়োগ করা ভাল ধারণা apply আপনার উদাহরণে যদি আপনি F (x) = লগ (1 + এক্স) ব্যবহার করেন তবে আপনি বিভিন্ন মাত্রার সমস্যা এড়াতে পারবেন এবং আপনি আবার ব্যবহার করতে পারবেন: এক্সপ্রেড (জেড) -1

বক্স-কক্স রূপান্তরের জন্য স্বয়ংক্রিয়ভাবে একটি ভাল ল্যাম্বডা খুঁজে পেতে আপনি বেশ কয়েকটি পদ্ধতি ব্যবহার করতে পারেন। আমি ব্যক্তিগতভাবে আর-তে এইড প্যাকেজ থেকে বাক্সকক্সন ফাংশনের সমস্ত পদ্ধতির মধ্যস্থতাটি ব্যবহার করি your

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.