লোকাল আউটিলার ফ্যাক্টর (এলএফ) সনাক্তকরণ বিশ্লেষণের জন্য একটি কে-মান নির্বাচন করা


9

আমার কাছে ত্রি-মাত্রিক ডেটার একটি সেট রয়েছে এবং আমি সর্বাধিক অনন্য বা অদ্ভুত মানগুলি সনাক্ত করতে স্থানীয় আউটিলার ফ্যাক্টর বিশ্লেষণটি ব্যবহার করার চেষ্টা করছি। এলওএফ বিশ্লেষণে কে-মানটি কীভাবে ব্যবহার করা যায়? আমি বুঝতে পেরেছি যে কে-মানটি নির্ধারণ করে, এবং তাই আমি বিস্মিত হই না যে আমি বিভিন্ন কে ব্যবহার করে কিছুটা ভিন্ন ফলাফল দেখছি, তবে আমি নিশ্চিত নই যে আমার ডেটাসেটের এমন বৈশিষ্ট্য রয়েছে যা আমাকে অন্যের তুলনায় একটি মানের দিকে ঠেলে দেয় should । ধন্যবাদ!

উত্তর:


11

ভবিষ্যতে যে কেউ আমার প্রশ্ন জুড়ে আসে তার জন্য এখানে পোস্ট করা - স্থানীয় আউটলেট ফ্যাক্টর অ্যালগরিদম বর্ণনা করে এমন মূল কাগজ, "এলএফ: ঘনত্ব ভিত্তিক স্থানীয় আউটলিয়ার সনাক্তকরণ" (ব্রুনিগ এট আল) কে-মান নির্বাচন করার পদ্ধতির প্রস্তাব দেয় । অনুস্মারক হিসাবে, এলএফএফ অ্যালগরিদম প্রতিটি পয়েন্টের ঘনত্বকে এর ক্লোস্টের প্রতিবেশীদের ঘনত্বের সাথে তুলনা করে । কাগজের লেখকরা ন্যূনতম এবং সর্বাধিক বেছে নেওয়ার পরামর্শ দেন এবং প্রতিটি পয়েন্টের জন্য, এই ব্যাপ্তির প্রতিটি র উপরে সর্বাধিক এলওএফ মান গ্রহণ করে । তারা সীমানা বেছে নেওয়ার জন্য বিভিন্ন নির্দেশিকা অফার করে।

ন্যূনতম মানের জন্য, এলওএফ মান << জন্য অভিন্ন বিতরণে বুনোকে পয়েন্টগুলিতে ওঠায়, একইসাথে একই পরিমাণে বিতরণ করার পয়েন্টগুলি কখনও কখনও বহিরাগত হিসাবে প্রদর্শিত হয়, তাই তারা কমপক্ষে । দ্বিতীয়ত, ন্যূনতম ভ্যালু কোনও কিছুকে "ক্লাস্টার" হিসাবে বিবেচনা করার জন্য ন্যূনতম আকার হিসাবে পরিবেশন করে, যাতে পয়েন্টগুলি এই ক্লাস্টারের তুলনায় বহিরাগত হতে পারে। যদি , এবং আপনার পয়েন্ট এবং একটি পয়েন্ট একটি গ্রুপ রয়েছে, গ্রুপের প্রতিটি পয়েন্টে তার নিকটবর্তী প্রতিবেশীদের মধ্যে অন্তর্ভুক্ত থাকবে , এবং সেই পয়েন্টগুলিকে অন্তর্ভুক্ত করবে, যার ফলে তাদের খুব অনুরূপ এলএফও রয়েছে have সুতরাং আপনি একটি গ্রুপ কাছাকাছি একটি পয়েন্ট বিবেচনা করতে চান<10মিআমিএন()=10=1512পিপিপিএনআউটলেটর হিসাবে পয়েন্টগুলি, সেই গোষ্ঠীর অংশের চেয়ে আপনার কে এর মান কমপক্ষে হওয়া উচিত ।এন

সর্বাধিক মানের জন্য, একই ধরণের মানদণ্ড প্রয়োগ করা হয়, এটি একসাথে ক্লাস্টার করা হলে আপনি যে পরিমাণ অবজেক্টর হিসাবে বিবেচিত হতে চান তার সর্বাধিক সংখ্যক হওয়া উচিত। মূল সেট থেকে বিচ্ছিন্ন অবজেক্টের একটি গ্রুপ হয় গুচ্ছ হতে পারে, বা বহিরাগত হতে পারে ; জন্য , তারা প্রথম হবে; জন্য তারা দ্বিতীয় হবে।এনএন<এন>এন

আশা করি এটি একই সমস্যা সহ যে কাউকে সহায়তা করে। পূর্ণ কাগজ এখানে , এবং সর্বোচ্চ / মিনিট K-মূল্যবোধের আলোচনা পাতা 7 শুরু হয় এবং পৃষ্ঠা 9. মাধ্যমে যায় (তারা পড়ুন যেমন -value MinPts ।)


শুধু একটা জিনিস বুঝতে চাই। যাক যে কোনও ডেটা সেটের জন্য আমি কে = 20 নির্বাচন করি এবং প্রতিটি পয়েন্টের জন্য এলএফএফ উত্পন্ন করি এবং তারপরে আমি এর পয়েন্টগুলির এলওএফের উত্থানের ক্রমে সমস্ত পয়েন্ট প্রদর্শন করি। এখন যখন আমি ডেটা বিশ্লেষণ করি তখন আমি এমন পরিসরটি বেছে নিতে পারি যা আমি মনে করি যে ডেটা আউটলেটর (ডোমেনের জ্ঞান অনুযায়ী) আপনি কি মনে করেন এটি এর সাহায্য করে ?? আমি ঠিক এখনই আমাকে কে এর মান নিয়ে চিন্তা করতে হবে না এবং এলওএফ র্যাঙ্কিং অনুসারে আউটলিয়ারদের বিশ্লেষণ করতে আমি আমার ডোমেন জ্ঞান ব্যবহার করছি। ধন্যবাদ,
স্বপ্নিল ভুরে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.