কীভাবে ভুল জিপিএস পয়েন্ট ফিল্টার করবেন?


11

আমার কাছে জিপিএস পয়েন্টের একটি ডাটাবেস রয়েছে। কোনও ট্র্যাক নেই, কেবল পয়েন্ট। আমাকে প্রতি 100 মিটারের জন্য কিছু মান গণনা করতে হবে, তবে কখনও কখনও জিপিএস একটি ভুল স্থানাঙ্ক দেয় যা সত্যিকারের জিপিএস পয়েন্ট থেকে অনেক দূরে থাকে এবং একটি ছোট বর্গক্ষেত্রের জন্য মান গণনা করার পরিবর্তে, আমি এটি সত্যিই বড় আয়তক্ষেত্রাকার অঞ্চলে গণনা করতে হয়।

ভুল জিপিএস পয়েন্ট ফিল্টার করার জন্য সেরা অ্যালগরিদম কী?

আমি বুঝতে সাহায্য করতে একটি স্ক্রিনশট তৈরি করেছি:

! [Http://content.screencast.com/users/smirnoffs/folders/Jing/media/94624331-db6a-4171-bed9-e2183f953a1d/gps_error.png]


1
আমি এই জাতীয় বহিরাগতদের সনাক্ত করতে মানদণ্ড হিসাবে পয়েন্টগুলির মধ্যে গড় দূরত্ব (10 টি শেষ পয়েন্ট বলি) চলন্ত ফ্রেমের একটি ছোট একাধিক ব্যবহার করব।
lynxlynxlynx

আপনি আপনার পদ্ধতি আরও বিশদ বর্ণনা করতে পারেন? আমার কাছে পয়েন্টগুলির একটি ডাটাবেস রয়েছে, সেগুলি কোনও ধরণের অনুসারে বাছাই করা হয় না। সুতরাং দূরত্ব 2 মিটার বা 500 মিটার হতে পারে। তবে কিছু বিষয় খুব দূরে। আপনাকে বুঝতে সাহায্য করার জন্য
mir ই

2
আমি দেখি. এক্ষেত্রে আমার পদ্ধতির তেমন ভাল হয় না। আমি পরিবর্তে প্রতিটি পয়েন্টের জন্য নিকটতম প্রতিবেশী পয়েন্ট গণনা করব এবং তারপরে সেখানকার আউটরিয়ারদের শেভ করব।
lynxlynxlynx

2
@Lynx দ্বারা প্রস্তাবিত দ্বিতীয় পদ্ধতির নমুনা ডেটার সাথে ভাল কাজ করবে, বিশেষত যখন আউটলেট সনাক্তকরণ পদ্ধতিটি ভাল one বিকল্পগুলির জন্য আমাদের পরিসংখ্যান সাইটে বিদেশিদের সম্পর্কে প্রশ্নগুলি দেখুন । উদাহরণস্বরূপ, অনেকগুলি সৃজনশীল (এবং বৈধ) পন্থাগুলি stats.stackexchange.com /Qtions/213 তে প্রস্তাবিত ।
whuber

উত্তর:


3

পয়েন্টগুলির বিপরীতে অ্যানসেলিন স্থানীয় মুরান আই চালান এবং -1.96 এর নীচে জেড-স্কোর দিয়ে যে কোনও কিছুই ফেলে দিন। এটি স্থানিক বিদেশিদের সনাক্ত করার জন্য একটি পরিসংখ্যান পদ্ধতি। আপনাকে অবশ্যই নিশ্চিত করতে হবে যে এটি করার জন্য সমস্ত পয়েন্টের তাদের স্থানিক অবস্থানের সাথে সম্পর্কিত একটি মান রয়েছে।

তবে হুবহু মন্তব্যের পরে 10.1-এ সরঞ্জামগুলি পরীক্ষা করে আমি বুঝতে পেরেছি যে আপনি যদি আর্কজিআইএস 10.1 ব্যবহার করেন তবে গ্রুপিং বিশ্লেষণ সরঞ্জাম উপলব্ধ রয়েছে যা আপনি যা করতে চান তা সত্যিই।

আমি মনে করি- আপনি ডেলাউন ট্রায়ানগুলেশন স্থানিক সীমাবদ্ধতার সাথে একটি দলবদ্ধ বিশ্লেষণ করতে চান। এখানকার রাস্তাঘাটটি হ'ল আপনার সংযোগ বিচ্ছিন্ন গোষ্ঠীর সংখ্যার চেয়ে সমান বা তার বেশি সংখ্যক বিভাজনকারী গ্রুপ থাকা প্রয়োজন (যদি কোনও বিদেশী যদি একে অপরের প্রাকৃতিক প্রতিবেশী হয়)। অন্যথায়, প্রাকৃতিক প্রতিবেশী না থাকা আউটলিয়াররা গ্রুপিং বিশ্লেষণ থেকে কোনও গ্রুপ নিয়ে আসবে না।

তার উপর ভিত্তি করে, আমি মনে করি ডেলাউনে ত্রিভুজ্যুজনটি কোনও ফিল্টার অ্যালগরিদমের উত্স হতে পারে তবে আমি এখনও নিশ্চিত নই।

আরেকটি আপডেট: পার্টিশন.পি-তে খনন করার পরে, যে স্ক্রিপ্টটি গ্রুপিং বিশ্লেষণ সরঞ্জামটি চালায়, আমি মনে করি যে সেখানে NoNeighbors অংশের সাথে সংযুক্ত সংযোগ বিচ্ছিন্ন গ্রুপগুলির জন্য সেখানে অ্যালগরিদম ব্যবহার করা সম্ভব, যদিও আমার সেই অংশটি খনন করতে সমস্যা হচ্ছে লিপি.


(-1) এটি যাই হোক না কেন 40 পয়েন্টে প্রায় 1 টি ফেলে দেওয়ার গ্যারান্টিযুক্ত । আউটলেটারের সনাক্তকরণের জন্য এই জাতীয় কোনও পরীক্ষা ব্যবহার করা ঠিক নয়।
শুক্র

1
খাঁটি স্থানিক বিদেশিদের পরীক্ষা করার সময় এটি সত্য নয়। যদি স্থানিক বহিরাগতদের অস্তিত্ব না থাকে, তবে আপনার কাছে সেই সমস্যাটি থাকবে, তবে সেগুলি যদি উপস্থিত থাকে তবে কেবলমাত্র সেই আউটলিয়ারদের এত কম জেড স্কোরের মধ্যে পড়া উচিত। এটি সমস্তই পয়েন্টগুলির স্থানিক বিতরণের উপর নির্ভর করে।
blord-castillo

1
প্রায়: যদি আউটলিয়াররা নিজেরাই একটি ক্লাস্টার গঠন করে তবে আপনি তাদের পুরোপুরি সনাক্ত করতে ব্যর্থ হতে পারেন। (এমন একটি পরিস্থিতি বিবেচনা করুন যেখানে নাল বা স্পষ্টত খারাপ স্থানাঙ্ক ম্যাপ করা হয় (0,0) স্বয়ংক্রিয়ভাবে। তারা কত দূরে হতে পারে; তারা ক্লাস্টার করতে পারে কিনা; ইত্যাদি সাধারণ নীতি হিসাবে, পরিসংখ্যানগুলি যা বিতরণীয় অনুমানগুলি তৈরি করে (স্থানীয় মুরানের এই ব্যবহারের মতো) ততই শক্তিশালী, অ-প্যারাম্যাট্রিক পরিসংখ্যান হিসাবে কাজ করে না।
whuber

2
আমি একটি নির্দিষ্ট তাত্ত্বিক সমস্যা বিবেচনা করছিলাম, যেখানে আপনার কাছে "ভাল" জিপিএস পয়েন্ট রয়েছে এবং আপনার কাছে সীমানা বাক্সের একদিক কোণে একে অপরের শীর্ষে সজ্জিত "খারাপ" জিপিএস পয়েন্ট রয়েছে। "ভাল" পয়েন্টগুলির জন্য আগ্রহের ক্ষেত্র সম্পর্কে জ্ঞান ছাড়াই, আপনি কোন সেটটি "ভাল" এবং কোন সেটটি "খারাপ", তা পরিসংখ্যানগতভাবে আলাদা করতে পারবেন বলে আমি মনে করি না। এটি এমন সমস্যা হতে পারে যার জন্য আগ্রহের ক্ষেত্রগুলির ম্যানুয়াল উপাধি প্রয়োজন।
blord-castillo

2
এটি সঠিক: আপনি একটি বিমোডাল মাল্টিভারিয়েট বিতরণ বর্ণনা করেছেন। এই জাতীয় ক্ষেত্রে সাধারণত যা করা হয় তা হয় মিশ্রণের মডেলটির অনুমান বা ক্লাস্টার অ্যালগরিদমের প্রয়োগ। ফলাফলটি মিশ্রণ / গুচ্ছ উপাদানগুলি পৃথক করে তবে সেগুলির কোনওটিকে "আউটলিয়ার:" হিসাবে মনোনীত না করে সেই দায়িত্ব অবশ্যই ব্যবহারকারীর হাতে পড়ে fall
whuber

3

এটি বিদেশীদের তালিকা পেতে সহায়তা করতে পারে:

SELECT p1.point_id 
FROM p1 AS points, p2 AS points
WHERE p1.point_id <> p2.point_id AND
ST_Distance(p1.geom, p2.geom) > 10000

এখানে, পয়েন্ট_ইডটি আপনার পয়েন্ট টেবিলের প্রাথমিক কী হবে। দূরত্ব ফাংশনটি এমন পয়েন্টগুলি সন্ধান করবে যেখানে নিকটতমটি 10000 মিটারের চেয়ে বেশি is (আপনি অবশ্যই কোনও মান যথাযথ রাখতে পারেন)

যদি উপরের কাজ করে তবে একটি মোছার স্টেটমেন্টে পরিবর্তন করুন, এরকম কিছু:

DELETE FROM points WHERE point_id IN (
-- SELECT as above
SELECT ....
);

1
1. পয়েন্টগুলি বাছাই করা হয় না। ২. যদি ত্রুটিটি 10000 মিটারের চেয়ে কম হবে তবে কী হবে? উদাহরণস্বরূপ 150 মিটার?
স্মিমনফস

1
আমি বুঝতে পারি না। আপনার চিত্র থেকে, আমি দেখতে পাচ্ছি যে প্রায় সমস্ত পয়েন্ট একটি অঞ্চলে ক্লাস্টারযুক্ত এবং খুব অল্প সংখ্যক খুব দূরে। সমস্যা কি তাই না? যদি একটি বিন্দু অন্য থেকে 150 মিটার দূরে হয়, আপনি কীভাবে জানবেন যে এটি একটি আউটলেটর?
মিচা

1

আমি আপনাকে আরও কাজটি করতে সহায়তা করার জন্য আরও ব্যবহারিক উত্তর দেওয়ার চেষ্টা করব। (আপনি যদি অ্যালগরিদমের বিষয়ে কোনও আলোচনা খুঁজছেন তবে ক্ষমা চাই)

দৃশ্য 1: আপনি 'জিপিএস পয়েন্টস' উল্লেখ করেছেন, সুতরাং আপনার যদি মূল জিপিএস ওয়েপ পয়েন্টগুলিতে অ্যাক্সেস থাকে তবে কাজটি আরও সহজ হয়ে যায়। আপনি উচ্চ এইচডিওপি / ভিডিওপি বা দেখুন উপগ্রহের সংখ্যা সহ পয়েন্টগুলি ফেলতে পারেন - যা মূলত ত্রুটির কারণ হতে পারে। জিপিএসবাবেলের মতো একটি নিখরচায় সরঞ্জামে অন্তর্নির্মিত এগুলি রয়েছে। http://www.gpsbabel.org/htmldoc-development/Data_Filters.html

পরিস্থিতি 2: আপনি কেবল পয়েন্ট একটি সেট আছে। এর পরে সমস্যা স্থানিক বিদেশী সনাক্তকরণে পরিণত হয়। এই অঞ্চলে প্রচুর গবেষণা চলছে এবং আমি ওয়েব অনুসন্ধান থেকে এই বিষয়ে অনেকগুলি কাগজপত্র দেখতে পাচ্ছি। আপনি যদি নিজের ডেটা পরিষ্কার করতে চান, আপনি গ্রাসের ভি.আউটিলার অ্যালগরিদম ব্যবহার করতে পারেন যা আপনার ভাগ করা স্ক্রিনশটের উপর ভিত্তি করে আপনার ক্ষেত্রে কাজ করা উচিত। http://grass.osgeo.org/gdp/html_grass63/v.outlier.html


মন্তব্যের জন্য ধন্যবাদ। দুর্ভাগ্যক্রমে আমার কেবল স্থানাঙ্ক রয়েছে। জিপিএস কেবল স্থানাঙ্কের উত্স ছিল এবং আমার কাছে মূল জিপিএস ট্র্যাক অ্যাক্সেস নেই।
smirnoffs

-2

আমি মনে করি আপনার জাঙ্ক ডেটা আছে। বাস্তববাদী, আপনি যদি কিছু উপাত্ত ভুলের বিষয়টি সম্পর্কে যত্নবান হন এবং আপনি অন্য কোনও উপাদান ব্যবহার করে প্রতিটি ভুল পয়েন্ট নির্ভরযোগ্যভাবে সনাক্ত করতে না পারেন তবে আপনার বিশ্লেষণে আপনার কিছু খারাপ ডেটা থাকবে।

যদি এটি গুরুত্বপূর্ণ হয় তবে আপনার অবশ্যই মূল কারণটি নির্ণয় করে (যেমন খারাপ জিপিএস পয়েন্টগুলি মাল্টিপথ থেকে নেওয়া) বিবেচনা করা উচিত, সেই মূল কারণটিকে সম্বোধন করে (যেমন: শোকের এন্টেনা যুক্ত করা, বা আরও ভাল প্রকারের জিপিএস বা সর্বোত্তম ফিক্স হয়), এবং তারপরে ডেটা সংগ্রহ পুনরায় করা হচ্ছে।

যদি খারাপ ডেটা কোনও ব্যাপার না করে, তবে কেবল এটি ব্যবহার করুন এবং ত্রুটিগুলি উপেক্ষা করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.