গড় জিপিএস পয়েন্ট সন্ধান করা হচ্ছে


11

পয়েন্টের জনসংখ্যার থেকে গড় জিপিএস পয়েন্ট খুঁজতে আমার একটি প্রোগ্রাম লিখতে হবে।

অনুশীলনে নিম্নলিখিতটি ঘটে:

  • প্রতি মাসে কোনও ব্যক্তি একই স্থিতিশীল সম্পদের একটি জিপিএস পয়েন্ট রেকর্ড করে।
  • জিপিএসের প্রকৃতির কারণে এই পয়েন্টগুলি প্রতি মাসে কিছুটা আলাদা হয়।
  • কখনও কখনও ব্যক্তি একটি ভুল একটি ভুল একটি সম্পূর্ণ ভিন্ন স্থানে ভুল সেটাকে রেকর্ড করে।
  • প্রতিটি জিপিএস পয়েন্টের একটি নির্দিষ্ট ওজন থাকে ( এইচডিওপি ) যা বর্তমান জিপিএস ডেটা কতটা সঠিক তা নির্দেশ করে। উন্নত এইচডিপি মান সহ জিপিএস পয়েন্টগুলি নিম্নের চেয়ে বেশি পছন্দ করা হয় ..

আমি নিম্নলিখিতগুলি কীভাবে নির্ধারণ করব:

  • বয়সের মতো একক মান বনাম 2 টি মান সহ ডেটা নিয়ে ডিল করুন। (জনসংখ্যার গড় বয়স নির্ণয় করুন)
  • Outliers নির্ধারণ করুন। নীচের উদাহরণগুলিতে এগুলি হবে [-28.252, 25.018] এবং [-28.632, 25.219]
  • বহিরাগতদের বাদ দেওয়ার পরে এটিতে গড় জিপিএস পয়েন্টটি খুঁজে পেতে পারেন [-২২.৩৯, ২৫.২45৪]
  • প্রতিটি পয়েন্টের জন্য এইচডিওপি মান দ্বারা সরবরাহিত "ওজন" কাজ করতে পারলে এটি একটি বোনাস হবে।

বিকল্প পাঠ


1
এই উত্তরটি আপনাকে পয়েন্টস, স্ট্যাটস.স্ট্যাকেক্সচেঞ্জ / প্রশ্নগুলি / ২৪৯৩/২ গড় গড় সাহায্য করতে পারে , সেই কাঠামোর মধ্যে ওজন অন্তর্ভুক্ত করা সহজ। আমি মনে করি আপনি আউটলিয়ারদের সনাক্ত করতে কিছু সাধারণ হিউরিস্টিক্স ব্যবহার করতে সক্ষম হবেন, তবে এটি আপনাকে স্টিফানের পরামর্শ মতো আরও অভিজ্ঞতাবাদী পদ্ধতির গ্রহণ থেকে বিরত রাখবে না।
অ্যান্ডি ডব্লিউ

উত্তর:


8

মাল্টিভিয়ারেট ডেটাগুলির মধ্যে অন্যতম সমস্যা সিদ্ধান্ত নিয়েছে, এবং তারপরে ব্যাখ্যা করা হচ্ছে, দূরত্ব গণনা করার জন্য একটি উপযুক্ত মেট্রিক, অতএব মহালানোবিস দূরত্বের মতো চতুর তবে কিছুটা হার্ড-টু-স্পষ্ট ধারণা। তবে এই ক্ষেত্রে অবশ্যই পছন্দটি সুস্পষ্ট - ইউক্লিডিয়ান দূরত্ব । আমি একটি সাধারণ হিউরিস্টিক অ্যালগরিদম এর মতো কিছু প্রস্তাব করব:

  1. ডেটা পয়েন্টগুলির (অপরিচ্ছন্ন) সেন্ট্রয়েড গণনা করুন, অর্থাৎ 2 টি স্থানাঙ্কের (অদ্বিতীয়) উপায়
  2. সেন্ট্রয়েড থেকে সমস্ত পাঠের ইউক্যালিডিয়ান দূরত্ব গণনা করুন
  3. নির্দিষ্ট দূরত্বের চেয়ে বেশি যে কোনও পাঠ্য বাদ দিন (আপনার অভিজ্ঞতা এবং প্রযুক্তির জ্ঞানের উপর ভিত্তি করে নির্ধারণ করা, বা কিছুটা ট্রায়াল এবং ত্রুটি ক্রস-বৈধকরণ - 100 মি, 1 কিমি, 10 কিমি ??
  4. বাকি পয়েন্টগুলির উভয় কর্ডের ওজনযুক্ত গড় গণনা করুন, এইচডিওপি স্কোরের বিপরীত দ্বারা ওজন করা (বা এটির কিছু একঘেয়েমি ফাংশন) - প্রশ্নটিতে লিঙ্কিত উইকিপিডিয়া পৃষ্ঠায় আমার তাত্ক্ষণিক নজর ছিল এবং মনে হয় আপনার এ জাতীয় দরকার নেই একটি ফাংশন তবে নিশ্চিত হওয়ার জন্য আমার আরও গবেষণা করা দরকার)

এটিকে আরও পরিশীলিত করার জন্য বেশ কয়েকটি উপায় স্পষ্টভাবে রয়েছে যেমন: নিম্ন-ওজন বহিরাগতদের বা এম-এসেসেক্টরগুলি কেবল এগুলি বাদ না দিয়ে ব্যবহার করা, তবে আমি নিশ্চিত নই যে এই ধরনের পরিশীলন এখানে সত্যই প্রয়োজনীয় whether


3

রব হ্যান্ডম্যান সম্প্রতি বহুবিধ ডেটাতে বিদেশী সনাক্তকরণ সম্পর্কে একটি প্রশ্ন তুলেছিল । উত্তরগুলি কয়েকটি সম্ভাব্য পন্থা সরবরাহ করতে পারে (এবং অন্যথায়, আপনি 2-d আউটরিয়ারদের পৃথক প্রশ্নের সন্ধানের প্রশ্নটি রাখতে পারেন)।

এবং আপনি উপাদানগুলির দ্বারা আপনার অবশিষ্ট জিপিএস ডেটা উপাদানকে গড় করতে পারেন - সমস্ত প্রথম উপাদান যুক্ত করুন এবং পয়েন্টের সংখ্যা দ্বারা ভাগ করুন, এটি আপনাকে গড়ের প্রথম উপাদান দেবে। দ্বিতীয় উপাদানগুলির সাথে একই।

এই গড়কে ওজন এইচডিওপি দ্বারা দেওয়া যেতে পারে। প্রথম অংশের পণ্যগুলি সংযুক্ত করুন, সম্পর্কিত এইচডিওপি স্কোরের সাথে গুণিত করুন এবং এইচডিওপি স্কোরগুলির যোগফলকে যোগফলকে ভাগ করুন। দ্বিতীয় উপাদানগুলির সাথে একই।

আমি "স্বাভাবিক-বিতরণ" ট্যাগ সরানোর স্বাধীনতা গ্রহণ করব ...


ধন্যবাদ @ স্টেফান কোলাছা, এটি ইতিমধ্যে সমাধান খুঁজে পেতে সাহায্য করবে।
ফিলিপ ফৌরি

2

এইচডিওপি কে স্বাধীন ভেরিয়েবল বলুন। এটি পরে ওজন করার জন্য ব্যবহার করুন। সুতরাং আপনার সমন্বয়গুলির সেট রয়েছে - এটিকে কল করুন (x1, y1); (x2, y2), ইত্যাদি ... প্রথমে বিদেশীদের অগ্রাহ্য করুন। [(X1 * এইচ 1) + (x2 * এইচ 2) + .... + (এক্সএন * এইচএন)] / [সমষ্টি (এইচ 1, এইচ 2, ..., এইচএন)] এর ওজনিত গড় গণনা করুন যেখানে এইচ 1, এইচ 2, ... এইচডিওপি মান। ওয়াই কো-অর্ডিনেটসের জন্যও এটি করুন। এটি প্রতিটি সহ-সমন্বয়ের জন্য মোটামুটি সঠিক গড় মান দেবে।

আউটলিয়ারদের সাথে ডিল করা কিছুটা জটিল হতে পারে। তারা কীভাবে বহিরাগত হয় তা কীভাবে জানবেন? কঠোরভাবে আপনাকে পর্যবেক্ষণগুলির জন্য একটি পরিসংখ্যানগত ফিট নির্ধারণ করতে হবে এবং একটি আস্থার ব্যবধানের মধ্যে নির্ধারণ করা উচিত যে তারা আসল কিনা। বিষের বিতরণটি প্রশ্নটি দেখে মনে আসে। তবে এটি সম্ভবত অনেক কাজ এবং আমি নিশ্চিত যে আপনি এটিতে যেতে চান না। সম্ভবত একটি অনুমান ব্যবহার করবেন? বলুন যে আপনি ধরে নিয়েছেন যে গড় সহ-সমন্বিত মানটি ব্যবহারের জন্য একটি ভাল গড়। তারপরে স্ট্যান্ডার্ড বিচ্যুতির জন্য একটি মান নির্ধারণ করুন। আমি মনে করি স্ট্যান্ডার্ড দেব বা বিষ বিতরণ 1 / (গড়)। তারপরে স্বাভাবিক বিতরণ এবং 95% আত্মবিশ্বাসের ব্যবধান ব্যবহার করে আনুমানিক। বলুন যে কোনও পর্যবেক্ষণ যদি বিরতির বাইরে থাকে (অর্থ- * 1.645 * এসটিডি দেব; মানে + 1.645 * এসডি ডি) তবে এটি কি বহিরাগত? এই একবার যেতে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.