ক্লাস্টারিং ট্র্যাজেটরিজ (জিপিএস ডেটার (x, y) পয়েন্ট) এবং ডেটা মাইনিং


14

মানব কামানের বলের জন্য অফিসে মাত্র আর একদিন।

জিপিএস ডেটাसेट বিশ্লেষণ করার জন্য আমার কাছে দুটি প্রশ্ন রয়েছে।

1) ট্র্যাজেক্টরিগুলি এক্সট্রাক্ট করা আমার কাছে ফর্মটির রেকর্ড জিপিএস স্থানাঙ্কের একটি বিশাল ডাটাবেস রয়েছে (latitude, longitude, date-time)। একটানা রেকর্ডের তারিখ-সময় মান অনুসারে, আমি ব্যক্তি দ্বারা অনুসরণ করা সমস্ত ট্র্যাজেক্টরি / পথগুলি বের করার চেষ্টা করছি। এই ক্ষেত্রে; সময় থেকে বলুন M, (x,y)যুগগুলি অবিচ্ছিন্নভাবে সময় পর্যন্ত পরিবর্তন হচ্ছে N। এর পরে N, (x,y)জোড়গুলির পরিবর্তন হ্রাস পায়, যার পর্যায়ে আমি উপসংহারে পৌঁছে যে পথে সময় সময় নেওয়া Mহয়েছেNএকটি ট্র্যাজেক্টোরি বলা যেতে পারে। ট্র্যাজেক্টরিগুলি নিষ্কাশন করার সময় এটি কি একটি শালীন পদ্ধতি অনুসরণ করা উচিত? আপনার কাছে প্রস্তাবিত কোনও সুপরিচিত পন্থা / পদ্ধতি / অ্যালগরিদম রয়েছে কি? আপনি কি কোনও কার্যকর পদ্ধতিতে এই পয়েন্টগুলি বজায় রাখার জন্য আমাকে পরামর্শ দিতে চান এমন কোনও ডেটা স্ট্রাকচার বা ফর্ম্যাট রয়েছে? সম্ভবত, প্রতিটি ট্র্যাজেক্টোরির জন্য, বেগ এবং ত্বরণটি নির্ণয় করা কার্যকর হবে?

২) ট্র্যাজেক্টরিগুলি খনন করে একবার আমি সমস্ত ট্র্যাজেক্টরিগুলি অনুসরণ করে / পাথগুলি গ্রহণ করি, আমি কীভাবে তাদের তুলনা / ক্লাস্টার করতে পারি? আমি জানতে চাই যে শুরু বা শেষ পয়েন্টগুলি যদি একই হয় তবে মধ্যবর্তী পথগুলি কীভাবে তুলনা করা যায়?

আমি কীভাবে 2 টি পাথ / রুটগুলির তুলনা করব এবং সেগুলি সমান কিনা তা উপসংহারে পৌঁছে যাব। উপরন্তু; আমি কীভাবে একই পথগুলিকে একসাথে ক্লাস্টার করব?

আপনি যদি আমাকে এই বিষয়ে কোনও গবেষণা বা অনুরূপ কিছুতে নির্দেশ করতে পারেন তবে আমি এটির খুব প্রশংসা করব।

পাইথনে বিকাশ হবে তবে গ্রন্থাগারের সকল ধরণের পরামর্শ স্বাগত।

আমি স্ট্যাক ওভারফ্লোতে ঠিক একই প্রশ্নটি /programming/4910510/compering-clustering-trajectories-gps-data-of-xy-pPoint-and-mining-the-data খুলছি। ভেবেছিলাম আমি এখানে আরও উত্তর পেতে পারি ...


1
একটি ভাল উত্তর আপনি কেন এই বিশ্লেষণ করছেন তা মনোযোগ দেবে । আপনার "ব্যক্তিরা" কোন ক্রিয়াকলাপ করছেন? এই প্রসঙ্গে একটি "ট্র্যাজেক্টরি" দ্বারা আপনি কী বোঝাতে চাইছেন? আপনি কেন ট্র্যাজেক্টরিজগুলিতে আগ্রহী? ট্রাজেক্টরিজগুলি "অনুরূপ" হওয়ার অর্থ কী ? আপনার স্পষ্টতা যথাযথ উত্তর প্রস্তাব করবে; কোনও ব্যাখ্যা ছাড়াই, উপযুক্ত উত্তর পাওয়া ভাগ্য এবং অনুমানের বিষয় হবে।
whuber

ঠিক আছে, আমি সেই ব্যক্তির প্রতিদিনের রুটিনটি বের করতে আগ্রহী; তিনি কোথায় দৈনিক / সাপ্তাহিক / মাসিক ভিত্তিতে যান এবং সেখানে যাওয়ার সময় তিনি সাধারণত কোন কোন পথ / রুট অনুসরণ করেন? তিনি কোন পথটি খুব কমই অনুসরণ করেন?
মুরাত

ডাটাবেসটিতে এক সেকেন্ডের জন্য 1-2 সেকেন্ডের ফ্রিকোয়েন্সি সহ লোকের রেকর্ড জিপিএস পয়েন্ট থাকে। আমি জানি না তারা কী করছে; আসলে, আমি এটি আগ্রহী
মুরাত

1
@ মুরত ঠিক আছে, ভাল। আরও সুনির্দিষ্ট করা যাক। কোনও ব্যক্তি যখন কোনও বাড়ি বা অফিসের আশেপাশে ঘুরে বেড়ান, আপনি কি এটিকে স্থির বলে মনে করবেন বা আপনিও সেই ট্রাজেক্টোরিগুলি ট্র্যাক করার চেষ্টা করছেন? আপনি যখন দুটি ট্রাজেক্টোরিজগুলি "অনুরূপ" বলছেন আপনি কি বোঝাতে চাইছেন যে তারা বিন্দু A এবং B এর মধ্যে একই পথ অনুসরণ করেছে বা তারা উভয় বিন্দু A থেকে পয়েন্ট B তে চলেছে (সম্ভবত বিভিন্ন পথ দিয়ে, তবে থামিয়ে না দিয়ে), বা অন্য কিছু? বিটিডাব্লু, আপনার ডেটা সম্পূর্ণ হয়েছে বা - যেমনটি একজনের প্রত্যাশা হয় - এমন কোনও সময়কাল থাকে যখন ডেটাগুলি অনুপস্থিত থাকে বা ভুল হতে পারে বলে জানা যায়?
whuber

1
@ ব্যবহারকারী 5013 - মাইক্রোসফ্ট রিসার্চ কী প্রকাশ করেছে তা একবার দেখুন। এতে "প্রায় 1.2 মিলিয়ন কিলোমিটার এবং 48,000+ ঘন্টা সময়কালের মোট দূরত্ব সহ 17,621 ট্রাজেক্টোরি রয়েছে" " research.microsoft.com/en-us/downloads/...
Murat

উত্তর:


2

দুটি নিবন্ধ যা আপনার সম্ভবত আগ্রহী হবে, কারণ সেগুলির আপনার একই রকম অনুপ্রেরণা রয়েছে:

মানব চলাফেরায় অনুমানের সীমা লিখেছেন: চাওমিং সং, জেহুই কো, নিকোলাস ব্লুম, অ্যালবার্ট-লজল্লা বড়বিসি। বিজ্ঞান , খণ্ড। 327, নং 5968. (19 ফেব্রুয়ারী 2010), পৃষ্ঠা 1018-1021।

পৃথকভাবে মানুষের চলাফেরার ধরণগুলি বোঝার দ্বারা: মার্টা সি গঞ্জালেজ, সিজার এ হিদালগো, অ্যালবার্ট-লাসজলো বড়বাসি। প্রকৃতি , খণ্ড 453, নং 7196. (05 জুন ২০০ 2008), পৃষ্ঠা 779-782।

নোট করুন যে দুটি স্টাডিতে একই ডেটা ব্যবহার করা হয়েছে যা আপনার অনুরূপ তবে স্থান বা সময়ে নির্ভুলতার স্তরে নয়। আপনি যেটিকে ট্রাজেক্টোরি হিসাবে সন্ধান করতে চান তা আমি কী বর্ণনা করব তা আমি ভাবি না, তবে আমি এটি কী বলব তা নিশ্চিত নই। আপনি কেন আপনার "ট্র্যাজেক্টরিজ" এর শুরু / শেষ নোডগুলি ক্লাস্টার করতে চান।


2

পাইসএল - পাইথন স্পেসিয়াল অ্যানালাইসিস লাইব্রেরিটি একটি ভাল শুরু হতে পারে - http://code.google.com/p/pysal/

স্বতঃসংশ্লিষ্ট বিভাগের বিশদ বিবরণ:

স্থানিক স্বতঃসংশোধন স্থানিক ইউনিটগুলির একটি সেট জুড়ে অ্যাট্রিবিউট মানগুলির অ-র্যান্ডম প্যাটার্নের সাথে সম্পর্কিত। এটি দুটি সাধারণ রূপ নিতে পারে: ধনাত্মক স্বতঃসংশ্লিষ্টতা যা মহাকাশের মান সাদৃশ্য প্রতিফলিত করে এবং নেতিবাচক স্বতঃসংশোধন বা স্থানের মধ্যে ভিন্নতার মান value উভয় ক্ষেত্রেই স্বতঃসংশ্লিষ্টতা দেখা দেয় যখন পর্যবেক্ষণ স্থানিক প্যাটার্নটি স্থানটিতে একটি এলোমেলো প্রক্রিয়া অনুসারে প্রত্যাশার চেয়ে আলাদা হবে what

http://pysal.org/1.2/users/tutorials/autocorrelation.html

আপনি পয়েন্ট প্যাটার্ন বিশ্লেষণের জন্য আর লাইব্রেরিগুলি http://cran.r-project.org/web/views/Spatial.html ব্যবহার করেও বিবেচনা করতে পারেন ।

অন্যান্য আর প্যাকেজ:

প্রাণী ট্র্যাকিংয়ের জন্য স্থানিক ডেটা অ্যাক্সেস এবং পরিচালনা করার জন্য কাজগুলি। গতির জন্য ফিল্টার এবং পশুর ট্র্যাক ডেটা থেকে সময় কাটানো প্লট তৈরি করুন।

যদি আপনি ওএসএম থেকে উপলব্ধ বিদ্যমান লিনিয়ার ট্রান্সপোর্ট নেটওয়ার্ক (রাস্তা / রেল) এর পয়েন্টগুলি স্ন্যাপ করেন তবে এটি বিশ্লেষণকে সহজতর করতে পারে। তারপরে আপনি এই লাইনগুলির ভিত্তিতে এবং দিনের নির্দিষ্ট সময়ে কতজন লোক এগুলি ব্যবহার করে তার উপর ভিত্তি করে প্রতীকী করতে পারেন।


প্রশ্নের প্রসঙ্গ দেওয়া স্বতঃসংশ্লিষ্টতা পরীক্ষা করার পরামর্শ দিলে কোনও লাভ হয় না। স্বতঃসম্পর্ক কোন বৈশিষ্ট্যের সাথে?
অ্যান্ডি W

দিনের বিভিন্ন সময়ে কোনও শহর বা শহরের কোন অঞ্চল ব্যবহৃত হয় তা দেখতে জিপিএস রিডিংয়ের জন্য টাইম স্ট্যাম্প ব্যবহার করা যেতে পারে। যদিও এটি পরিষ্কার নয় যে প্রাথমিক গবেষণাটি লোকেরা কী করে বা কীভাবে লোকেরা সেখানে যায় তা খুঁজে পাওয়া যায়।
ভৌগোলিক

এছাড়াও ব্যক্তিদের জন্য নিবিড়ভাবে সম্পর্কিত পয়েন্টগুলির সাথে উত্পন্ন পয়েন্টের ডেটাসেটটি গোষ্ঠীভুক্ত এবং একটি "সময়কাল" পরামিতি বিশ্লেষণ করা যেতে পারে
ভূগোলের

আপনার প্রথম মন্তব্যটি বিশ্লেষণের একককে স্থান থেকে স্থান পরিবর্তন করে। যদিও আমি সম্মত হয়েছি যে প্রশ্নটি কিছুটা দ্বিধাদায়ক, ওপিতে ক্লাস্টার করতে চাইলে অন্তর্নিহিত করার কিছুই নেই। আমি দ্বিতীয় মন্তব্যে একটি আর্গুমেন্ট দেখতে পাচ্ছি (একটি পয়েন্টের বেগের একটি বৈশিষ্ট্য রয়েছে)। একটি আকর্ষণীয় ধারণাটি হলেও এটি বেশ বিমূর্ত এবং উপন্যাস, সুতরাং আমি মনে করি না যে এটি স্থানিক অটো-পারস্পরিক সম্পর্ক পরীক্ষা করার পরামর্শ দেওয়ার পক্ষে যথেষ্ট অর্থবোধ করেছে এবং বিভ্রান্ত হওয়ার সম্ভাবনা রয়েছে (আপনি পুরো কাঠামোর মধ্যে নয়, সেই কাঠামোর মধ্যে পয়েন্ট ক্লাস্টার করতে পারেন)। আমি সম্মত হই যদিও পাইসাল এবং আর গ্রন্থাগারগুলি আগ্রহী হবে।
অ্যান্ডি ডব্লিউ

2

যদিও আমি আপনার লোকের গতিপথ বা পথ সম্পর্কে খুব বেশি মন্তব্য করতে পারি না, আমি মনে করি আপনি ক্লাস্টার এবং সময় পদ্ধতির সাথে সঠিক পথে রয়েছেন।

আমি একসঙ্গে Esri ইউসি জন্য একটি ডেমো গত বছর এ উপলব্ধ স্নো চিতাবাঘ সংরক্ষণের কিছু মানুষের সাথে কাজ করার সময় করা: http://resources.arcgis.com/gallery/file/geoprocessing/details?entryID=1F9F376F-1422-2418 -7FBC-C359E9644702

এটি প্রদত্ত মানদণ্ডের উপর ভিত্তি করে স্নো চিতাবাঘের "ফিডিং সাইটগুলি" (গুচ্ছ) দেখায়:

  • এই পয়েন্টগুলি কীভাবে শ্রেণিবদ্ধ করা হয়েছিল (একে অপরের থেকে দূরত্ব)
  • পয়েন্টগুলির সর্বনিম্ন প্রান্তিক স্তরের (আমার বিশ্লেষণের জন্য প্রতি 12 ঘন্টা সময় ধরে পাঠাগার নেওয়া হয় তাই 4+ পয়েন্টের প্রয়োজন)
  • পয়েন্টগুলি অবশ্যই অনুক্রমিক হতে হবে (বিশ্লেষণের সহজ অংশ হিসাবে তারা একটি রৈখিক ক্রমে সংগ্রহ করা উচিত)

এটি দূরত্ব বিশ্লেষণ করতে এসরি সরঞ্জামগুলি ব্যবহার করার সময়, ভিতরে থাকা পাইথন স্ক্রিপ্টটি আপনাকে ক্লাস্টারিং আইডিয়াটি সাহায্য করতে পারে একবার আপনি যখন জানবেন যে একে অপরের কাছাকাছি কী রয়েছে। (এটি গ্রাফ তত্ত্ব ব্যবহার করে: http://en.wikedia.org/wiki/Graph_theory )

অন্যান্য উত্তরে উল্লিখিত হিসাবে, সিদ্ধান্তগুলি গ্রহণের প্রয়োজন এমন বৈশিষ্ট্যগুলি নির্ধারণ করতে সেখানে কাগজপত্র রয়েছে।

বিশ্লেষণগুলি নলফ, কেএইচ, এআরএ নফ্ফ, এমবি ওয়ারেন এবং এমএস বয়েস থেকে প্রাপ্ত ধারণাগুলির উপর ভিত্তি করে আলগাভাবে তৈরি হয়েছিল। 2009. কোগার পূর্বাভাস পরামিতি অনুমানের জন্য গ্লোবাল পজিশনিং সিস্টেম টেলিমেট্রি কৌশলগুলি মূল্যায়ন। ওয়াইল্ড লাইফ ম্যানেজমেন্ট জার্নাল 73: 586-597।


2

আপনার ট্র্যাজিকোলজির সেটটিতে যে কোনও ধরণের ক্লাস্টারিং চালানোর জন্য আপনার ট্র্যাজেক্টোরি জোড়াগুলির মিল বা দূরত্বের গণনা করার উপায় থাকতে হবে। এর জন্য বেশ কয়েকটি বিদ্যমান পদ্ধতি রয়েছে এবং বিশেষ ক্ষেত্রে বা theতিহ্যবাহী সমস্যাগুলির একটি ঘাটতি সমাধানের জন্য নতুন তৈরি করা হচ্ছে (আমি ব্যক্তিগতভাবে আমার পিএইচডি থিসিসের জন্য নতুনটিতে কাজ করছি)। সুপরিচিত অ্যালগরিদম নিম্নলিখিত:

  • ঘনিষ্ঠতম জোড়ার দূরত্ব: একে অপরের নিকটবর্তী যে বিন্দু জোড়ার দূরত্ব দ্বারা কেবল 2 টি ট্র্যাজিকোলজির দূরত্ব নির্ধারণ করুন। ট্রাজিলোরিজগুলিতে একই সংখ্যক পয়েন্ট থাকতে হবে।
  • জোড়া দূরত্বের যোগফল: প্রতিটি পয়েন্ট জোড়ার জন্য দূরত্ব গণনা করুন এবং সেগুলি যুক্ত করুন। ট্র্যাজেক্টরিগুলি একই দৈর্ঘ্যের হয় তবেই কাজ করে
  • ডায়নামিক টাইম ওয়ার্পিং (ডিটিডাব্লু) দূরত্ব: এই অ্যালগরিদমটি পরিমাপক পয়েন্টগুলির বিভিন্ন পরিমাণের ট্র্যাজেক্টরিগুলি পরিচালনা করতে বিকাশ করা হয়েছিল। এটি পয়েন্ট জোড়গুলিতে কাজ করে এবং জোড়ার দূরত্ব গণনায় এক ট্রাজেক্টোরির পয়েন্টকে একাধিকবার ব্যবহার করার অনুমতি দেয়, যদি অন্যটি "খুব দ্রুত" চালিত হয়। ডিটিডব্লিউ চিত্রণ( উইকিপিডিয়া থেকে চিত্র )
  • দীর্ঘতম সাধারণ subsequence: নামটি হিসাবে বোঝা যায়, এটি দীর্ঘতম সাব-ট্র্যাজেক্টোরির দৈর্ঘ্য দ্বারা দুটি ট্র্যাজিকোলজির মিলকে সংজ্ঞায়িত করে যেখানে মূল পথগুলি একে অপরের কাছাকাছি ভ্রমণ করে।
  • রিয়েল সিকোয়েন্স (ইডিআর) -এর দূরত্ব সম্পাদনা করুন এবং রিয়েল পেনাল্টির সাথে সম্পাদনা দূরত্ব (ইআরপি) সম্পাদনা ক্রিয়াকলাপের (সংযুক্তকরণ, অপসারণ বা প্রতিস্থাপন) সংখ্যার দ্বারা মিলকে সংজ্ঞায়িত করে যা ট্র্যাজেক্টরিগুলির একটিকে অন্যটিতে রূপান্তর করতে প্রয়োজন।

আপনি যদি এই ক্ষেত্রের মধ্যে থাকেন তবে আমি মাইক্রোসফ্ট এশিয়া গবেষকগণের বেশ কয়েকটি "কম্পিউটারিং উইথ স্পেসিয়াল ট্র্যাজেজরিজ" নামক বইটি সুপারিশ করছি।


0

এটি আপনার পক্ষেও সহায়ক হতে পারে:

ওরেলানা ডি, ওয়াচওইকজ এম। পথচারীদের গতিবিধিতে চলাচল স্থগিতের নিদর্শনগুলি অনুসন্ধান করে। জিওগার এনাল 2011; 43 (3): 241-60। পাবমেড পিএমআইডি: 22073410।

এই ব্লগটি একবার দেখুন:

ideasonmovement.wordpress.com/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.