বিভিন্ন ধরণের ইভেন্টের (তাদের 2 ডি অবস্থানের দ্বারা সংজ্ঞায়িত) মধ্যে সম্পর্ক কীভাবে পাওয়া যায়?


9

আমার একই ইভেন্টগুলির একটি ডেটাসেট রয়েছে যা একই সময়ের মধ্যে ঘটেছিল। প্রতিটি ইভেন্টের একটি ধরণ থাকে (কয়েকটি ভিন্ন ধরণের থাকে, দশের কম হয়) এবং একটি অবস্থান, যা 2D পয়েন্ট হিসাবে উপস্থাপিত হয়।

আমি যাচাই করতে চাই ইভেন্টগুলির ধরণের মধ্যে বা টাইপ এবং অবস্থানের মধ্যে কোনও সম্পর্ক আছে কিনা। উদাহরণস্বরূপ, সাধারণত A টাইপের ইভেন্টগুলি সাধারণত ঘটে না যেখানে বি টাইপের ইভেন্টগুলি ঘটে। বা সম্ভবত কিছু এলাকায়, বেশিরভাগ ক্ষেত্রে সি টাইপের ঘটনা ঘটে mostly

এটি সম্পাদন করতে আমি কী ধরণের সরঞ্জাম ব্যবহার করতে পারি? পরিসংখ্যানগত বিশ্লেষণে একজন নবজাতক হওয়ার কারণে, আমার প্রথম ধারণাটি ছিল এই ডাটাসেটে কিছু প্রকারের পিসিএ (প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ) ব্যবহার করে দেখার জন্য যে প্রতিটি ধরণের ইভেন্টের নিজস্ব উপাদান রয়েছে, বা কিছু কিছু একইরকম ভাগ করেছে (অর্থাত্ সম্পর্কযুক্ত)?

আমার উল্লেখ করতে হবে যে আমার ডেটাসেটটি 500'000 পয়েন্টের ক্রম (x,y,type), এইভাবে মোকাবেলা করা জিনিসগুলিকে কিছুটা শক্ত করে তোলা।

সম্পাদনা: নীচের উত্তর এবং মন্তব্যে যেমন উল্লিখিত হয়েছে, যাওয়ার উপায় হ'ল এটিকে চিহ্নিত বিন্দু প্রক্রিয়া হিসাবে মডেল করা এবং তারপরে আর-কে সমস্ত ভারী-উত্তোলন করার জন্য ব্যবহার করুন, যেমন এই কর্মশালার প্রতিবেদনে বিশদে বর্ণিত: http: / /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


এটি কি কোনও রেস্টার ডেটাসেট, যেমন (প্রক্রিয়াজাত) দূরবর্তী সংবেদনযুক্ত চিত্র, বা এটি কোনও অনিয়মিত ডেটাসেট?
whuber

ওয়েল, আমি আপনি এটা অনিয়মিত কল চাই: এটা অপরাধের যে একটি প্রদত্ত মাসে যুক্তরাজ্যে ঘটেছে রেকর্ডিং, এখানে উপলব্ধ: police.uk/data
Wookai

@ উকাই এক মাসে যুক্তরাজ্যে 500,000,000 অপরাধ ?? কি অরাজকতা ব্রিটিশ দ্বীপপুঞ্জের সংবাদমাধ্যমে অপ্রত্যাশিতভাবে অবতরণ করেছে, কেবল শেষ পর্যন্ত পুলিশি ফাইলগুলিতে প্রকাশিত হতে পারে? :-) আমি এই পরিমাণের 1/100 তম সম্পর্কে বিশ্বাস করতে পারি - সবেমাত্র।
whuber

বাহ, আমি এই "টাইপো" এর জন্য সত্যই দুঃখিত!)! এটি আসলে 1000 গুণ কম, 500'000 অপরাধ ("যানবাহনের অপরাধ" গণনা করা, অর্থাৎ গতির টিকিট ইত্যাদি)।
Wookai

1
হ্যাঁ, আর যাওয়ার পথ দেখছে! আমি আর এর স্পাটস্যাট মডিউলে একটি কর্মশালার একটি সম্পূর্ণ রিপোর্ট পেয়েছি, যা আমি যা খুঁজছি ঠিক তা করে: csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

উত্তর:


3

আপনি যে ধরণের ডেটা বর্ণনা করেন তা ususally "চিহ্নিত পয়েন্ট প্যাটার্নস" বলা হয়, আর এর স্থানিক পরিসংখ্যানগুলির জন্য একটি টাস্ক ভিউ রয়েছে যা এই ধরণের বিশ্লেষণের জন্য অনেকগুলি ভাল প্যাকেজ সরবরাহ করে, যার মধ্যে বেশিরভাগ সম্ভবত আপনি যে ধরণের ডেঙ্গু ডেটা ব্যবহার করতে পারেন তা সম্ভবত পরিচালনা করতে সক্ষম নন আছে :(

উদাহরণস্বরূপ, সাধারণত A টাইপের ইভেন্টগুলি সাধারণত ঘটে না যেখানে বি টাইপের ইভেন্টগুলি ঘটে। বা সম্ভবত কিছু এলাকায়, বেশিরভাগ ক্ষেত্রে সি টাইপের ঘটনা ঘটে mostly

এগুলি দুটি মোটামুটি ভিন্ন ধরণের প্রশ্ন: দ্বিতীয়টি এক ধরণের চিহ্ন / ইভেন্টের অবস্থান সম্পর্কে জিজ্ঞাসা করে। এই প্রসঙ্গে সন্ধানের জন্য বুজওয়ার্ডগুলি হ'ল ফী তীব্রতা অনুমান বা কে-ফাংশন অনুমান যদি আপনি ক্লাস্টারিংয়ের ধরণগুলি আবিষ্কার করতে আগ্রহী হন (কোনও ধরণের ইভেন্টগুলি একসাথে দলবদ্ধ হয়) বা বিকর্ষণ (কোনও ধরণের ঘটনা পৃথক হওয়ার প্রবণতা হয়)। প্রথমটি বিভিন্ন ধরণের ঘটনার মধ্যে পারস্পরিক সম্পর্ক সম্পর্কে জিজ্ঞাসা করে। এটি সাধারণত চিহ্ন সম্পর্কিত ফাংশন দিয়ে পরিমাপ করা হয়।

আমি মনে করি আরও ট্র্যাকটেবল ডেটা আকার পেতে ডেটা সাবমল করা বিপজ্জনক (@ হাম্নারের জবাবটিতে মন্তব্য দেখুন) তবে সম্ভবত আপনি আপনার ডেটা একত্রিত করতে পারেন: পর্যবেক্ষণ উইন্ডোটিকে সমান আকারের কোষের একটি ম্যানেজযোগ্য সংখ্যায় বিভক্ত করুন এবং ইভেন্টের গণনাগুলিকে সারণী করুন প্রতিটি। তারপরে প্রতিটি ঘর তার কেন্দ্রের অবস্থান এবং আপনার 10 চিহ্ন প্রকারের জন্য একটি 10 ​​ভেক্টর গণনা দ্বারা বর্ণিত হয়। এই একত্রিত প্রক্রিয়াটিতে চিহ্নিত পয়েন্ট প্রক্রিয়াগুলির জন্য আপনার স্ট্যান্ডার্ড পদ্ধতিগুলি ব্যবহার করতে সক্ষম হওয়া উচিত।


আমি চিহ্নিত পয়েন্ট প্রক্রিয়া এবং কিছু সম্পর্কিত তাত্ত্বিক সরঞ্জামগুলির সাথে পরিচিত, আমার এটি সম্পর্কে আগে চিন্তা করা উচিত ছিল। কীওয়ার্ডগুলির জন্য অনেক ধন্যবাদ, এগুলির জন্য সম্ভবত আপনার কয়েকটি পয়েন্টার রয়েছে? সমষ্টিগত ধারণার জন্য ধন্যবাদ, আমারও অনুরূপ ছিল, এটি করার চেষ্টা করব।
Wookai

2
পিটার ডিগল একটি "মডেল ভিত্তিক ভূ-তাত্ত্বিক" লিখেছেন। এই পৃষ্ঠায় ল্যাঙ্কাশায়ার অপরাধের ডেটা বিশ্লেষণও করেছেন: lancs.ac.uk/staff/diggle/MADE যা আপনাকে কিছু ভাল ধারণা দিতে পারে।
কবিরা

1

প্রথমত, ডেটাসেটের আকার। আমি ডেটাসেটের ছোট, ট্র্যাকটেবল নমুনাগুলি গ্রহণ করার পরামর্শ দিচ্ছি (হয় এলোমেলোভাবে এন ডেটাপয়েন্টগুলি বেছে নিয়ে, বা এলোওয়ালিভাবে এক্সওয়াই বিমানের কয়েকটি অপেক্ষাকৃত ছোট আয়তক্ষেত্র বেছে নিয়ে এবং সেই বিমানের মধ্যে যে সমস্ত পয়েন্ট রয়েছে সেগুলি গ্রহণ করে) এবং তারপরে এই উপসেটটিতে আপনার বিশ্লেষণ কৌশলগুলি সম্মান করে। বিশ্লেষণের যে রূপটি কার্যকর হয় সে সম্পর্কে একবার ধারণা হয়ে গেলে আপনি এটি ডেটাসেটের বৃহত্তর অংশে প্রয়োগ করতে পারেন।

পিসিএ প্রাথমিকভাবে একটি মাত্রিকতা হ্রাস কৌশল হিসাবে ব্যবহৃত হয়; আপনার ডেটাসেটটি মাত্র তিনটি মাত্রা (যার মধ্যে একটি শ্রেণিবদ্ধ), তাই আমার সন্দেহ হয় এটি এখানে প্রয়োগ হয়।

এক্সওয়াই প্লেনে আপনি যে পয়েন্টগুলি বিশ্লেষণ করছেন (বা তাদের সম্পূর্ণ ঘনত্বের ডেটা পুরো ডেটা সেট নিয়ে কাজ করছেন), এবং পৃথক প্রকার এবং সমস্ত ধরণের সম্মিলিত উভয়ের জন্য এবং কী ধরণের দৃশ্যমানভাবে উদ্ভূত হয়েছে তা দেখার জন্য মতলব বা আর এর সাথে কাজ করার চেষ্টা করুন। এটি আরও কঠোর বিশ্লেষণে সহায়তা করতে পারে।


1
এটি যথাযথ কিনা তা নির্ভর করে আপনি ইতিমধ্যে যা জানেন বা আপনার ডেটা উত্পাদন প্রক্রিয়া সম্পর্কে ধারনা রেখেছেন তার উপর নির্ভর করে। অঞ্চল অনুসারে ডেটা সাবম্যাম্পলিং (যেমন কিছু পূর্বনির্ধারিত ছোট উইন্ডোয় সমস্ত পয়েন্ট গ্রহণ করা) এটি একজাতীয় না হলে বিপজ্জনক হতে পারে (কারণ একটি ভিন্ন উইন্ডো ব্যবহার করা আপনার সিদ্ধান্তে পরিবর্তন আনতে পারে)। কোনও প্রশিক্ষণ সংস্থার জন্য অবস্থান নির্বিশেষে ডেটা স্যাম্পলিং করা পর্যবেক্ষণ প্রক্রিয়াটিকে "পাতলা" করার প্রভাব ফেলে এবং আপনি যে ফলাফলগুলি আঁকতে চান তা অবৈধ করে দেয় উদাহরণস্বরূপ চিহ্ন বা ক্লাস্টারিং / বিকর্ষণ প্রক্রিয়াগুলির মধ্যে পারস্পরিক সম্পর্কের পরিসীমা।
কবিরা 17

হ্যাঁ, আমি জানি যে পিসিএ মাত্রিকতা হ্রাসের জন্য, তাই আমি কীভাবে এটি আমার ডেটাসেটে প্রয়োগ করতে পারি তা নিয়ে আমি বিভ্রান্ত হয়ে পড়েছিলাম। ধারণাটি ছিল প্রতিটি ইভেন্টের ধরণের নিজস্ব "দিকনির্দেশনা" আছে বা কেউ কেউ "একই দিকটি ভাগ করেছেন" কিনা তা দেখার জন্য। তবে আমার ধারণা আমি কেবল পারস্পরিক সম্পর্ক নিয়ে ভাবছিলাম।
Wookai
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.