আমার কাছে আমেরিকা যুক্তরাষ্ট্র জুড়ে আবহাওয়া স্টেশনগুলির একটি নেটওয়ার্কের ডেটা রয়েছে। এটি আমাকে একটি ডেটা ফ্রেম দেয় যাতে তারিখ, অক্ষাংশ, দ্রাঘিমাংশ এবং কিছু পরিমাপ করা মান থাকে। ধরে নিন যে প্রতিদিন একবার ডেটা সংগ্রহ করা হয় এবং আঞ্চলিক আকারের আবহাওয়া দ্বারা চালিত হয় (না, আমরা সেই আলোচনায় যাব না)।
আমি গ্রাফিক্যভাবে কীভাবে একসাথে পরিমাপ করা মানগুলি সময় এবং স্থান জুড়ে পারস্পরিক সম্পর্কযুক্ত তা দেখাতে চাই। আমার লক্ষ্যটি তদন্ত করা হচ্ছে যে মানটির আঞ্চলিক একতা (বা এর অভাব) দেখানো।
ডেটা সেট
শুরু করার জন্য, আমি ম্যাসাচুসেটস এবং মেইন অঞ্চলে একাধিক স্টেশন নিয়েছি। আমি কোনও সূচি ফাইল থেকে অক্ষাংশ এবং দ্রাঘিমাংশ দ্বারা সাইটগুলি নির্বাচন করেছি যা NOAA এর FTP সাইটে উপলব্ধ on
অবিলম্বে আপনি একটি সমস্যা দেখতে পাচ্ছেন: এমন অনেকগুলি সাইট রয়েছে যা একই রকম শনাক্তকারী বা খুব কাছাকাছি রয়েছে। এফডাব্লুআইডাব্লু, আমি তাদের ইউএসএএফ এবং ডাব্লুবিএন কোড উভয়ই ব্যবহার করে সনাক্ত করি। মেটাডেটা আরও গভীরভাবে তাকিয়ে দেখলাম যে তাদের বিভিন্ন স্থানাঙ্ক এবং উচ্চতা রয়েছে এবং একটি সাইটে ডেটা থামে তারপরে অন্যটিতে শুরু হয়। সুতরাং, যেহেতু আমি এর চেয়ে ভাল আরও জানি না, আমাকে তাদের আলাদা স্টেশন হিসাবে বিবেচনা করতে হবে। এর অর্থ ডেটাতে স্টেশনের জোড়া রয়েছে যা একে অপরের খুব কাছাকাছি থাকে।
প্রাথমিক বিশ্লেষণ
আমি ক্যালেন্ডার মাসের সাথে ডেটা গ্রুপ করার চেষ্টা করেছি এবং তারপরে বিভিন্ন জোড়া ডেটার মধ্যে সাধারণ সর্বনিম্ন স্কোয়ার রিগ্রেশন গণনা করি। আমি তখন স্টেশনগুলি সংযোগকারী একটি লাইন হিসাবে (নীচে) সমস্ত জোড়গুলির মধ্যে পারস্পরিক সম্পর্ককে প্লট করি। লাইনের রঙটি ওএলএস ফিট থেকে আর 2 এর মান দেখায়। চিত্রটি দেখায় যে জানুয়ারী, ফেব্রুয়ারি ইত্যাদির 30+ ডেটা পয়েন্টগুলি কীভাবে আগ্রহের ক্ষেত্রের বিভিন্ন স্টেশনগুলির মধ্যে পারস্পরিক সম্পর্কযুক্ত।
আমি অন্তর্নিহিত কোডগুলি লিখেছি যাতে প্রতিদিন 6 ঘন্টা সময়কালে ডেটা পয়েন্ট থাকে তবে কেবল দৈনিক গড় গণনা করা হয়, তাই সাইটগুলি জুড়ে ডেটা তুলনাযোগ্য হওয়া উচিত।
সমস্যা
দুর্ভাগ্যক্রমে, একটি প্লটটি বোঝার জন্য কেবল খুব বেশি ডেটা রয়েছে। লাইনের আকার হ্রাস করে এটি ঠিক করা যায় না।
আমি এই অঞ্চলের নিকটতম প্রতিবেশীদের মধ্যে পারস্পরিক সম্পর্ক স্থাপনের চেষ্টা করেছি, কিন্তু এটি খুব দ্রুত গণ্ডগোলের মধ্যে পরিণত হয়। নীচের দিকগুলি ব্যবহার করে পারস্পরিক সম্পর্কের মান ছাড়াই নেটওয়ার্ক দেখায় স্টেশন একটি উপসেট থেকে প্রতিবেশীদের নিকটতম। এই চিত্রটি ছিল কেবল ধারণাটি পরীক্ষা করার জন্য।
নেটওয়ার্কটি খুব জটিল বলে মনে হচ্ছে, তাই আমার মনে হয় জটিলতা হ্রাস করার জন্য বা কোনও ধরণের স্থানিক কর্নেল প্রয়োগ করার জন্য আমার কোনও উপায় বের করা উচিত।
আমিও নিশ্চিত নই যে পারস্পরিক সম্পর্ক দেখানোর জন্য সবচেয়ে উপযুক্ত মেট্রিক কী, তবে উদ্দেশ্যযুক্ত (অ-প্রযুক্তিগত) শ্রোতাদের জন্য, ওএলএস-এর পারস্পরিক সম্পর্কের সহগ কেবল ব্যাখ্যা করার জন্য সবচেয়ে সহজ হতে পারে। গ্রেডিয়েন্ট বা স্ট্যান্ডার্ড ত্রুটির মতো আমার অন্যান্য কিছু তথ্যও উপস্থাপন করতে হতে পারে।
প্রশ্নাবলি
আমি একই সাথে এই ক্ষেত্রে এবং আরে আমার পথ শিখছি, এবং এর পরামর্শগুলির প্রশংসা করব:
- আমি যা করার চেষ্টা করছি তার আরও আনুষ্ঠানিক নাম কী? এমন কিছু সহায়ক পদ রয়েছে যা আমাকে আরও সাহিত্যের সন্ধান করতে দেবে? আমার অনুসন্ধানগুলি কী সাধারণ প্রয়োগ হতে হবে তার জন্য ফাঁকা অঙ্কন করছে।
- মহাকাশে পৃথক পৃথক একাধিক ডেটা সেটগুলির মধ্যে পারস্পরিক সম্পর্ক দেখানোর জন্য কি আরও উপযুক্ত পদ্ধতি রয়েছে?
- ... বিশেষত, দৃষ্টিভঙ্গি থেকে ফলাফলগুলি দেখানো সহজ যে পদ্ধতিগুলি?
- এর মধ্যে কোন প্রয়োগ করা হয়?
- এই পদ্ধতির কোনও কি নিজেকে অটোমেশনে ndণ দেয়?