জিওস্প্যাটিয়াল ডেটা বিপুল পরিমাণে পরিচালনা করছেন? [বন্ধ]


83

আপনি কীভাবে আপনার ভূ-উপাত্তের ডেটা পরিচালনা করবেন? আমার কাছে টেরাবাইটের ডেটা শত শত ডেটাসেটে ছড়িয়ে আছে এবং প্রকল্পগুলির মধ্যে প্রতীকী লিঙ্কগুলি ব্যবহার করে একটি অ্যাড-হক সমাধান রয়েছে যা প্রতিটি ডেটাসেটের জন্য একটি ডোমেন-নাম ভিত্তিক সংরক্ষণাগার ডিরেক্টরিতে ফিরে লিঙ্ক করে। এটি বেশিরভাগ ক্ষেত্রেই কাজ করে তবে এর নিজস্ব সমস্যা রয়েছে।

আমি যদি শুনতে চাই যে কেউ যদি তাদের ভূ-স্থান সংক্রান্ত ডেটাগুলি একটি পুনর্বিবেচনা নিয়ন্ত্রণ সিস্টেমে পরিচালনা করে; আমি বর্তমানে আমার কোড এবং ছোট ডেটাসেটের জন্য একটি ব্যবহার করি তবে পুরো ডেটাসেটের জন্য নয়।


1
আপনি কোন ধরণের ফাইল ব্যবহার করেন, কোন অ্যাপ্লিকেশনগুলিতে ফাইলগুলিতে অ্যাক্সেসের প্রয়োজন হয় ইত্যাদি জেনে রাখা দরকারী হবে
জেসনবার্চ

আমি এই সমস্যাটিতে সাধারণত আগ্রহী তাই কোনও উত্তর দুর্দান্ত are
অগস্ট

1
আমি বুঝতে পারি এই প্রশ্নটি সম্ভবত সম্প্রদায়ের উইকি হওয়া উচিত যাতে আমরা একক দৃ answer় উত্তর পেতে পারি; hindsight একটি সঠিক বিজ্ঞান।
স্কু করুন

উত্তর:


51

আমি মনে করি স্টোর / সুস্পষ্ট উত্তরটি এসরির জিওপোর্টাল বা ওপেন সোর্স জিও নেটওয়ার্ক অ্যাপ্লিকেশন হিসাবে একটি মেটাডেটা সার্ভারের সাথে একযোগে একটি স্পেসিয়াল ডাটাবেস (পোস্টজিআইএস, ওরাকল, এসডিই, এমএসএসকিএল স্পেসিয়াল ইত্যাদি) ব্যবহার করা হবে এবং সামগ্রিকভাবে আমি মনে করি এটি সাধারণত সবচেয়ে ভালো সমাধান. তবে আপনার সম্ভবত সর্বদা প্রকল্প-ভিত্তিক স্ন্যাপশট / শাখা / ট্যাগের প্রয়োজন হবে। আরও কিছু উন্নত ডাটাবেসগুলির এগুলি পরিচালনা করার উপায় রয়েছে তবে তারা সাধারণত ব্যবহারকারী / পরিচালনার পক্ষে এতটা সহজ নয়।

ডাটাবেসের বাইরে আপনি যে জিনিসগুলি সঞ্চয় করেন (বৃহত চিত্র, প্রকল্প-ভিত্তিক ফাইল) আমি মনে করি কীটি হ'ল একটি সামঞ্জস্যপূর্ণ নামকরণ কনভেনশন এবং আবার একটি মেটাডেটা রেজিস্ট্রি (এমনকি স্প্রেডশিটের মতো স্বল্প-প্রযুক্তি) যা আপনাকে সেগুলি ট্র্যাক করার অনুমতি দেয় এবং সেগুলি সঠিকভাবে পরিচালিত হয়েছে তা নিশ্চিত করুন। উদাহরণস্বরূপ, প্রকল্প-ভিত্তিক ফাইলগুলির ক্ষেত্রে এটি রেকর্ড পরিচালনা নীতি নির্ধারিত হওয়ার পরে এগুলি মুছে ফেলা বা প্রকল্পের সমাপ্তির পরে কেন্দ্রীয় সংগ্রহস্থলে রোলিংয়ের অর্থ হতে পারে।

যদিও আমি কিছু আকর্ষণীয় সমাধান দেখেছি ...

ফিরে যখন বিসি পরিবেশ মন্ত্রকটি আর্ক / ইনফোরেশন বন্ধ করে দিয়েছিল তখন তাদের কাছে সত্যিকার অর্থে একটি দুর্দান্ত সিএসএনসি-ভিত্তিক দ্বিপথের সিঙ্ক্রোনাইজেশন প্রক্রিয়া ছিল। কেন্দ্রীয় নিয়ন্ত্রণের অধীনে থাকা যে সমস্ত কভারেজগুলি রাতের অঞ্চলগুলিতে ঠেলে দেওয়া হত এবং আঞ্চলিক তথ্যগুলিকে পিছনে ঠেলে দেওয়া হত block এই ব্লক-স্তরের ডিফারেনশিয়াল ট্রান্সফার সত্যিকার অর্থেই ভাল কাজ করেছে, এমনকি 56 56 কেটের লিঙ্কেরও বেশি। ওরাকল-ভিত্তিক অ্যাট্রিবিউট ডেটাবেসগুলির অনুলিপি করার জন্য একই জাতীয় প্রক্রিয়া ছিল, তবে আমি মনে করি না তারা সাধারণত ডায়াল-আপের মাধ্যমে খুব ভালভাবে কাজ করেছিল :)

আমার বর্তমান কাজের জায়গাতেও একই রকম হাইব্রিড সমাধান ব্যবহার করা হয়। প্রতিটি ডেটাসেটের এর অনুমোদনযোগ্য অনুলিপি রয়েছে (কিছু ওরাকলে, অন্যরা ম্যাপইনফোতে, অন্যরা ব্যক্তিগত জিওডাটাবেসগুলিতে) এবং এগুলি রাতের বেলা এফএমই ব্যবহার করে। যদিও এটি রক্ষণাবেক্ষণের ক্ষেত্রে আসে তখন বেশ কয়েকটি বড় বড় ওভারহেড রয়েছে; যে কোনও নতুন ডেটাসেট তৈরি করার এবং সাংগঠনিক দৃশ্যমানতা নিশ্চিত করার প্রচেষ্টা তার চেয়ে যথেষ্ট বেশি। আমরা এই ওভারহেড এড়াতে একীকরণের কিছু উপায় সন্ধান করার উদ্দেশ্যে একটি পর্যালোচনা প্রক্রিয়াধীন।


10
আপনি যদি পোস্টজিআইএস ব্যবহার করে থাকেন তবে ইতিহাস টেবিলগুলি উল্লেখ করার মতো এটি 1.5
fmark

1
যদি ডেটা সেটগুলি সম্পর্কিত হয়, তবে ধারাবাহিকতা বজায় রাখতে, কর্মক্ষমতা উন্নত করতে, এবং শ্রেণিবদ্ধ সারসংক্ষেপগুলি মঞ্জুর করার জন্য পোস্টগ্র্যাসকিএল উত্তরাধিকার বিবেচনা করাও মূল্যবান।
অ্যাড্রিয়ান

বিপুল পরিমাণ জিওপ্যাসিয়াল ডেটা হ'ল বিতরণকৃত সংস্করণ ব্যবস্থা ব্যবহারের কারণে এটি প্রতিটি নোডের ডেটা সদৃশ করে (বেশিরভাগ কোডের জন্য পুনর্বিবেচনা নিয়ন্ত্রণ ব্যবস্থার সাথে ব্যবহৃত হয়)। এটি কোনও ক্লায়েন্ট-সার্ভারে (কেন্দ্রীভূত) ডেটা সংস্করণ সিস্টেমে ঘটে না, উদাহরণস্বরূপ পোস্টগ্রিস-পোস্টগ্রিস ব্যবহার করে। youtube.com/watch?v=1FsonLiSDR8
আলফ্রেডো গার্সিয়া

23

মেটাডেটা এখানে সবচেয়ে গুরুত্বপূর্ণ সমস্যা। যদি মেটাডেটা উত্তর দেয় তবে কে , কখন, কেন, কোথায় এটি একটি গ্রহণযোগ্য মেটাডেটা রেকর্ড।

মাত্র কয়েকটি জিআইএস ব্যবহারকারী (প্রায় 30) বড় সংস্থাগুলিতে কাজের অভিজ্ঞতা পেয়ে আমাদের কাছে ডেটা, বিশেষত সংস্করণ এবং অনুমতিগুলি নিয়ন্ত্রণ করার জন্য বড় সমস্যা ছিল। এর একপাশে ডেটার বিস্তৃত ডকুমেন্টিং (মেটাডেটা) দিয়ে সমাধান করা যেতে পারে এবং অন্যান্য সমস্যাগুলি সম্ভবত একটি কেন্দ্রীয় সংগ্রহশালার সাথে সমাধান করা হয়, যেখানে পোস্টজিআইএস জ্বলজ্বল করে।

জিও নেটওয়ার্ক মেটাডেটা সম্পর্কিত সমস্যাগুলি হ্যান্ডেল করার জন্য একটি ভাল শুরু। কেন্দ্রীয় সংগ্রহস্থল সমাধান করা আরও জটিল, কারণ এটি একটি বিশেষ ব্যক্তির ডেটাবেস ডিজাইন / রক্ষণাবেক্ষণ করতে পারে।

জটিল বিষয় যারা QA তে / কুইবেক এই ডেটাসেট এবং তাদের মেটাডেটা দায়িত্বে থাকবে। যদিও কম্পিউটার চালিত প্রক্রিয়াগুলি দুর্দান্ত কাজ করে তবে তারা কোনও ভাল ডেটা ম্যানেজার / ডেটা কিপারের মতো কঠোর হতে পারে না, যা আমি এই কোম্পানিতে কাজ করেছি। মেটাডেটা পর্যালোচনা / প্রতিশ্রুতিবদ্ধ এবং জিওপ্যাটিয়াল ডেটা সংগঠিত করার জন্য এখন সেখানে কেবলমাত্র কেউ আছেন যা কোনও ডিবিএমএস-এ কেন্দ্রীভূত নয়।


11

আমরা এই দ্বারা hierarchically সংগঠিত একটি ফাইল সিস্টেম ব্যবহার করেছি: - ভৌগলিক পরিধি (দেশ বা মহাদেশ) - ডেটা প্রদানকারী, লাইসেন্সার - ডোমেন / ডেটাসেট - তারিখ / সংস্করণ

তারপরে আমাদের নীতি আছে আমাদের উত্সের ডেটা (একই ফরম্যাটে যা আমরা সরবরাহকারীর কাছ থেকে যে সিডি / ডিভিডি পেয়েছিলাম তাতে) আমাদের কোম্পানির মধ্যে যে উত্পাদিত ডেটাসেটগুলি থেকে আলাদা করেছিলাম separate

ফাইল সিস্টেমটি গ্রাহকের কাছ থেকে যে কোনও ডেটা নিখরচায় করা সহজ করে তোলে এবং শারীরিক স্টোরেজের ক্ষেত্রে কিছুটা নমনীয়তাও দেয় - আমরা আমাদের সংরক্ষণাগারগুলি আরও বড়, ধীর ডিস্কে রাখি এবং আমাদের জন্য বিশেষ ফাইল সার্ভার রয়েছে (স্বচ্ছভাবে শ্রেণিবদ্ধের সাথে যুক্ত) আরও ঘন ঘন ব্যবহৃত ডেটাসেট।

প্রকল্পগুলির মধ্যে পরিচালনার সুবিধার্থে আমরা প্রতীকী লিঙ্কগুলি ব্যবহার করি। আমরা আমাদের ভেক্টরগুলিকে একটি ডাটাবেসে (ওরাকল) রাখি এবং গ্রাহক প্রতি কমপক্ষে একটি ডাটাবেস উদাহরণ (এবং বেশ কয়েকটি ব্যবহারকারী / প্রকল্পগুলির জন্য স্কিমা) রাখার নিয়মটি তৈরি করি। আমরা একটি ডাটাবেসে অনেক রাস্টার রাখছি না, যদিও তারা একের বাইরেও অনেক বেশি জায়গা নেয়। এছাড়াও, আমরা আমাদের ডাটাবেস উদাহরণগুলি যথাসম্ভব লাইটওয়েট রাখতে চাই like

এবং হ্যাঁ, পুরোপুরি 'পুলিশিং' করার দায়িত্বে আমাদের একজন রয়েছেন যাতে এটি খুব অগোছালো না হয়।

বর্তমানে এই সেটআপটি নিয়ে আমাদের সবচেয়ে বড় সমস্যাটি হ'ল একটি দুর্দান্ত ব্যবহারকারীর ইন্টারফেসের অভাব যা পুরো বিষয়টি সম্পর্কে আমাদের আরও ভাল পর্যালোচনা করতে সহায়তা করবে এবং আমরা সর্বোপরি একটি মেটাডেটা স্টোরেজ অন্তর্ভুক্ত করার পরিকল্পনা করছি। আমরা এখনও এখানে আমাদের বিকল্পগুলি বিবেচনা করছি।

আমরা আমাদের কোডের জন্য সংস্করণ নিয়ন্ত্রণ ব্যবহার করছি এবং আমরা এটি নথির জন্য ব্যবহার করেছি, তবে এটি প্রমাণিত হয়েছে যে সংস্করণ নিয়ন্ত্রণটি বড় ডেটাসেটের জন্য সত্যই তৈরি হয় না, বিশেষত যদি তারা বেশিরভাগ বাইনারি ফাইল হয়, তাই আমি প্রস্তাব দিই না আপনি যদি জিএমএল বা একইভাবে পাঠ্য-জাতীয় কিছু নিয়ে সমস্যায় পড়ে থাকেন তবে (সার্ভার-সাইড ডিস্ক ব্যবহারের ক্ষেত্রে বিশাল ওভারহেডগুলির পাশাপাশি বিপুল সংগ্রহস্থলগুলি পরীক্ষা করার সময় ক্লায়েন্ট ক্র্যাশ হওয়া সমস্যাগুলির মধ্যে রয়েছে) problems


6

যেমন @ জেসনবার্চ বলেছেন, সংস্করণ নিয়ন্ত্রণ একটি বিশাল সমস্যা।

এছাড়াও আমরা দেখতে পেয়েছি যে একটি উপযুক্ত কর্মপ্রবাহ অত্যন্ত গুরুত্বপূর্ণ। উদাহরণস্বরূপ যখন আমরা ক্ষেত্রের ডেটা সংগ্রহ করি তখন আমরা মঞ্চের ডেটাবেসগুলি ব্যবহার করি যেখানে মাঠের ডেটাসেটে মার্জ হওয়ার আগে ক্ষেত্রের ডেটা QA'd করা যায়। QA'd করতে কতটা ডেটা দরকার তা নির্ভর করে এটি সর্বদা যদিও কিছু ওভারহেড তৈরি করবে।

এছাড়াও, যদি আপনি এটি না দেখে থাকেন তবে লার্স ব্রোডারসেনের জিও-যোগাযোগ এবং তথ্য ডিজাইনের ইবুকটি একবার দেখার পরামর্শ দিন, অন্তত ডেটা মডেলিংয়ের বিষয়ে তাঁর কী বক্তব্য রয়েছে for


5

অন্যরা যেমন বলেছে তেমনভাবে পোস্টগ্রিজ করে, তবে আপনি যদি এটি পোর্টেবল এবং সরানো সহজ রাখতে চান তবে আপনি সর্বদা এসকিউএলাইট + স্প্যাটিয়ালাইট এক্সটেনশনটি ব্যবহার করতে পারেন।

ম্যানেজমেন্ট সরঞ্জামগুলির ক্ষেত্রে পোস্টগ্র্রেসের মতো ব্যবহার করা সহজ নয়, তবে কিউজিস কোনও সমস্যা ছাড়াই একটি স্পেশালাইটাল সক্ষম জিআইএস ডাটাবেসগুলির সাথে সরাসরি কথা বলতে পারেন।

ব্যাকআপের জন্য আমি আসলে এসকিউএলাইট + স্প্যাটালাইট ব্যবহার করি, আমার একটি উইন্ডোজ পরিষেবা রয়েছে যা ব্যাকগ্রাউন্ডে চলে (কাস্টম লিখিত) যা আমার পিজিএসকিএল উদাহরণটি পর্যবেক্ষণ করে এবং আমার জিআইএস ডেটাটি বিভিন্ন এসকিউএল ডিবিতে আয়ন করে যা বাইরের ইউএসবি ড্রাইভে থাকে on

পিজির সাথে আরও একটি টিপ, স্কিমা ব্যবহার করুন

আমি জানি অনেক লোকেরা কেবল "জনসাধারণের" মধ্যে সমস্ত কিছু ফেলে দেয় এবং এটি দিয়ে সম্পন্ন হয়, তবে আপনি যদি আপনার ডাটাবেসটিকে সঠিকভাবে সংগঠিত করেন তবে এটি বিশ্বের পার্থক্য তৈরি করে।

উদাহরণস্বরূপ, আমার "অর্ড্যান্স_সার্ভে" ডাটাবেসে ভেক্টরম্যাপডিজিস্ট ভেক্টরম্যাপলোকাল টপো 50 লুকআপগ্রিডস কোডপয়েন্ট উইথপলিগনস কোডপয়েন্ট ওপেনের জন্য স্কিমা রয়েছে

যেখানে আমি সমস্ত সম্পর্কিত ডেটা রাখি।

ইতোমধ্যে মেটাডেটা টেবিলগুলি, জ্যামিতি কলামগুলি ইত্যাদির মতো, কেবল সর্বজনীনভাবেই থাকে, পোস্টগিস এক্সটেনশানটি কেবল সর্বজনীন স্কিমাতে সক্ষম থাকে, তবে অন্যান্য সমস্ত স্কিমা ব্যবহারের জন্য অ্যাক্সেসযোগ্য।


4

পূর্ববর্তী পোস্টে যেমন উল্লেখ করা হয়েছে, স্থানিক ডিবি এবং একটি মেটাডেটা সার্ভার হ'ল স্বাভাবিক সেটআপ। আমি মনে করি একটি মূল বিষয় মনে রাখা উচিত যে 'এক আকার সবই মানায় না'। আপনি ওরাকল, ফাইল সার্ভার, এসকিউএল সার্ভার, যা-ই হোক না কেন সর্বোত্তমভাবে ফিট করে এমন ডেটা শেষ করবেন। আমি জুতার হর্নিং করার চেষ্টা করেছি সমস্ত ডেটা প্রয়োজন একটি সমাধানে এবং এটি সাধারণত ব্যর্থ হয়।

ডেটা মাপসই করে এমন বিভিন্ন সমাধান ব্যবহার করার প্রত্যাশা করুন এবং তাদের জন্য পরিকল্পনা করুন। এখানেই জিও-পোর্টাল (মেটাডেটা সার্ভার) আসবে।


2

আমাকে উপরে "জর্জ" এর সাথে একমত হতে হবে যে জিওস্প্যাটিয়াল ডেটা পরিচালনায় মেটাডাটা বড় ভূমিকা নিতে পারে। যে কোনও ডিজিটাল ডেটার সাথে সত্যই, মেটাডেটা কী - এমন কোনও ফটোগ্রাফারের কথা চিন্তা করুন যিনি তার ডিজিটাল ফটো ফাইলগুলি ডাব্লু / ও যথাযথ মেটাডেটা পরিচালনা করার চেষ্টা করেন। আপনি যদি ধর্মীয়ভাবে জিনিসগুলিতে ট্যাগ করেন এবং ডেটা ব্যবহার করতে পারে এমন ভাল সফ্টওয়্যার থাকে তবে জীবন এত সহজ হয়ে যায়। এখন 'জিওপ্যাটিয়াল ডেটা পরিচালনা' সম্পর্কে মূল প্রশ্নটি বেশ বিস্তৃত - এটি সংরক্ষণের জন্য নামকরণের নামগুলি, কনভেনশনগুলির নামকরণ, ডেটাসেট এবং বৈশিষ্ট্যগুলির শ্রেণিবিন্যাস, ভূমিকা সম্পাদনা এবং সুযোগসুবিধকরণ ইত্যাদি ইত্যাদি হতে পারে etc.


1

জিওপ্যাটিয়াল ডেটার জন্য স্টোরেজ প্যাটার্ন আপনি কীভাবে এটি জিজ্ঞাসা করতে চান / আপনি এটি দিয়ে কী করতে চান তার উপর নির্ভর করে। নিম্নলিখিত কয়েকটি সরঞ্জাম যা আপনি বিবেচনা করতে পারেন:

পোস্টগ্রিস + পোস্টজিআইএস: জিওপ্যাটিয়াল ইনডেক্স এবং আপনি কল্পনা করতে পারেন এমন সমস্ত ধরণের প্রশ্নের সমর্থন করে। আপনার টেরাবাইট ডেটা পরিচালনা করার জন্য আপনাকে শারডিং, ক্যোয়ারী অপ্টিমাইজেশন ইত্যাদি প্রয়োগ করতে হবে যদি আপনার লেখার বোঝা খুব বেশি হয় তবে আমি এটির পরামর্শ দেব না।

মঙ্গোডিবি: এটি বিপুল পরিমাণে ডেটা সমর্থন করে। সাধারণ সঞ্চয়স্থান, পুনরুদ্ধার এবং সীমিত ভূ-স্থান সংক্রান্ত প্রশ্নের জন্য দুর্দান্ত।

ফাইল স্টোরেজ: আপনি যদি সত্যিই কেবল একটি সংরক্ষণাগার ব্যবস্থা হন এবং অনুসন্ধানের জন্য ডেটার কিছু অংশ ব্যবহার করেন তবে আপনার ডেটা ফাইল হিসাবে সংরক্ষণ করা অর্থনৈতিক হতে পারে। আপনার সংস্করণ নিয়ন্ত্রণের প্রয়োজনীয়তা এতে সন্তুষ্ট হতে পারে।

রেডিস: আপনি ঘন ঘন অ্যাক্সেস করতে হবে এমন রেডিসে অল্প পরিমাণে 'হট' ডেটা সংরক্ষণ করতে আপনি রেডিস জিও সাপোর্টের সাথে উপরের বিকল্পগুলির সাথে একত্রিত করতে পারেন। এটিকে আপনার ক্যাশে হিসাবে ভাবুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.