PostgreSQL এ রোলিং ডেটা সঞ্চয় এবং অনুসন্ধান করছে


12

আমার কাছে পোস্টগ্রিজ এসকিউএল ডাটাবেসে প্রচুর পরিমাণে আবহাওয়া মডেল ডেটা রাখা হচ্ছে। মেশিনটিতে 8 টি কোর এবং 16 গিগাবাইট র‌্যাম রয়েছে। আমি পোস্টগ্রিজ ২.১ সহ পোস্টগ্রিজ এসকিউএল ৯.৩ চালাচ্ছি। প্রতিটি টেবিলের বিভিন্ন ধরণের আবহাওয়ার ডেটা থাকবে (টেম্প, শিশির বিন্দু, বায়ু ইত্যাদি)। প্রতিটি টেবিলটিতে 6-7 কলাম থাকবে: অক্ষাংশ, দ্রাঘিমাংশ, পয়েন্ট জ্যামিতি, উচ্চতা, মডেলটির জন্য প্রাসঙ্গিক তারিখের সময় এবং 1-2 টির আগ্রহের মান। ডেটা প্রাথমিকভাবে সময় এবং উচ্চতা দ্বারা একটি বাউন্ডিং বাক্সের জন্য অনুসন্ধান করা হবে। প্রতি টেবিলে প্রায় 145,757,360 টি সারি থাকবে (এখনকার চেয়ে পুরানো ডেটা মুছে ফেলা হবে না)। আমি প্রায় টেবিলগুলির আকার সূচী ছাড়াই প্রায় 10 গিগাবাইট হিসাবে অনুমান করি। (এটি 52 বাইট ডেটা প্লাস প্রতি সারিতে ওভারহেডের 23 বাইট)। নতুন মডেলের ডেটা উপলব্ধ হওয়ার সাথে সাথে ডেটা নিয়মিত আপডেট / সন্নিবেশ করা হবে। বিঃদ্রঃ:

সুতরাং আমি এই দুটি পরিকল্পনা তাকান:

  1. পয়েন্ট জ্যামিতির জন্য অতিরিক্ত সূচক সহ কেবল সূচক এবং ক্লাস্টার (তারিখের সময়, উচ্চতা) দ্বারা। একটি নিয়মিত ক্রোন জব চালান যা পুরাতন সারিগুলি মুছে ফেলে, শূন্যস্থান / বিশ্লেষণ চালায় এবং পুনরায় ক্লাস্টারগুলি সরিয়ে দেয়।
  2. তারিখের সময় অনুসারে পার্টিশন এবং তারপরে ক্লাস্টার এবং জ্যামিতির উপর একটি সূচক সহ টেবিল প্রতি উচ্চতা অনুসারে ইন্ডেক্স। নতুন টেবিলগুলি এগিয়ে যেতে যোগ করার জন্য নিয়মিত ক্রোন জব চালান এবং পুরানো টেবিলগুলি ড্রপ করুন।

উপরন্তু,

  • সুতরাং, আমি জানি যে একটি টেবিল বাদ দেওয়া আরও কার্যকর এবং মুছে ফেলা এবং শূন্যস্থান। তবে আমি অন্যথায় একটি পারফরম্যান্স উত্সাহ দেখতে পাবো?
  • পার্টিশনগুলি কি উপযুক্ত হবে যখন সমস্ত সারণী সমানভাবে আপডেট হবে এবং অপ্রাসঙ্গিক হিসাবে মুছে ফেলা না হওয়া পর্যন্ত নির্বাচন করা হবে (ডকুমেন্টেশনে ইঙ্গিত দেওয়া হয়েছে যে কেবলমাত্র কয়েকটি অংশ নির্বাচিত হলে পার্টিশনগুলিই ভাল কাজ করেছিল)?

ডেটা বিতরণ করার সময় নির্বাচনগুলি কি ক্লাস্টারড ইনডেক্সের চেয়ে দ্রুততর হবে? একবারে একাধিক অনুরোধ করা হলে উত্তর কি পরিবর্তন হবে?

ধন্যবাদ. আমি আশা করি আমি প্রয়োজনীয় সমস্ত ডেটা রেখেছি। যদি আমাকে না জানায় এবং আমি এটি যুক্ত করব।


1
খুব, এই সরু সারিগুলি যেখানে পোস্টগ্র্যাস এসকিউএল এর বড় সারি শিরোনামগুলি সত্যিই আঘাত করতে শুরু করে। করুণা আসলে খুব বেশি নেই যা মুছে ফেলা যায়; এটি আমরা হারাতে পারি xminবা xmaxইত্যাদি পছন্দ করি না এমন একটি বৈশিষ্ট্য রয়েছে যা এটি 9.4 এ তৈরি করতে পারে যা সম্ভবত আপনাকে উত্তেজিত করবে, মিনম্যাক্স সূচক বলে, এটি এই জাতীয় জিনিসগুলিকে আরও সুবিধাজনক করে তুলবে।
ক্রেগ রিঞ্জার

1
নিম্নলিখিত সংমিশ্রণটি পুনরাবৃত্তিযোগ্য: "অক্ষাংশ, দ্রাঘিমাংশ, পয়েন্ট জ্যামিতি, উচ্চতা"। যদি হ্যাঁ, অন্য টেবিলের মধ্যে এটি স্বাভাবিক করা কিছু জায়গা সঞ্চয় করতে পারে।
একে

কেবলমাত্র প্রান্তিকভাবে একটি পোস্টজিআইএস জ্যামিতি একটি বাইনারি অ্যারে এবং মানব পাঠযোগ্য নয়। আমি এই মানগুলিকে আউটপুটে প্রাপ্ত করতে পারি, কিন্তু তারপরে আমি সেগুলিতে ক্লাস্টার করতে পারি না। আমি ক্লাস্টারে জিওহ্যাশ ব্যবহার করতে পারতাম, তবে শেষের চেয়ে আর পড়ার মতো নয়। তবে উভয় উপায়ে স্থানই সমস্যা নয়। আমি যতটা টেরাবাইট ভরাতে পারি সেগুলি তারা সরবরাহ করেছিল। সমস্যাটি হচ্ছে আমি গতিতে টেরাবাইটগুলি জিজ্ঞাসা করতে পারি না। ডাটাবেস নিজেই মূলত অ-লেনদেনের হবে। কেবলমাত্র দুটি স্ক্রিপ্টে লেখার অ্যাক্সেস থাকবে। বাকী সমস্ত কিছুই কেবলমাত্র পঠনযোগ্য।
ভিজেন্ডার

ক্রেগ: তারা কৌতূহলজনক বলে মনে হচ্ছে আমি বাইরে এলে তাদের সাথে পরীক্ষার জন্য অপেক্ষা করি। 9.3 সালে যদিও আমার সেটআপ সম্পর্কে কোনও চিন্তা?
29:38

1
আপনি কি দুই টুকরো তথ্য সরবরাহ করতে পারেন দয়া করে: 1) আপনার কাছে সবচেয়ে গুরুত্বপূর্ণ কোনটি, গতি বা ক্যোরি গতি ?োকান? 2) কোন প্রশ্নগুলি সবচেয়ে সাধারণ?
থমাস কেজার

উত্তর:


1

সমস্ত বিষয় বিবেচিত, আমি বিকল্প 2 সহ যাব D তারিখগুলি সমানভাবে নির্বাচিত হবে, তবে আমি অনুমান করতে যাচ্ছি যে প্রদত্ত প্রশ্নের জন্য কেবলমাত্র এক বা দুটি তারিখের পার্টিশনই জড়িত থাকবে। এটি লজ্জার বিষয় যে আপনি তারিখে ভূ-স্থান এবং বিভাগের বিষয়ে গুচ্ছ করতে পারবেন না, যা আদর্শ হবে। যদি বাউন্ডিং বাক্সগুলি পর্যাপ্ত পরিমাণে ছোট থাকে তবে উঁচুতে ভূগোলের সাথে সম্পর্কিত হতে পারে।

উপলভ্য পছন্দগুলি দেওয়া, ক্লিনার ডেটা অপারেশন এবং প্রতিদিনের শূন্যতা এড়ানো একটি ভাল জিনিস।

নির্বাচনগুলি সরবরাহ করা বিকল্প 1 এর সাথে দ্রুততর হতে পারে, তবে আমার সন্দেহ হয় এটি সম্ভবত ধোয়া হবে। বিকল্প 1 সহ, একই তারিখ এবং উচ্চতা সহ রেকর্ডগুলি একে অপরের কাছে একটি বড় ক্লাস্টার ইনডেক্সে স্থাপন করা হয়। বিকল্প 2 সহ, একই তারিখ এবং উচ্চতা সহ রেকর্ডগুলি অনেকগুলি ছোট ক্লাস্টারযুক্ত সূচকে একে অপরের কাছে স্থাপন করা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.