উচ্চ ভলিউম লেনদেনের জন্য এবং ডেটা গুদামজাতের জন্য পোস্টগ্রিএসকিউএল


11

পোস্টগ্র্যাস এসকিউএলএর জন্য আমি বেশ নতুন, আমি এর আগে এটি ব্যবহার করে কোনও বৃহত্তর স্থাপনা কখনও করি নি। তবে, এন্টারপ্রাইজ সমাধানগুলিতে আমার ভাল অভিজ্ঞতা আছে এবং আমি পোস্টগ্রেএসকিউএল ব্যবহার করে যা শিখেছি তার কিছু চেষ্টা ও প্রয়োগ করতে চাই।

আমার কাছে এমন সাইট রয়েছে যা প্রচুর পরিমাণে ডেটা এবং ট্র্যাফিক পরিচালনা করতে মাপযুক্ত। ইসি 2 উদাহরণ এবং ইবিএস ভলিউম ব্যবহার করে অবকাঠামো অ্যামাজন (এডাব্লুএস) ব্যবহার করে নির্মিত হবে।

নকশায় দুটি ডাটাবেস থাকা উচিত, একটি প্রধান লেনদেনের ডাটাবেস এবং বিশ্লেষণ এবং প্রতিবেদন পরিচালনা করতে একটি ডেটা গুদাম।

মূল লেনদেনের ডাটাবেস

লাইভ ওয়েবসাইটের জন্য ব্যবহার করা হবে, সাইটটি একাধিক নোডে সমবর্তী ব্যবহারকারীদের স্কেল তৈরি করা হয়েছে। পাঠ্য ক্রিয়াকলাপগুলিতে এই ক্ষেত্রে অত্যন্ত গতিযুক্ত হওয়ার জন্য প্রধানত আমাদের ডাটাবেস প্রয়োজন, আমরা 30% বার্ষিক বৃদ্ধি সহ 100 জিবি ডেটা আশা করি। এই মুহুর্তে, আমরা দুটি ইসি 2 সার্ভার ব্যবহার করার পরিকল্পনা করছি ( এবং আমাদের প্রয়োজন অনুযায়ী আরও পরে যুক্ত করব )।

আমার প্রশ্ন, উপরের প্রয়োজনীয়তার জন্য প্রস্তাবিত সেটআপটি কী? এছাড়াও, টেবিল এবং ভলিউম বিভাজন পরিচালনা করার কোনও উপায় আছে? এডাব্লুএস সেটআপ ব্যবহারের জন্য কি সুপারিশ রয়েছে?

ডেটা গুদাম ডাটাবেস

প্রধান মাত্রার সময়কালে মূল লেনদেনের ডাটাবেস থেকে সমস্ত ডেটা ক্যাপচারের জন্য ব্যবহৃত হবে। সুতরাং, এমনকি মূল ডাটাবেস থেকে মুছে ফেলা রেকর্ডগুলি ডিডাব্লুএইচ-তে বন্দী হবে। সুতরাং, ডেটা খুব বড় হবে এবং বৃদ্ধি আরও বড় হবে। প্রয়োজনে আমরা দু'টি ইসি 2 উদাহরণ বা আরও বেশি ব্যবহার করব।

এই ক্ষেত্রে প্রস্তাবিত সেটআপ কি? অবিচ্ছিন্ন রচনার (ইটিএল) কারণে এটির জন্য দ্রুত রচনার অপারেশন প্রয়োজন। আমরা কি পোস্টগ্রেএসকিউএল এ ওএলএপ কিউবগুলি তৈরি করতে পারি? যদি হ্যাঁ, তবে কেউ কি চেষ্টা করেছে?

ডাটাবেসে সংযুক্ত হচ্ছে

ওয়েব সার্ভারগুলি কোয়েরি এবং লেখার জন্য মূল ডাটাবেসে সংযুক্ত হবে। আমরা বর্তমানে জাঙ্গো ব্যবহার করে একটি অ্যাপ্লিকেশন বিকাশ করছি যা সংযোগের জন্য নেটিভ লাইব্রেরি ব্যবহার করে। একই বেসিক পদ্ধতিটি ব্যবহার করার পরামর্শ দেওয়া হচ্ছে কি? বা আমাদের পিজপুল কনফিগার করা উচিত?

ডেটা গুদাম (ETL)

মূল থেকে ডেটা গুদামে লোড এবং ইডিএল প্রক্রিয়াগুলি পড়ার জন্য প্রস্তাবিত উপায় কী? কোন সরঞ্জাম? পদ্ধতি অনুসরণ করতে হবে? পোস্টগ্রাইএসকিউএল ইটিএল প্রক্রিয়াগুলি তৈরিতে কোনও কার্যকর ফাংশন / সরঞ্জাম সরবরাহ করে?


: স্কেলিং সংক্রান্ত, আপনি এই পড়তে চাইবেন stackoverflow.com/questions/10256923/...
a_horse_with_no_name

উত্তর:


3

অবকাঠামো / ডাটাবেস পরিষেবাদি

আপনার সম্ভবত এটি একটি উচ্চ-ভলিউম সাইটের একটি সংক্ষিপ্তসার জন্য পড়তে হবে যা EBS এর সাথে AWS এ চলে। তারা এফেমেরাল স্টোরেজে চলে গেছে তবে ডেটা সঞ্চয় করতে সক্ষম হওয়ায় কিছুটা বাড়াবাড়ি তৈরি করতে হয়েছিল।

http://blog.reddit.com/2012/01/january-2012-state-of-servers.html

ডেটা গুদাম / ইটিএল

আমি অতীতে পেন্টাহো ব্যবহার করেছি। পোস্টগ্রিসের সাথে সরাসরি নয়, তবে আমি এটি ওএলএপি (মন্ড্রিয়ান) এবং ইটিএল (কেটল) উভয়ের জন্য একটি ভাল সমাধান হিসাবে খুঁজে পেয়েছি

http://www.pentaho.com/

সম্পাদনা করুন: "সম্প্রদায় সংস্করণ" এখানে পাওয়া যাবে

http://mondrian.pentaho.com/

http://kettle.pentaho.com/

সংযোগ

এই ভাবেনগুলি সত্যিই পিজবউনসার পছন্দ করে। /programming/1125504/django-persistent-database-connection

যদিও এর সাথে আমার কোনও অভিজ্ঞতা নেই। স্পষ্টতই, ডিসকাস এটি ব্যবহার করে।


0

আপনার সেটআপটির সাথে মিল রয়েছে যা আমি একটি বিশ্ববিদ্যালয়ের জন্য বিকাশ করেছি। ডাটাবেসটি বিশাল ছিল না, তবে মোটামুটি বড়, প্রায় 300 গিগাবাইট আকারের এবং বৃহত্তম সারণীতে প্রায় 500 মিলিয়ন রেকর্ড রয়েছে। এবং এখনও বৃদ্ধি।

দুটি সত্যই মৌমাছির সার্ভার (বাস্তব লোহা, ভার্চুয়ালাইজড নয়), একটি ওয়েব সাইট থেকে ডেটা পরিচালনা করার জন্য নিবেদিত এবং অন্যটি পরিসংখ্যান গণনা এবং বিশ্লেষণের জন্য ব্যবহৃত হয়েছিল। স্লনি ব্যবহার করে ডেটা দু'দিকেই প্রতিলিপি করা হয়েছিল। ওল্যাপ সার্ভারে অবিচ্ছিন্নভাবে ওলিটিপি তথ্য প্রতিলিপি করা হয়েছিল এবং কয়েকটি স্কিমা এবং একক টেবিলগুলি ওএলএপি-সার্ভার থেকে ওলটিপি-তে প্রতিলিপি করা হয়েছিল। এইভাবে ওলটিপি-সার্ভারকে প্রভাবিত না করে বিশ্লেষণ সার্ভারে ভারী গণনা সম্পাদন করা যেতে পারে। আজকাল, সেখানে প্রতিলিপি নির্মাণ ডেটার জন্য Slony কিছু বিকল্প আছে: http://www.postgresql.org/docs/9.2/static/different-replication-solutions.html

স্লনি আমাদের উদ্বেগের জন্য ভাল এবং দ্রুত ছিল তবে এটি কঠোর শিক্ষক হতে পারে।

যেহেতু ওএলএপি-সার্ভার অবিচ্ছিন্নভাবে বৃদ্ধি পাবে আপনার যদি প্রযোজ্য হয় তবে কোনও ধরণের পার্টিশন ব্যবহার করা বিবেচনা করা উচিত।

যদি সম্ভাবনা থাকে তবে সংযোগ পুলিং ব্যবহার করুন। আমি কেবল পিজপুল ব্যবহার করেছি এবং এটি নির্বিঘ্নে কাজ করেছে। পিজবাউনার আরেকটি বিকল্প। ডিআর লেটেন্সি হ্রাস করার পাশাপাশি এটি সেশন সূচনা ও সেশন পরিচালনাও হ্রাস করে। http://momjian.us/main/blogs/pgblog/2012.html#April_25_2012

সংযোগ পুলটি ব্যবহার করার আরেকটি সুবিধা হ'ল আপনি এমন একক পয়েন্ট পেয়েছেন যেখানে আপনি সহজেই আপনার ট্র্যাফিকটি পুনর্নির্দেশ করতে পারেন (এটি অবশ্যই ঝুঁকিপূর্ণও হতে পারে)।

আমি ওএলএপি সার্ভারে ডেটা লোড করার জন্য কোনও রেডিমেড ইটিএল ব্যবহার করি নি। আমি পাইথনে আমার নিজস্ব স্ক্রিপ্ট লিখেছিলাম কারণ কিছুটা অদ্ভুত বিন্যাস সহ বিশাল টেক্সট ফাইলগুলিতে বিতরণ করা হয়েছিল।

ডাটাবেসের কাঠামোটি সাবধানতার সাথে বিবেচনা করা দরকার। স্কিমার ব্যবহার অবজেক্টগুলি পরিচালনা এবং সহজ করার জন্য ভাল। স্কিমার ব্যবহার শুরু করা জটিল মনে হতে পারে তবে অবজেক্টের সংখ্যা বাড়ার সাথে সাথে আপনি নিজেকে ধন্যবাদ জানাবেন। আপনার স্কেমা দিয়ে আপনাকে স্পষ্টভাবে উপসর্গ করতে হবে তা জেনে আপনি কোন বস্তুগুলিতে পরিচালনা করছেন ঠিক তা জানেন। http://momjian.us/main/blogs/pgblog/2012.html#April_27_2012

সাহসী ব্যক্তিদের জন্য পোস্টগ্রেএসকিউএল এক্সসি একটি আকর্ষণীয় বিকল্প বা কেবল একটি বড় আকারের পোশাক হতে পারে http://postgres-xc.sourceforge.net/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.