সবাইকে হাই এবং আপনার সহায়তার জন্য আগাম ধন্যবাদ। আমরা এসকিউএল সার্ভার 2017 উপলভ্যতা গোষ্ঠীগুলির সাথে চ্যালেঞ্জগুলি অনুভব করছি।
পটভূমি
সংস্থাটি একটি খুচরা বি 2 বি ব্যাক-এন্ড সফ্টওয়্যার। প্রায় 500 একক ভাড়াটে ডাটাবেস, এবং সমস্ত ভাড়াটেদের দ্বারা ব্যবহৃত 5 ভাগ ডাটাবেস। কাজের চাপের বৈশিষ্ট্য বেশিরভাগ ক্ষেত্রেই পড়া হয় এবং বেশিরভাগ ডাটাবেসের মধ্যে খুব কম কার্যকলাপ থাকে।
সহ-স্থানে হোস্ট করা শারীরিক উত্পাদনের সার্ভারগুলি সম্প্রতি একটি শেয়ার্ড SAN / FCI কনফিগারেশনে উইন্ডোজ সার্ভার ২০১২-এর এসকিউএল সার্ভার ২০১৪ এন্টারপ্রাইজ থেকে আপগ্রেড করা হয়েছে, একটি সকেট / 32 কোর / 768 জিবি র্যাম এবং লোকাল 2016 এ উইন্ডোজ সার্ভারে এসকিউএল সার্ভার 2017 এন্টারপ্রাইজে উন্নীত করা হয়েছে এসএসডি ড্রাইভগুলি সর্বদাআন এজি ব্যবহার করে। এজি ট্র্যাফিক একটি অতিক্রমকৃত তারের সংযোগ সহ ডেডিকেটেড 10 জি এনআইসি বন্দর ব্যবহার করে।
তাদের প্রয়োজনীয়তা হ'ল সমস্ত ডাটাবেস একসাথে ব্যর্থ হওয়ার জন্য, সুতরাং সেগুলি সমস্ত একক এজিতে রাখতে হয়েছিল। এটি একটি অভিন্ন সার্ভারে একক, অ-পঠনযোগ্য সিঙ্ক্রোনাস প্রতিরূপ।
নতুন সার্ভারগুলি জুন ২০১ since সাল থেকে উত্পাদনে রয়েছে Latest সর্বশেষ সিইউ (তত্কালীন সিইউ 7) এবং উইন্ডোজ আপডেট ইনস্টল করা হয়েছিল এবং সিস্টেমটি ভালভাবে কাজ করছে। প্রায় এক মাস পরে, সিইউ 7 থেকে সিইউ 9-তে সার্ভারগুলি আপডেট করার পরে, তারা অগ্রাধিকারের ভিত্তিতে তালিকাভুক্ত নিম্নলিখিত চ্যালেঞ্জগুলি লক্ষ্য করা শুরু করে।
আমরা এসকিউএল সেন্ট্রি ব্যবহার করে সার্ভারগুলি পর্যবেক্ষণ করেছি এবং কোনও শারীরিক বাধা নেই observed সমস্ত মূল সূচক ভাল বলে মনে হচ্ছে। সিপিইউ গড়ে 20%, আইও বার সাধারণত 1 মিমের চেয়ে কম হয়, র্যাম সম্পূর্ণভাবে ব্যবহার হয় না এবং <1% নেটওয়ার্ক network
চ্যালেঞ্জ
ব্যর্থতার পরে লক্ষণগুলি আরও ভাল হয়ে গেছে বলে মনে হচ্ছে তবে কিছু দিনেই ফিরে আসবে, কোন সার্ভারটি প্রাথমিক তা বিবেচনা না করেই - উভয় সার্ভারে লক্ষণগুলি অভিন্ন।
বিক্ষিপ্ত ক্লায়েন্ট সময় আউট এবং সংযোগ ব্যর্থতা যেমন
... সংযোগ স্থাপনের সময় ত্রুটি ঘটেছে ...
অথবা
কার্যকর করার সময়সীমা শেষ হয়ে গেছে
কখনও কখনও এগুলি 40 সেকেন্ড পর্যন্ত চলতে থাকবে এবং তারপরে কমবে।
লেনদেন লগ ব্যাকআপ কাজ আগের চেয়ে 10 এক্স বেশি সময় নেয় পূর্বে এটি সমস্ত 500 ডাটাবেসের লগগুলি ব্যাক আপ করতে 2 - 3 মিনিট সময় নেয়, এখন এটি 15-25 নেয়। আমরা যাচাই করেছি যে ব্যাকআপ নিজেই ভাল থ্রুপুট দিয়ে সূক্ষ্মভাবে চলে। তবে একটি লগের ব্যাকআপ শেষ করার পরে এবং পরবর্তীটি শুরু করার আগে কিছুটা বিলম্ব রয়েছে। এটি খুব কম শুরু হয়, তবে এক বা দুই দিনের মধ্যে 2-3 সেকেন্ডে যায়। 500 ডাটাবেস দ্বারা গুণিত, এবং পার্থক্য আছে।
কখনও কখনও, কিছু আপাতদৃষ্টিতে এলোমেলো ডাটাবেসগুলি ম্যানুয়াল ফেলওভারের পরে "সিঙ্ক্রোনাইজিং নয়" অবস্থায় আটকে যায়। এর সমাধানের একমাত্র উপায় হ'ল হয় মাধ্যমিক প্রতিরূপে এসকিউএল সার্ভার পরিষেবাটি পুনরায় চালু করা, বা এই ডাটাবেসগুলিকে এজি-তে সরানো ও পুনরায় যোগদান করা।
সিইউ 10 দ্বারা প্রবর্তিত আরেকটি সমস্যা (এবং সিইউ 11-তে সমাধান করা হয়নি): মাস্টার.সাই.ডাটাবেসগুলিতে ব্লক করার ক্ষেত্রে গৌণ সময়সীমার সংযোগ এবং এমনকি মাধ্যমিক প্রতিরূপের জন্য এসএসএমএস অবজেক্ট এক্সপ্লোরার ব্যবহার করতে অক্ষম। মূল কারণটি মাইক্রোসফ্ট এসকিউএল সার্ভার ভিএসএস লেখক নীচের ক্যোয়ারী জারি করে অবরুদ্ধ করছেন বলে মনে হচ্ছে:
select name, recovery_model_desc, state_desc, CONVERT(integer, is_in_standby), ISNULL(source_database_id,0) from master.sys.databases
পর্যবেক্ষণ
আমি বিশ্বাস করি যে আমি ত্রুটি লগগুলিতে ধূমপানের বন্দুকটি পেয়েছি। ত্রুটি লগগুলি এজি বার্তাগুলিতে পূর্ণ, যেগুলি কেবল 'তথ্যবহুল' হিসাবে লেবেলযুক্ত, তবে দেখে মনে হয় এগুলি মোটেই সাধারণ নয় এবং অ্যাপ্লিকেশন ত্রুটির সাথে তাদের ফ্রিকোয়েন্সিটির খুব দৃ corre় সম্পর্ক রয়েছে।
ত্রুটিগুলি বিভিন্ন ধরণের এবং ক্রমানুসারে আসে:
DbMgrPartnerCommitPolicy :: সেটসাইঙ্কস্টেট: জিইউডি
DbMgrPartnerCommitPolicy :: SetSyncAndRec यस्ता পয়েন্ট: জিইউডি
সর্বদাআপনি উপলভ্যতা গ্রুপের সংযোগটি প্রাথমিক ডাটাবেস 'এক্সওয়াইজেড' এর জন্য প্রাপ্যতার প্রতিরূপ 'ডিবি' প্রতিরূপ আইডির সাথে শেষ হয়েছে: {GUID}। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।
সর্বদাআপনি উপলব্ধতা রেপ্লিকা আইডি সহ প্রাপ্যতা প্রতিলিপি 'ডিবি' নেভিগেশন প্রাথমিক ডাটাবেস 'এবিসি' জন্য প্রতিষ্ঠিত মাধ্যমিক ডাটাবেসের সাথে গোষ্ঠীগুলির সংযোগগুলি: UID GUID}। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।
কিছু দিন সেখানে 10 হাজার হাজার রয়েছে।
এই নিবন্ধটি এসকিউএল ২০১ on এ ত্রুটির একই ধরণের ক্রম নিয়ে আলোচনা করেছে এবং সেখানে এটি বলছে যে এটি অস্বাভাবিক। এটি ব্যর্থতার পরে 'অ-সিঙ্ক্রোনাইজিং' ঘটনাটিও ব্যাখ্যা করে। আলোচিত বিষয়টি ২০১ 2016 সালের এবং এটি এই বছরের শুরুর দিকে একটি সিইউতে স্থির করা হয়েছিল। তবে এটিই কেবলমাত্র প্রাসঙ্গিক রেফারেন্স যা আমি প্রথম 2 ধরণের বার্তাগুলির সন্ধান করতে পারি, স্বয়ংক্রিয় প্রাথমিক বীজ বার্তাগুলির উল্লেখ ব্যতীত যা এজি ইতিমধ্যে প্রতিষ্ঠিত হওয়ার কারণে এখানে হওয়া উচিত নয়।
এখানে গত সপ্তাহে প্রতিদিনের ত্রুটির সংক্ষিপ্তসার রইল যে দিনগুলিতে> প্রাইমারিতে টাইপ প্রতি> 10 কে ত্রুটি ছিল (দ্বিতীয় অনুষ্ঠানগুলি 'প্রাথমিকের সাথে সংযোগ হারাতে ...'):
Date Message Type (First 50 characters) Num Errors
10/8/2018 DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint: 61953
10/3/2018 DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint: 56812
10/4/2018 DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint: 27951
10/2/2018 DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint: 24158
10/7/2018 DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint: 14904
10/8/2018 Always On Availability Groups connection with seco 13301
10/3/2018 DbMgrPartnerCommitPolicy::SetSyncState: 783CAF81-4 11057
10/3/2018 Always On Availability Groups connection with seco 10080
আমরা মাঝে মধ্যে "অদ্ভুত" বার্তাও দেখতে পাই যেমন:
প্রাপ্যতা গোষ্ঠী ডাটাবেস "ডিবি" "সেকেন্ডারি" থেকে "সেকেন্ডারি" তে ভূমিকা পরিবর্তন করছে কারণ মিররিং সেশন বা প্রাপ্যতা গোষ্ঠী ভূমিকা সমন্বয়ের কারণে ব্যর্থ হয়েছে। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।
... "সেকেন্ডারি" থেকে "রিসোলভিং" তে পরিবর্তিত রাজ্যের হোস্টগুলির মধ্যে।
ম্যানুয়াল ফেইলওভারের পরে, সিস্টেমগুলি এই ধরণের কোনও একক বার্তা ছাড়াই বেশ কয়েকটি দিন যেতে পারে এবং হঠাৎ কোনও আপাত কারণ ছাড়াই আমরা একসাথে হাজার হাজার পাব, যার ফলে সার্ভারটি প্রতিক্রিয়াবিহীন হয়ে যায় এবং অ্যাপ্লিকেশনটির কারণ হতে পারে সংযোগের সময়সীমা। এটি একটি জটিল বাগ কারণ তাদের কিছু অ্যাপ্লিকেশন পুনরায় চেষ্টা করার পদ্ধতিটি অন্তর্ভুক্ত করে না এবং তাই ডেটা হারাতে পারে। ত্রুটিগুলির যেমন একটি ফাটল দেখা দিলে, নিম্নলিখিত অপেক্ষার প্রকারগুলি আকাশ-রকেট হয়। এজি সমস্ত ডাটাবেসের সাথে একবারে সংযোগ হারিয়েছে বলে মনে হচ্ছে তার ঠিক পরে অপেক্ষা করছে:
প্রায় 30 সেকেন্ড পরে, অপেক্ষাগুলির নিরিখে সবকিছু স্বাভাবিক হয়ে যায়, তবে এজি বার্তাগুলি বিভিন্ন হারে এবং দিনের বিভিন্ন সময়ে ত্রুটিযুক্ত লগগুলিকে বন্যা বজায় রাখে, আপাতদৃষ্টিতে এলোমেলো সময় ব্যয় করে। এই ত্রুটি বিস্ফোরণের সময় কাজের চাপে ক্রমবর্ধমান বৃদ্ধি অবশ্যই বিষয়টিকে আরও খারাপ করে তোলে। যদি শুধুমাত্র কয়েকটি ডাটাবেস সংযোগ বিচ্ছিন্ন হয়ে যায়, তবে এটি সাধারণত সংযোগগুলি সময়ের সাথে সাথে করতে পারে না কারণ এটি নিজেরাই যথেষ্ট দ্রুত সমাধান করা হয়।
আমরা যাচাই করার চেষ্টা করেছি যে এটি প্রকৃতপক্ষে CU9 যা ইস্যুটি শুরু করেছিল, তবে আমরা উভয় নোডকে কেবল CU9 এ ডাউনগ্রেড করতে সক্ষম হয়েছি। হয় নোডকে সিইউ 8-এ ডাউনগ্রেড করার প্রচেষ্টা, ফলে নোডটি 'সমাধান' অবস্থায় আটকে যায় লগতে একই ত্রুটি দেখায়:
সংশ্লিষ্ট রিসোর্স আইডি'র সাথে সর্বদা উপলভ্যতা গোষ্ঠীর স্থির কনফিগারেশনটি পড়তে পারে না…। অবিচলিত কনফিগারেশনটি একটি উচ্চ-সংস্করণ এসকিউএল সার্ভার দ্বারা রচিত যা প্রাথমিক উপলব্ধতার প্রতিরূপ রাখে। স্থানীয় প্রাপ্যতা প্রতিরূপটি গৌণ প্রতিরূপে পরিণত হওয়ার অনুমতি দিতে স্থানীয় এসকিউএল সার্ভার উদাহরণটি আপগ্রেড করুন।
এর অর্থ উভয় নোডকে একই সময়ে সিইউ 8-এ ডাউনগ্রেড করতে সক্ষম হতে আমাদের নিচে সময় প্রবর্তন করতে হবে। এটি এটিও প্রস্তাব করে যে এজি-তে কিছু বড় আপডেট ছিল যা আমাদের কী কী অভিজ্ঞতা দিচ্ছে তা ব্যাখ্যা করতে পারে।
আমরা ইতিমধ্যে এর ডিফল্ট 0 (= এই 9 টি 960 এই নিবন্ধের ভিত্তিতে ) এর ডিফল্ট থেকে ক্রমবর্ধমান ত্রুটিগুলিতে কোনও পর্যালোচনা ছাড়াই 2000 পর্যন্ত সামঞ্জস্য করার চেষ্টা করেছি ।
এই এজি সংযোগ বিচ্ছিন্ন করার জন্য আমরা কী করতে পারি? সেখানে কি কেউ একই ধরনের সমস্যার মুখোমুখি হচ্ছে? এজি-তে প্রচুর সংখ্যক ডাটাবেসযুক্ত অন্যান্য ব্যক্তিরা কি এসইউএল ত্রুটি লগতে সি ইউ 9 বা সিই 8 দিয়ে শুরু করে একই জাতীয় বার্তাগুলি দেখতে পাচ্ছেন?
কোনো সাহায্যের জন্য আগাম ধন্যবাদ!