500 টি ডাটাবেস সহ এসকিউএল সার্ভার 2017 - ঘন ঘন এজি সিইউ 9 থেকে সংযোগ বিচ্ছিন্ন করে


15

সবাইকে হাই এবং আপনার সহায়তার জন্য আগাম ধন্যবাদ। আমরা এসকিউএল সার্ভার 2017 উপলভ্যতা গোষ্ঠীগুলির সাথে চ্যালেঞ্জগুলি অনুভব করছি।

পটভূমি

সংস্থাটি একটি খুচরা বি 2 বি ব্যাক-এন্ড সফ্টওয়্যার। প্রায় 500 একক ভাড়াটে ডাটাবেস, এবং সমস্ত ভাড়াটেদের দ্বারা ব্যবহৃত 5 ভাগ ডাটাবেস। কাজের চাপের বৈশিষ্ট্য বেশিরভাগ ক্ষেত্রেই পড়া হয় এবং বেশিরভাগ ডাটাবেসের মধ্যে খুব কম কার্যকলাপ থাকে।

সহ-স্থানে হোস্ট করা শারীরিক উত্পাদনের সার্ভারগুলি সম্প্রতি একটি শেয়ার্ড SAN / FCI কনফিগারেশনে উইন্ডোজ সার্ভার ২০১২-এর এসকিউএল সার্ভার ২০১৪ এন্টারপ্রাইজ থেকে আপগ্রেড করা হয়েছে, একটি সকেট / 32 কোর / 768 জিবি র‌্যাম এবং লোকাল 2016 এ উইন্ডোজ সার্ভারে এসকিউএল সার্ভার 2017 এন্টারপ্রাইজে উন্নীত করা হয়েছে এসএসডি ড্রাইভগুলি সর্বদাআন এজি ব্যবহার করে। এজি ট্র্যাফিক একটি অতিক্রমকৃত তারের সংযোগ সহ ডেডিকেটেড 10 জি এনআইসি বন্দর ব্যবহার করে।

তাদের প্রয়োজনীয়তা হ'ল সমস্ত ডাটাবেস একসাথে ব্যর্থ হওয়ার জন্য, সুতরাং সেগুলি সমস্ত একক এজিতে রাখতে হয়েছিল। এটি একটি অভিন্ন সার্ভারে একক, অ-পঠনযোগ্য সিঙ্ক্রোনাস প্রতিরূপ।

নতুন সার্ভারগুলি জুন ২০১ since সাল থেকে উত্পাদনে রয়েছে Latest সর্বশেষ সিইউ (তত্কালীন সিইউ 7) এবং উইন্ডোজ আপডেট ইনস্টল করা হয়েছিল এবং সিস্টেমটি ভালভাবে কাজ করছে। প্রায় এক মাস পরে, সিইউ 7 থেকে সিইউ 9-তে সার্ভারগুলি আপডেট করার পরে, তারা অগ্রাধিকারের ভিত্তিতে তালিকাভুক্ত নিম্নলিখিত চ্যালেঞ্জগুলি লক্ষ্য করা শুরু করে।

আমরা এসকিউএল সেন্ট্রি ব্যবহার করে সার্ভারগুলি পর্যবেক্ষণ করেছি এবং কোনও শারীরিক বাধা নেই observed সমস্ত মূল সূচক ভাল বলে মনে হচ্ছে। সিপিইউ গড়ে 20%, আইও বার সাধারণত 1 মিমের চেয়ে কম হয়, র‌্যাম সম্পূর্ণভাবে ব্যবহার হয় না এবং <1% নেটওয়ার্ক network

চ্যালেঞ্জ

ব্যর্থতার পরে লক্ষণগুলি আরও ভাল হয়ে গেছে বলে মনে হচ্ছে তবে কিছু দিনেই ফিরে আসবে, কোন সার্ভারটি প্রাথমিক তা বিবেচনা না করেই - উভয় সার্ভারে লক্ষণগুলি অভিন্ন।

  1. বিক্ষিপ্ত ক্লায়েন্ট সময় আউট এবং সংযোগ ব্যর্থতা যেমন

    ... সংযোগ স্থাপনের সময় ত্রুটি ঘটেছে ...

    অথবা

    কার্যকর করার সময়সীমা শেষ হয়ে গেছে

    কখনও কখনও এগুলি 40 সেকেন্ড পর্যন্ত চলতে থাকবে এবং তারপরে কমবে।

  2. লেনদেন লগ ব্যাকআপ কাজ আগের চেয়ে 10 এক্স বেশি সময় নেয় পূর্বে এটি সমস্ত 500 ডাটাবেসের লগগুলি ব্যাক আপ করতে 2 - 3 মিনিট সময় নেয়, এখন এটি 15-25 নেয়। আমরা যাচাই করেছি যে ব্যাকআপ নিজেই ভাল থ্রুপুট দিয়ে সূক্ষ্মভাবে চলে। তবে একটি লগের ব্যাকআপ শেষ করার পরে এবং পরবর্তীটি শুরু করার আগে কিছুটা বিলম্ব রয়েছে। এটি খুব কম শুরু হয়, তবে এক বা দুই দিনের মধ্যে 2-3 সেকেন্ডে যায়। 500 ডাটাবেস দ্বারা গুণিত, এবং পার্থক্য আছে।

  3. কখনও কখনও, কিছু আপাতদৃষ্টিতে এলোমেলো ডাটাবেসগুলি ম্যানুয়াল ফেলওভারের পরে "সিঙ্ক্রোনাইজিং নয়" অবস্থায় আটকে যায়। এর সমাধানের একমাত্র উপায় হ'ল হয় মাধ্যমিক প্রতিরূপে এসকিউএল সার্ভার পরিষেবাটি পুনরায় চালু করা, বা এই ডাটাবেসগুলিকে এজি-তে সরানো ও পুনরায় যোগদান করা।

  4. সিইউ 10 দ্বারা প্রবর্তিত আরেকটি সমস্যা (এবং সিইউ 11-তে সমাধান করা হয়নি): মাস্টার.সাই.ডাটাবেসগুলিতে ব্লক করার ক্ষেত্রে গৌণ সময়সীমার সংযোগ এবং এমনকি মাধ্যমিক প্রতিরূপের জন্য এসএসএমএস অবজেক্ট এক্সপ্লোরার ব্যবহার করতে অক্ষম। মূল কারণটি মাইক্রোসফ্ট এসকিউএল সার্ভার ভিএসএস লেখক নীচের ক্যোয়ারী জারি করে অবরুদ্ধ করছেন বলে মনে হচ্ছে:

    select name, 
           recovery_model_desc, 
           state_desc, 
           CONVERT(integer, is_in_standby), 
           ISNULL(source_database_id,0) 
      from master.sys.databases

পর্যবেক্ষণ

আমি বিশ্বাস করি যে আমি ত্রুটি লগগুলিতে ধূমপানের বন্দুকটি পেয়েছি। ত্রুটি লগগুলি এজি বার্তাগুলিতে পূর্ণ, যেগুলি কেবল 'তথ্যবহুল' হিসাবে লেবেলযুক্ত, তবে দেখে মনে হয় এগুলি মোটেই সাধারণ নয় এবং অ্যাপ্লিকেশন ত্রুটির সাথে তাদের ফ্রিকোয়েন্সিটির খুব দৃ corre় সম্পর্ক রয়েছে।

ত্রুটিগুলি বিভিন্ন ধরণের এবং ক্রমানুসারে আসে:

  • DbMgrPartnerCommitPolicy :: সেটসাইঙ্কস্টেট: জিইউডি

  • DbMgrPartnerCommitPolicy :: SetSyncAndRec यस्ता পয়েন্ট: জিইউডি

  • সর্বদাআপনি উপলভ্যতা গ্রুপের সংযোগটি প্রাথমিক ডাটাবেস 'এক্সওয়াইজেড' এর জন্য প্রাপ্যতার প্রতিরূপ 'ডিবি' প্রতিরূপ আইডির সাথে শেষ হয়েছে: {GUID}। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।

  • সর্বদাআপনি উপলব্ধতা রেপ্লিকা আইডি সহ প্রাপ্যতা প্রতিলিপি 'ডিবি' নেভিগেশন প্রাথমিক ডাটাবেস 'এবিসি' জন্য প্রতিষ্ঠিত মাধ্যমিক ডাটাবেসের সাথে গোষ্ঠীগুলির সংযোগগুলি: UID GUID}। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।

কিছু দিন সেখানে 10 হাজার হাজার রয়েছে।

এই নিবন্ধটি এসকিউএল ২০১ on এ ত্রুটির একই ধরণের ক্রম নিয়ে আলোচনা করেছে এবং সেখানে এটি বলছে যে এটি অস্বাভাবিক। এটি ব্যর্থতার পরে 'অ-সিঙ্ক্রোনাইজিং' ঘটনাটিও ব্যাখ্যা করে। আলোচিত বিষয়টি ২০১ 2016 সালের এবং এটি এই বছরের শুরুর দিকে একটি সিইউতে স্থির করা হয়েছিল। তবে এটিই কেবলমাত্র প্রাসঙ্গিক রেফারেন্স যা আমি প্রথম 2 ধরণের বার্তাগুলির সন্ধান করতে পারি, স্বয়ংক্রিয় প্রাথমিক বীজ বার্তাগুলির উল্লেখ ব্যতীত যা এজি ইতিমধ্যে প্রতিষ্ঠিত হওয়ার কারণে এখানে হওয়া উচিত নয়।

এখানে গত সপ্তাহে প্রতিদিনের ত্রুটির সংক্ষিপ্তসার রইল যে দিনগুলিতে> প্রাইমারিতে টাইপ প্রতি> 10 কে ত্রুটি ছিল (দ্বিতীয় অনুষ্ঠানগুলি 'প্রাথমিকের সাথে সংযোগ হারাতে ...'):

Date        Message Type (First 50 characters)                  Num Errors
10/8/2018   DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint:  61953
10/3/2018   DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint:  56812
10/4/2018   DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint:  27951
10/2/2018   DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint:  24158
10/7/2018   DbMgrPartnerCommitPolicy::SetSyncAndRecoveryPoint:  14904
10/8/2018   Always On Availability Groups connection with seco  13301
10/3/2018   DbMgrPartnerCommitPolicy::SetSyncState: 783CAF81-4  11057
10/3/2018   Always On Availability Groups connection with seco  10080

আমরা মাঝে মধ্যে "অদ্ভুত" বার্তাও দেখতে পাই যেমন:

প্রাপ্যতা গোষ্ঠী ডাটাবেস "ডিবি" "সেকেন্ডারি" থেকে "সেকেন্ডারি" তে ভূমিকা পরিবর্তন করছে কারণ মিররিং সেশন বা প্রাপ্যতা গোষ্ঠী ভূমিকা সমন্বয়ের কারণে ব্যর্থ হয়েছে। এই শুধুমাত্র একটি তথ্য বার্তা। কোন ব্যবহারকারী কর্ম প্রয়োজন বোধ করা হয়।

... "সেকেন্ডারি" থেকে "রিসোলভিং" তে পরিবর্তিত রাজ্যের হোস্টগুলির মধ্যে।

ম্যানুয়াল ফেইলওভারের পরে, সিস্টেমগুলি এই ধরণের কোনও একক বার্তা ছাড়াই বেশ কয়েকটি দিন যেতে পারে এবং হঠাৎ কোনও আপাত কারণ ছাড়াই আমরা একসাথে হাজার হাজার পাব, যার ফলে সার্ভারটি প্রতিক্রিয়াবিহীন হয়ে যায় এবং অ্যাপ্লিকেশনটির কারণ হতে পারে সংযোগের সময়সীমা। এটি একটি জটিল বাগ কারণ তাদের কিছু অ্যাপ্লিকেশন পুনরায় চেষ্টা করার পদ্ধতিটি অন্তর্ভুক্ত করে না এবং তাই ডেটা হারাতে পারে। ত্রুটিগুলির যেমন একটি ফাটল দেখা দিলে, নিম্নলিখিত অপেক্ষার প্রকারগুলি আকাশ-রকেট হয়। এজি সমস্ত ডাটাবেসের সাথে একবারে সংযোগ হারিয়েছে বলে মনে হচ্ছে তার ঠিক পরে অপেক্ষা করছে:

যখন এজি ত্রুটিগুলির তীব্র ফেটে যায় তখন অপেক্ষা করুন

প্রায় 30 সেকেন্ড পরে, অপেক্ষাগুলির নিরিখে সবকিছু স্বাভাবিক হয়ে যায়, তবে এজি বার্তাগুলি বিভিন্ন হারে এবং দিনের বিভিন্ন সময়ে ত্রুটিযুক্ত লগগুলিকে বন্যা বজায় রাখে, আপাতদৃষ্টিতে এলোমেলো সময় ব্যয় করে। এই ত্রুটি বিস্ফোরণের সময় কাজের চাপে ক্রমবর্ধমান বৃদ্ধি অবশ্যই বিষয়টিকে আরও খারাপ করে তোলে। যদি শুধুমাত্র কয়েকটি ডাটাবেস সংযোগ বিচ্ছিন্ন হয়ে যায়, তবে এটি সাধারণত সংযোগগুলি সময়ের সাথে সাথে করতে পারে না কারণ এটি নিজেরাই যথেষ্ট দ্রুত সমাধান করা হয়।

আমরা যাচাই করার চেষ্টা করেছি যে এটি প্রকৃতপক্ষে CU9 যা ইস্যুটি শুরু করেছিল, তবে আমরা উভয় নোডকে কেবল CU9 এ ডাউনগ্রেড করতে সক্ষম হয়েছি। হয় নোডকে সিইউ 8-এ ডাউনগ্রেড করার প্রচেষ্টা, ফলে নোডটি 'সমাধান' অবস্থায় আটকে যায় লগতে একই ত্রুটি দেখায়:

সংশ্লিষ্ট রিসোর্স আইডি'র সাথে সর্বদা উপলভ্যতা গোষ্ঠীর স্থির কনফিগারেশনটি পড়তে পারে না…। অবিচলিত কনফিগারেশনটি একটি উচ্চ-সংস্করণ এসকিউএল সার্ভার দ্বারা রচিত যা প্রাথমিক উপলব্ধতার প্রতিরূপ রাখে। স্থানীয় প্রাপ্যতা প্রতিরূপটি গৌণ প্রতিরূপে পরিণত হওয়ার অনুমতি দিতে স্থানীয় এসকিউএল সার্ভার উদাহরণটি আপগ্রেড করুন।

এর অর্থ উভয় নোডকে একই সময়ে সিইউ 8-এ ডাউনগ্রেড করতে সক্ষম হতে আমাদের নিচে সময় প্রবর্তন করতে হবে। এটি এটিও প্রস্তাব করে যে এজি-তে কিছু বড় আপডেট ছিল যা আমাদের কী কী অভিজ্ঞতা দিচ্ছে তা ব্যাখ্যা করতে পারে।

আমরা ইতিমধ্যে এর ডিফল্ট 0 (= এই 9 টি 960 এই নিবন্ধের ভিত্তিতে ) এর ডিফল্ট থেকে ক্রমবর্ধমান ত্রুটিগুলিতে কোনও পর্যালোচনা ছাড়াই 2000 পর্যন্ত সামঞ্জস্য করার চেষ্টা করেছি ।

এই এজি সংযোগ বিচ্ছিন্ন করার জন্য আমরা কী করতে পারি? সেখানে কি কেউ একই ধরনের সমস্যার মুখোমুখি হচ্ছে? এজি-তে প্রচুর সংখ্যক ডাটাবেসযুক্ত অন্যান্য ব্যক্তিরা কি এসইউএল ত্রুটি লগতে সি ইউ 9 বা সিই 8 দিয়ে শুরু করে একই জাতীয় বার্তাগুলি দেখতে পাচ্ছেন?

কোনো সাহায্যের জন্য আগাম ধন্যবাদ!

উত্তর:


9

হালনাগাদ:

  1. ঘন ঘন উপলভ্যতা গোষ্ঠীর সংযোগ বিচ্ছিন্নতাগুলি CU9 দ্বারা প্রবর্তিত একটি রিগ্রেশন বলে নিশ্চিত হয়েছিল এবং CU12 ইনস্টল করার পরে সেগুলি সমাধান করা হয়েছিল।
  2. গৌণ প্রতিরূপে ব্লক করা সমস্যাগুলি সিইউ 10 তে প্রবর্তিত ভিএসএস রাইটার কোডের আপডেটের সাথে একটি সমস্যা বলে নিশ্চিত হয়েছিল। আশা করি এটি সিউ 13 তে সমাধান হয়ে যাবে। অন্তর্বর্তী সমাধানটি হ'ল ভিএসএস লেখক ডিএলএলগুলিকে ম্যানুয়ালি প্রি-সিইউ 10 ডিএলএল প্রতিস্থাপন করা ...

    BEGIN RANT-SACTION;

    দুর্ভাগ্যক্রমে, মাইক্রোসফ্ট বারবার সঠিকভাবে কিউএ ব্যর্থ হতে পারে বলে মনে হচ্ছে কেবল উইন্ডোজ 10 আপডেট নয়, তবে এসকিউএল সার্ভারের মতো এন্টারপ্রাইজ মিশন সমালোচনা সফটওয়্যারও।

    আমি তাদের সার্ভিস প্যাকগুলির পূর্ববর্তী কৌশলটি অনেক পছন্দ করেছি, কমপক্ষে অর্ধ বেকড আপডেটগুলি গাফিলতির সাথে তাদের গ্রাহকদের উত্পাদন সঙ্কট এবং ডেটা হ্রাসের আগে তাদের সঠিকভাবে পরীক্ষা করার জন্য পর্যাপ্ত সময় ছিল।

    COMMIT RANT-SACTION;

2

আপনি কর্মীদের থ্রেড পরীক্ষা করেছেন? সাধারণত সবসময় কাজ করার জন্য আরও শ্রমিকদের থ্রেড ব্যবহার করা হয় এবং সাধারণভাবে ডিফল্ট মানটি যথেষ্ট নয়। আমার সর্বদা চালু থাকা database০০ ডাটাবেসগুলির সাথে একই সমস্যা ছিল, তাই আমরা উদাহরণ প্যারামিটারে আরও থ্রেড যুক্ত করি এবং এটি আমাদের সমস্যাটিকে স্থির করে। আশাকরি এটা সাহায্য করবে!


2
হাই @ গঞ্জালো এবং পরামর্শের জন্য ধন্যবাদ। আমরা ইতিমধ্যে ম্যাক্স_ওয়ার্কার_থ্রেডস সেটিং কোণটি কভার করেছি, যদিও আমরা "কোনও কর্মী থ্রেড উপলব্ধ নেই" এর মতো ত্রুটিগুলি অনুভব করি নি যেখানে এমন পর্যায়ে থ্রেড নেই এমন ক্ষেত্রে সাধারণ are আমাদের বাক্সের জন্য ডিফল্টটি 1k থ্রেডের চেয়ে কম ছিল, আমরা ত্রুটিগুলিতে কোনও পর্যবেক্ষণ প্রভাব ছাড়াই ধীরে ধীরে এটি 2K পর্যন্ত বাড়িয়েছি। আমরা কর্মী থ্রেড মেট্রিকগুলি সংগ্রহ করি এবং এজি থ্রেড সহ এগুলি গড়ে 1500 গড়ে যায় যা সর্বোচ্চের দিকে গণনা করা হয় না। অতএব, আমরা থ্রেড সীমা থেকে অনেক দূরে।
এসকিউএলাপ্টোর
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.