এসকিউএল সার্ভারে, যখন কোনও সূচককে কেবল একটি ক্লাস্টারড সূচী দিয়ে একটি টেবিলের উপর চাপ দেওয়া হয়, তখন আমি কি স্পষ্ট অর্ডার বা অনুচ্ছেদে কোনও আদেশ ছাড়াই গ্যারান্টি দিতে পারি?


24

আপডেট 2014-12-18

মূল প্রশ্নের "না" হওয়ার অপ্রতিরোধ্য প্রতিক্রিয়াটির সাথে আরও আকর্ষণীয় প্রতিক্রিয়াগুলি খণ্ড ২-তে মনোনিবেশ করেছে, কীভাবে স্পষ্টভাবে পারফরম্যান্স ধাঁধাটি সমাধান করা যায় ORDER BY। যদিও আমি ইতিমধ্যে একটি উত্তর চিহ্নিত করেছি, এর থেকেও আরও ভাল পারফরম্যান্স সমাধান হলে আমি অবাক হব না।

মূল

এই প্রশ্নটি উত্থাপিত হয়েছিল কারণ একটি বিশেষ সমস্যার জন্য আমি খুঁজে পেলাম কেবলমাত্র দ্রুত সমাধান কেবল একটি ORDER BYধারা ছাড়াই কাজ করে । নীচে আমার প্রস্তাবিত সমাধানের সাথে সমস্যাটি তৈরি করার জন্য প্রয়োজনীয় টি-এসকিউএল প্রয়োজনীয় রয়েছে (যদি এসইকিউএল সার্ভার ২০০৮ আর 2 ব্যবহার করি তবে তা গুরুত্বপূর্ণ))

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

সমাধান যথাক্রমে সমাধান এ এবং বি এর কার্যকর করার পরিকল্পনা এখানে:

সল এ

সল বি

সলিউশন এ আমার প্রয়োজনীয় পারফরম্যান্স দেয়, তবে কোনও ধরণের অর্ডার বা ক্লজ (উদাহরণস্বরূপ, বি বি দেখুন) এর সাথে যুক্ত করার সময় আমি একই পারফরম্যান্সের সাথে কাজ করতে পারি না। এবং এটি অবশ্যই মনে হয় সলিউশন এ এর ​​ফলাফলগুলি যথাযথভাবে সরবরাহ করতে হবে, যেহেতু 1) টেবিলে এটিতে কেবল একটি সূচক রয়েছে, 2) একটি সন্ধান বাধ্য করা হয়, সুতরাং আইএএম পৃষ্ঠাগুলির উপর ভিত্তি করে বরাদ্দ আদেশের স্ক্যান ব্যবহারের সম্ভাবনাটি বাদ দেয় ।

সুতরাং আমার প্রশ্নগুলি হ'ল:

  1. আমি কি ঠিক বলছি যে এটি কোনও শর্ত ছাড়াই কোনও আদেশ ছাড়াই এই ক্ষেত্রে আদেশের গ্যারান্টি দেবে?

  2. যদি তা না হয় তবে সলিউশন এ এর ​​চেয়ে তাত্পর্যপূর্ণ এমন কোনও পরিকল্পনা জোর করার জন্য কি আরও একটি পদ্ধতি আছে, অগ্রাধিকারত এমনটি যা এড়িয়ে চলে? মনে রাখবেন যে একেবারে একই সমস্যাটি সমাধান করতে হবে (কারণ StoreID = 1, তাদের সর্বাধিক ব্যয়বহুল ক্রয়ের পরিমাণে অর্ডার করা শীর্ষ 500 গ্রাহককে সন্ধান করুন)। এটি এখনও #Ordersসারণী ব্যবহার করতে হবে , কিন্তু বিভিন্ন সূচীকরণ পরিকল্পনা ঠিক আছে।


16
অর্ডারিং কেবলমাত্র যদি আপনি ব্যবহার করেন তবে গ্যারান্টিযুক্ত ORDER BY
aloc

8
" আমি কি ঠিক বলেছি যে এটি কোনও ক্ষেত্রে ধারা দ্বারা আদেশ ছাড়াই এই ক্ষেত্রে আদেশের গ্যারান্টি দেবে " - না, একেবারেই নয়।
a_horse_with_no_name

3
এখানে একটি নিবন্ধ যা এটি ব্যাখ্যা করার একটি দুর্দান্ত কাজ করে। ব্লগস.এমএসএনএন বিবি
শন ল্যাঞ্জ

@ সানল্যাঞ্জ: আপনারা এবং অন্যদের মতো, আমি একই কারণে আদেশটি ছাড়তে স্বাচ্ছন্দ্যবোধ করি না। তবে, ক) সলিউশন এ এর ​​সাথে একই অর্ডার সম্পাদন করা হয়েছে যা অর্ডার বাই ব্যবহার করে, এবং খ) আমি কোনও উপায় জানি না যে এটি কোনওভাবেই তাদের অর্ডার দিতে পারে না of আপনি কি? আমি বলছি না যে কোনও উপায় নেই, আমি কেবল একটির সম্পর্কে জানি না, এবং আশা করছিলাম যে এটি যদি বিদ্যমান থাকে তবে কেউ তার একটি উচ্চারণ করতে পারে। এমনকি আপনি যে নিবন্ধটি উল্লেখ করেছেন তার উদাহরণগুলি কেবল অনুসন্ধানগুলি নয় এমন স্ক্যানগুলির জন্য প্রযোজ্য।
জনিএম

আপডেট: আমি এত বেশি সদৃশ এড়াতে পরিমাণের ডেটা টাইপ এবং গণনা পদ্ধতি পরিবর্তন করেছি। নীতিগুলি এখনও প্রয়োগ হয়। যদিও এই সমস্যাটিতে আমি যখন টাই থাকি তখন কে জিততে পারে তার যত্ন নেই, এত সংযোগ থাকার কারণে ডেটা দেখার সময় কী ঘটছে তা দেখা মুশকিল। এটি এখন আরও অনেক স্পষ্ট যে সম্পর্কগুলি ছাড়া, সমাধান এ এবং বি একই ফলাফল দেয়।
জনিএম

উত্তর:


23
  1. আমি কি ঠিক বলছি যে এটি কোনও শর্ত ছাড়াই কোনও আদেশ ছাড়াই এই ক্ষেত্রে আদেশের গ্যারান্টি দেবে?

না। একটি ফ্লো ডিস্টিন্ট যা অর্ডার সংরক্ষণ করে ( ORDER BYকোনও ধরণের ছাড়াই অনুমতি দেওয়া ) আজ এসকিউএল সার্ভারে প্রয়োগ করা হয়নি। নীতিগতভাবে এটি করা সম্ভব, তবে তারপরে যদি আমাদের এসকিউএল সার্ভার উত্স কোড পরিবর্তন করার অনুমতি দেওয়া হয় তবে অনেক কিছুই সম্ভব। আপনি যদি এই উন্নয়ন কাজের জন্য ভাল কেস করতে পারেন তবে আপনি এটি মাইক্রোসফ্টের কাছে প্রস্তাব দিতে পারেন

  1. যদি তা না হয় তবে সলিউশন এ এর ​​চেয়ে তাত্পর্যপূর্ণ এমন কোনও পরিকল্পনা জোর করার জন্য কি আরও একটি পদ্ধতি আছে, অগ্রাধিকারত এমনটি যা এড়িয়ে চলে?

হ্যাঁ। (কেবলমাত্র 2014-পূর্ব কার্ডিনালিটি প্রাক্কলনকারী ব্যবহার করার সময় সারণী ও ক্যোয়ারী ইঙ্গিতগুলি প্রয়োজন):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

প্রকৃত বাস্তবায়ন পরিকল্পনা

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

এসকিউএল সিএলআর সমাধান

নিম্নলিখিত স্ক্রিপ্ট বর্ণিত প্রয়োজনীয়তা মেটাতে একটি এসকিউএল সিএলআর টেবিল-মূল্যযুক্ত ফাংশন ব্যবহার করে দেখায়। আমি সি # বিশেষজ্ঞ নই, সুতরাং কোডটির উন্নতি হতে পারে:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

প্রশ্ন থেকে টেস্ট টেবিল এবং নমুনা ডেটা:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

ফাংশন পরীক্ষা:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

সম্পাদন পরিকল্পনা ( ORDERগ্যারান্টিটির বৈধতা নোট করুন ):

সিএলআর কার্য সম্পাদনের পরিকল্পনা

আমার ল্যাপটপে, এটি সাধারণত 80-100 মিমি কার্যকর করে। এটি উপরের টি-এসকিউএল পুনরায় লেখার মতো দ্রুততর কাছাকাছি আর কোথাও নেই, তবে এটি বিভিন্ন ডেটা বিতরণের ক্ষেত্রে ভাল পারফরম্যান্সের স্থায়িত্ব প্রদর্শন করা উচিত।

সোর্স কোড:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

একটি ছাড়া ORDER BYজিনিস অনেক ভুল হয়ে যেতে পারে। আমি ভাবতে পারি এমন সমস্ত সম্ভাব্য সমস্যাগুলি আপনি বাদ দিয়েছেন, তবে এর অর্থ এই নয় যে কোনও সমস্যা নেই বা ভবিষ্যতে প্রকাশে কোনও সমস্যাও থাকবে না।

এই কাজ করা উচিত:

একটি লুপে টেবিল থেকে 500 টি সারির ব্যাচগুলি টানুন এবং যখন আপনি 500 স্বতন্ত্র গ্রাহক আইডি পেয়েছেন তখন থামুন। আনতে ক্যোয়ারী এর মতো দেখতে পারে:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

এটি সূচকে একটি অর্ডার করা রেঞ্জ স্ক্যান করবে। Amount <= @lastAmountFetchedসম্পৃক্ত সেখানে বৃদ্ধিলাভ আরো রেকর্ড টান হয়। প্রতিটি ক্যোয়ারী কেবল শারীরিকভাবে 500 টি রেকর্ডকে স্পর্শ করবে। তার মানে এটি ও (1)। আপনি সূচকে আরও দূরে গেলে এটি বেশি ব্যয়বহুল হয়ে ওঠে না।

@lastAmountFetchedআপনাকে এই বিবৃতিতে যে ক্ষুদ্রতম মান এনেছে তা হ্রাস করতে আপনাকে পরিবর্তনশীল বজায় রাখতে হবে ।

এইভাবে আপনি ক্রমবর্ধমানভাবে একটি আদেশযুক্ত উপায়ে সূচকটি স্ক্যান করবেন। আপনি সর্বাধিক (500 - 1) সারিটি সর্বোত্তম পরিমাণের চেয়ে বেশি পড়বেন।

এটি সর্বদা 100000 বা একটি নির্দিষ্ট স্টোরের অর্ডার সংগ্রহের চেয়ে অনেক দ্রুত হবে। সম্ভবত, প্রতিটি 500 টি সারির কয়েকটি পুনরাবৃত্তির প্রয়োজন হবে।

মূলত, এটি ম্যানুয়ালি কোডড ফ্লো স্বতন্ত্র অপারেটর।

বিকল্পভাবে, যতটা সম্ভব সারি সারি পেতে একটি কার্সার ব্যবহার করুন। এটি অনেক ধীর হবে কারণ প্রায়শই 500 একক সারি ক্যোরিগুলি সম্পাদন করা 500 সারিগুলির একটি ব্যাচ কার্যকর করার চেয়ে ধীর হয়।

বিকল্পভাবে, কেবল অর্ডারযুক্ত পদ্ধতি ছাড়াই সমস্ত সারিগুলিকে জিজ্ঞাসা DISTINCTকরুন এবং ক্লায়েন্ট অ্যাপ্লিকেশনটি পর্যায়ে সারি ফিরে আসার পরে (ব্যবহার করে SqlCommand.Cancel) কোয়েরিটি বন্ধ করে দিন ।


1
এটিতে একটি গুরুত্বপূর্ণ বিবরণের অভাব রয়েছে - আপনি কীভাবে নিশ্চিত হয়ে যাবেন যে #fetchedOrdersআমরা ইতিমধ্যে দেখেছি এমন গ্রাহকরা নেই? সম্ভবত এই একটি সূচক টেম্প টেবিল, যা "স্বতন্ত্র প্রবাহিত" একটি হিসাবে পুরোপুরি একই জিনিস না এবং এর চাইতে জড়িত নেই আরো ব্যয়বহুল আরো সারি আমরা দেখা করেছি পেতে (যদিও এটি এখনও সব সমাধান বি কিন্তু সবচেয়ে খারাপ ক্ষেত্রে বীট হবে সমস্ত সারি স্ক্যান করতে হবে কারণ কেবলমাত্র একজন গ্রাহক রয়েছে, যার জন্য A এবং B একইভাবে সম্পাদন করবে)।

2
@ জিরোয়ানমাস্টার্ট - এটি IGNORE_DUP_KEYকরতে পারে।
মার্টিন স্মিথ

@ আরস: এর জন্য ধন্যবাদ আমি আইজিএনওরে_ডিউপি_কেই ব্যবহার করে কোড করেছিলাম এবং সংখ্যাগুলি চালিয়েছি এবং সিপিইউ টাইম = 31 এসএম, অতিবাহিত সময় = 27 মিমি পেয়েছি। যদিও সমাধান বি এর চেয়ে দ্রুত গতি, এটি সলিউশন এ (সিপিইউ = 0, এমএস = 1) এর কাছাকাছি আর নেই, যা আমার প্রয়োজনে এটি হওয়া দরকার needs আপনি যখন বলেছিলেন "আপনি যে সমস্ত সম্ভাব্য সমস্যাগুলি আমি ভাবতে পারি তা বাদ দিয়েছি", আমি ভাবছি যে কেউ ভাবতে পারে এমন সমস্ত সমস্যা বাদ দিয়েছি কি না । হতাশার বিষয়টি হ'ল, আমি এপি এর পারফেক্ট পেতে এসকিউএলকে কী করতে হবে তা কল্পনা করতে পারি, আমি কেবল অর্ডার দিয়ে এটি কীভাবে বলতে হয় তা জানি না।
জনিএম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.