মেমরি-দক্ষ অন্তর্নির্মিত SQLlchemy পুনরুক্তি / জেনারেটর?

Question 1

আমার কাছে 10 মিলিয়ন ডলার রেকর্ডের মাইএসকিউএল টেবিল রয়েছে যা আমি এসকিএলএলকেমি ব্যবহার করে ইন্টারফেস করি। আমি দেখতে পেয়েছি যে এই টেবিলের বৃহত সাবসেটের ক্যোয়ারীগুলি খুব বেশি স্মৃতি গ্রাস করবে যদিও আমি ভেবেছিলাম যে আমি একটি বিল্ট-ইন জেনারেটর ব্যবহার করছি যা বুদ্ধি করে ডেটাসেটের কামড়-আকারের অংশ নিয়েছে:

for thing in session.query(Things):
    analyze(thing)

এটি এড়াতে, আমি দেখতে পাচ্ছি যে আমার নিজের পুনরুক্তি তৈরি করতে হবে যা খণ্ডগুলিতে কামড় দেয়:

lastThingID = None
while True:
    things = query.filter(Thing.id < lastThingID).limit(querySize).all()
    if not rows or len(rows) == 0: 
        break
    for thing in things:
        lastThingID = row.id
        analyze(thing)

এটি কি স্বাভাবিক বা এসএ অন্তর্নির্মিত জেনারেটর সম্পর্কিত কোনও কিছু আমি মিস করছি?

উত্তর এই প্রশ্ন নির্দেশ করে মেমরি খরচ হবে বলে আশা করা হয় না বলে মনে হয়।

Question 2

বেশিরভাগ ডিবিএপিআই বাস্তবায়নগুলি সজ্জিত হওয়ার সাথে সাথে সারিগুলি পুরোপুরি বাফার করে so সুতরাং সাধারণত, এসকিউএলএলএমি ওআরএম এমনকি একটি ফলাফলের হোল্ড পাওয়ার আগে পুরো ফলাফল সেটটি মেমরির মধ্যে থাকে।

তবে তারপরে, Queryউপায়টি হ'ল এটি হ'ল এটি আপনার ফলাফলগুলিতে আপনাকে ফেরত দেওয়ার আগে নির্ধারিত ফলাফলটিকে সম্পূর্ণরূপে লোড করে। যৌক্তিকতার সাথে এখানে অনুসন্ধানগুলি সম্পর্কিত প্রশ্নগুলি রয়েছে যা সাধারণ নির্বাচনী বক্তব্যের চেয়ে বেশি। উদাহরণস্বরূপ, অন্যান্য টেবিলগুলিতে যোগ দেয় যা একই ফলাফলের পরিচয় একাধিকবার একই ফলাফলের পরিচয় ফেরত দিতে পারে (আগ্রহী লোডিংয়ের সাথে সাধারণ), সারিগুলির পুরো সেটটি মেমরির মধ্যে থাকা দরকার যাতে সঠিক ফলাফলগুলি অন্যথায় সংগ্রহ করা যেতে পারে এবং যেমন আংশিক জনবহুল হতে পারে।

সুতরাং Queryমাধ্যমে এই আচরণ পরিবর্তন করার জন্য একটি বিকল্প উপলব্ধ করা হয় yield_per()। এই কলটি Queryব্যাচগুলিতে সারি তৈরি করবে , যেখানে আপনি এটি ব্যাচের আকার দিন। দস্তাবেজের বিবরণ হিসাবে, এটি কেবল তখনই উপযুক্ত যদি আপনি সংগ্রহের জন্য আগ্রহী কোনও ধরণের লোড না করে থাকেন তবে এটি মূলত যদি আপনি সত্যিই জানেন যে আপনি কী করছেন। এছাড়াও, যদি অন্তর্নিহিত DBAPI প্রাক-বাফার সারিগুলি থাকে তবে এখনও সেই মেমরির ওভারহেড থাকবে তাই পদ্ধতিকে এটি ব্যবহার না করার চেয়ে সামান্য ভাল স্কেল করে।

আমি খুব কমই ব্যবহার করি yield_per(); পরিবর্তে, আপনি উইন্ডো ফাংশনগুলি ব্যবহার করে উপরে প্রস্তাবিত LIMIT পদ্ধতির উন্নত সংস্করণ ব্যবহার করুন। সীমাবদ্ধ এবং অফসেট একটি বিশাল সমস্যা রয়েছে যে খুব বড় অফসেট মানগুলি কোয়েরিটিকে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে নামিয়ে দেয় it's সারি বৃহত এবং বৃহত্তর সংখ্যা। উইন্ডো-ফাংশন পদ্ধতির সাথে, আমি "উইন্ডো" মানগুলির একটি সেট পূর্বে নিয়েছি যা আমি নির্বাচন করতে চাইলে সারণীর খণ্ডগুলি উল্লেখ করে। আমি তারপরে পৃথক নির্বাচন নির্বাচন করুন যা প্রতিটি সময়ে একবারে সেই উইন্ডোগুলির মধ্যে একটি থেকে টানা থাকে।

উইন্ডো ফাংশন পদ্ধতির উইকিতে রয়েছে এবং আমি এটি দুর্দান্ত সাফল্যের সাথে ব্যবহার করি।

এছাড়াও নোট করুন: সমস্ত ডাটাবেস উইন্ডো ফাংশন সমর্থন করে না; আপনার পোস্টগ্রেএসকিএল, ওরাকল বা এসকিউএল সার্ভার দরকার। আইএমএইচও কমপক্ষে পোস্টগ্র্যাস্কেল ব্যবহার করা অবশ্যই এর পক্ষে মূল্যবান - যদি আপনি কোনও সম্পর্কযুক্ত ডাটাবেস ব্যবহার করেন তবে আপনি সম্ভবত সেরাটি ব্যবহার করতে পারেন।

Question 3

আমি কোনও ডাটাবেস বিশেষজ্ঞ নই, তবে এসকিউএলএলচেমিকে সাধারণ পাইথন বিমূর্ত স্তর হিসাবে ব্যবহার করার সময় (অর্থাত্, ওআরএম কোয়েরি অবজেক্টটি ব্যবহার না করে) আমি মেমরির ব্যবহার বিস্ফোরিত না করে 300M-সারি টেবিলটি জিজ্ঞাসা করার একটি সন্তোষজনক সমাধান নিয়ে এসেছি ...

এখানে একটি ছদ্মবেশী উদাহরণ:

from sqlalchemy import create_engine, select

conn = create_engine("DB URL...").connect()
q = select([huge_table])

proxy = conn.execution_options(stream_results=True).execute(q)

তারপরে, আমি fetchmany()অসীম লুপটিতে ফলাফলগুলি পুনরাবৃত্তি করতে SQLAlchemy পদ্ধতিটি ব্যবহার করি while:

while 'batch not empty':  # equivalent of 'while True', but clearer
    batch = proxy.fetchmany(100000)  # 100,000 rows at a time

    if not batch:
        break

    for row in batch:
        # Do your stuff here...

proxy.close()

এই পদ্ধতিটি আমাকে কোনও বিপজ্জনক স্মৃতি ওভারহেড ছাড়াই সমস্ত ধরণের ডেটাগ্রাফিকেশন করার অনুমতি দেয়।

NOTE stream_resultsPostgres এবং সাথে কাজ করে pyscopg2অ্যাডাপ্টারের, কিন্তু আমি অনুমান এটা কোনো DBAPI সাথে কাজ করবে না, কিংবা কোনো ডাটাবেসের ড্রাইভারের সাথে ...

এই ব্লগ পোস্টে একটি আকর্ষণীয় ইউজকেস রয়েছে যা আমার উপরের পদ্ধতিটিকে অনুপ্রাণিত করে।

Question 4

আমি এসকিউএএলএলচেমির সাথে দক্ষ ট্র্যাভারসাল / পেজিংয়ের সন্ধান করছি এবং এই উত্তরটি আপডেট করতে চাই।

আমি মনে করি আপনি কোনও ক্যোয়ারির সুযোগটি সঠিকভাবে সীমাবদ্ধ করতে স্লাইস কলটি ব্যবহার করতে পারেন এবং আপনি দক্ষতার সাথে এটি পুনরায় ব্যবহার করতে পারেন।

উদাহরণ:

window_size = 10  # or whatever limit you like
window_idx = 0
while True:
    start,stop = window_size*window_idx, window_size*(window_idx+1)
    things = query.slice(start, stop).all()
    if things is None:
        break
    for thing in things:
        analyze(thing)
    if len(things) < window_size:
        break
    window_idx += 1

Question 5

জোয়েলের উত্তরের চেতনায় আমি নিম্নলিখিতটি ব্যবহার করি:

WINDOW_SIZE = 1000
def qgen(query):
    start = 0
    while True:
        stop = start + WINDOW_SIZE
        things = query.slice(start, stop).all()
        if len(things) == 0:
            break
        for thing in things:
            yield thing
        start += WINDOW_SIZE

Question 6

সীমাবদ্ধ / অফফেসটি ব্যবহার করা খারাপ, কারণ আপনাকে আগে সমস্ত {OFFSET} কলামগুলি খুঁজে বের করতে হবে, সুতরাং বৃহত্তর অফসেট হবে - আপনি যে দীর্ঘতর অনুরোধ পাবেন। আমার জন্য উইন্ডোযুক্ত ক্যোয়ারী ব্যবহার করা বৃহত পরিমাণে ডেটা সহ বড় টেবিলে খারাপ ফলাফল দেয় (আপনি খুব বেশি সময়ের জন্য প্রথম ফলাফলের জন্য অপেক্ষা করেন, এটি খণ্ডিত ওয়েব প্রতিক্রিয়ার জন্য আমার ক্ষেত্রে ভাল নয়)।

এখানে https://stackoverflow.com/a/27169302/450103 দেওয়া সেরা পন্থা । আমার ক্ষেত্রে আমি কেবল ডেটটাইম ফিল্ডে সূচক ব্যবহার করে এবং ডেটটাইম> = পূর্ববর্তী_সাময়ের সাথে পরবর্তী জিজ্ঞাসাটি আনতে সমস্যার সমাধান করেছি। বোকা, কারণ আমি আগে থেকে বিভিন্ন ক্ষেত্রে সেই সূচকটি ব্যবহার করেছিলাম, তবে ভেবেছিলাম যে সমস্ত ডেটা উইন্ডোড কোয়েরি আনার জন্য আরও ভাল হবে। আমার ক্ষেত্রে আমি ভুল ছিল।

Question 7

আফাইক, প্রথম রূপটি এখনও টেবিল থেকে সমস্ত টিপল পায় (একটি এসকিউএল কোয়েরি সহ) তবে পুনরাবৃত্তির সময় প্রতিটি সত্তার জন্য ORM উপস্থাপনা তৈরি করে। সুতরাং এটি পুনরাবৃত্ত হওয়ার আগে সমস্ত সত্তার একটি তালিকা তৈরির চেয়ে বেশি দক্ষ তবে আপনাকে এখনও সমস্ত (কাঁচা) ডেটা মেমরিতে আনতে হবে।

সুতরাং, বিশাল টেবিলগুলিতে লিমিট ব্যবহার করা আমার কাছে ভাল ধারণা বলে মনে হচ্ছে।