মংডোব থেকে পান্ডায় কীভাবে ডেটা আমদানি করবেন?

Question 1

মঙ্গোদবের একটি সংকলনে আমার কাছে প্রচুর পরিমাণে ডেটা রয়েছে যা আমার বিশ্লেষণ করতে হবে। আমি কীভাবে সেই ডেটা পান্ডাতে আমদানি করব?

আমি পান্ডা এবং অদ্ভুত নতুন।

সম্পাদনা: মংডোডব সংগ্রহটিতে তারিখ এবং সময় সহ ট্যাগযুক্ত সেন্সর মান রয়েছে। সেন্সর মানগুলি ভাসমান ডেটাটাইপের হয়।

নমুনা তথ্য:

{
"_cls" : "SensorReport",
"_id" : ObjectId("515a963b78f6a035d9fa531b"),
"_types" : [
    "SensorReport"
],
"Readings" : [
    {
        "a" : 0.958069536790466,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"),
        "b" : 6.296118156595,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95574014778624,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"),
        "b" : 6.29651468650064,
        "_cls" : "Reading"
    },
    {
        "a" : 0.953648289182713,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:37.545Z"),
        "b" : 7.29679823731148,
        "_cls" : "Reading"
    },
    {
        "a" : 0.955931884300997,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:28:21.369Z"),
        "b" : 6.29642922525632,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95821381,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:20.801Z"),
        "b" : 7.28956613,
        "_cls" : "Reading"
    },
    {
        "a" : 4.95821335,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:36.931Z"),
        "b" : 6.28956574,
        "_cls" : "Reading"
    },
    {
        "a" : 9.95821341,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:42:09.971Z"),
        "b" : 0.28956488,
        "_cls" : "Reading"
    },
    {
        "a" : 1.95667927,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:43:55.463Z"),
        "b" : 0.29115237,
        "_cls" : "Reading"
    }
],
"latestReportTime" : ISODate("2013-04-02T08:43:55.463Z"),
"sensorName" : "56847890-0",
"reportCount" : 8
}

Question 2

pymongo আপনাকে একটি হাত দিতে পারে, অনুসরণগুলি এমন কয়েকটি কোড যা আমি ব্যবহার করছি:

import pandas as pd
from pymongo import MongoClient


def _connect_mongo(host, port, username, password, db):
    """ A util for making a connection to mongo """

    if username and password:
        mongo_uri = 'mongodb://%s:%s@%s:%s/%s' % (username, password, host, port, db)
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)


    return conn[db]


def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
    """ Read from Mongo and Store into DataFrame """

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

Question 3

আপনি এই কোডটি ব্যবহার করে আপনার মঙ্গোদব ডেটা পানডাস ডেটা ফ্রেমে লোড করতে পারেন। এটা আমার জন্য কাজ করে. আশা করি আপনার জন্যও।

import pymongo
import pandas as pd
from pymongo import MongoClient
client = MongoClient()
db = client.database_name
collection = db.collection_name
data = pd.DataFrame(list(collection.find()))

Question 4

Monaryঠিক এটি করে, এবং এটি সুপার দ্রুত । ( অন্য লিঙ্ক )

একটি দুর্দান্ত টিউটোরিয়াল এবং কিছু সময় অন্তর্ভুক্ত এই দুর্দান্ত পোস্টটি দেখুন ।

Question 5

পিইপি অনুসারে জটিল থেকে জটিল সহজ:

import pandas as pd
df = pd.DataFrame.from_records(db.<database_name>.<collection_name>.find())

আপনি নিয়মিত মঙ্গোডিবি ডাটাবেসের সাথে কাজ করতে বা ডেটাবেস থেকে কেবল একটি উপাদান পাওয়ার জন্য ফাইন্ড_োন () ব্যবহার করার কারণে আপনি শর্তাদি অন্তর্ভুক্ত করতে পারেন etc.

ও ভয়েলা!

Question 6

import pandas as pd
from odo import odo

data = odo('mongodb://localhost/db::collection', pd.DataFrame)

Question 7

আউট-অফ-কোর (র্যামের সাথে মানানসই নয়) দক্ষতার সাথে ডেটা ব্যবহার করার জন্য (অর্থাত্ সমান্তরাল সম্পাদনের সাথে), আপনি পাইথন ব্লেজ ইকোসিস্টেমটি চেষ্টা করতে পারেন : ব্লেজ / ডাস্ক / ওডো।

ব্লেজ (এবং ওডো ) -র মঙ্গোডিবি -র সাথে ডিল করার জন্য অফ-অফ-বক্স ফাংশন রয়েছে।

শুরু করার জন্য কয়েকটি দরকারী নিবন্ধ:

ব্লেজ এক্সপ্রেশনস উপস্থাপন করা হচ্ছে ( মঙ্গোডিবি ক্যোয়ার উদাহরণ সহ)
পুনরুত্পাদন: শব্দ সংখ্যা গণনা
ডাস্ক অ্যারে এবং ব্লেজের মধ্যে পার্থক্য

এবং একটি নিবন্ধ যা দেখায় যে ব্লেজ স্ট্যাকের মাধ্যমে কী আশ্চর্যজনক জিনিসগুলি সম্ভব: ব্লেজ এবং ইমপালার সাথে 1.7 বিলিয়ন রেডডিট মন্তব্য বিশ্লেষণ করে (মূলত, সেকেন্ডে 975 গিগাবাইট রেডডিট মন্তব্য জিজ্ঞাসা করা হয়)।

পিএস আমি এই প্রযুক্তির কোনওটির সাথেই অনুমোদিত নই।

Question 8

আমি খুব দরকারী যে অন্য একটি বিকল্পটি হ'ল:

from pandas.io.json import json_normalize

cursor = my_collection.find()
df = json_normalize(cursor)

এইভাবে আপনি নিখরচায় মংডোডব নথিগুলি মুক্ত করতে পারেন।

Question 9

ব্যবহার

pandas.DataFrame(list(...))

যদি পুনরুক্তি / জেনারেটরের ফলাফল বড় হয় তবে প্রচুর স্মৃতি গ্রহণ করবে

শেষে ছোট ছোট খণ্ড এবং কনক্ট তৈরি করা ভাল

def iterator2dataframes(iterator, chunk_size: int):
  """Turn an iterator into multiple small pandas.DataFrame

  This is a balance between memory and efficiency
  """
  records = []
  frames = []
  for i, record in enumerate(iterator):
    records.append(record)
    if i % chunk_size == chunk_size - 1:
      frames.append(pd.DataFrame(records))
      records = []
  if records:
    frames.append(pd.DataFrame(records))
  return pd.concat(frames)

Question 10

http://docs.mongodb.org/manual/references/mongoexport

সিএসভি এবং ব্যবহার read_csv বা জেএসওএন এবং ব্যবহার রফতানিDataFrame.from_records()

Question 11

ওয়েটিংকুওর এই দুর্দান্ত উত্তরের অনুসরণ করে আমি .read_sql () এবং .read_csv () এর সাথে সামঞ্জস্য রেখে চুনসাইজ ব্যবহার করে এমনটি করার সম্ভাবনা যুক্ত করতে চাই । আমি 'পুনরায়' / 'কার্সর' এর প্রতিটি 'রেকর্ড' এড়িয়ে এড়িয়ে ডিউ লেউংয়ের কাছ থেকে উত্তরটি বড় করি । আমি পূর্ববর্তী রিড_মঙ্গো ফাংশন ধার করব ।

def read_mongo(db, 
           collection, query={}, 
           host='localhost', port=27017, 
           username=None, password=None,
           chunksize = 100, no_id=True):
""" Read from Mongo and Store into DataFrame """


# Connect to MongoDB
#db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
client = MongoClient(host=host, port=port)
# Make a query to the specific DB and Collection
db_aux = client[db]


# Some variables to create the chunks
skips_variable = range(0, db_aux[collection].find(query).count(), int(chunksize))
if len(skips_variable)<=1:
    skips_variable = [0,len(skips_variable)]

# Iteration to create the dataframe in chunks.
for i in range(1,len(skips_variable)):

    # Expand the cursor and construct the DataFrame
    #df_aux =pd.DataFrame(list(cursor_aux[skips_variable[i-1]:skips_variable[i]]))
    df_aux =pd.DataFrame(list(db_aux[collection].find(query)[skips_variable[i-1]:skips_variable[i]]))

    if no_id:
        del df_aux['_id']

    # Concatenate the chunks into a unique df
    if 'df' not in locals():
        df =  df_aux
    else:
        df = pd.concat([df, df_aux], ignore_index=True)

return df

Question 12

রাফায়েল Valero, waitingkuo এবং Deu Leung মত অনুরূপ একটি পদ্ধতির ব্যবহার পত্রাঙ্কন :

def read_mongo(
       # db, 
       collection, query=None, 
       # host='localhost', port=27017, username=None, password=None,
       chunksize = 100, page_num=1, no_id=True):

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Calculate number of documents to skip
    skips = chunksize * (page_num - 1)

    # Sorry, this is in spanish
    # https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es
    if not query:
        query = {}

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query).skip(skips).limit(chunksize)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

Question 13

আপনি পিডিএমঙ্গো দিয়ে যা চান তা তিন লাইনে অর্জন করতে পারেন :

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [], "mongodb://localhost:27017/mydb")

যদি আপনার ডেটা খুব বড় হয় তবে আপনি চান না এমন ডেটা ফিল্টার করে আপনি প্রথমে একটি সামগ্রিক ক্যোয়ারী করতে পারেন, তারপরে এগুলি আপনার পছন্দসই কলামগুলিতে ম্যাপ করুন।

এখানে Readings.aকলামে ম্যাপিং এবং কলাম aদ্বারা ফিল্টারিংয়ের একটি উদাহরণ রয়েছে reportCount:

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [{'$match': {'reportCount': {'$gt': 6}}}, {'$unwind': '$Readings'}, {'$project': {'a': '$Readings.a'}}], "mongodb://localhost:27017/mydb")

read_mongoপাইমঙ্গো সমষ্টি হিসাবে একই যুক্তি গ্রহণ করে