Mysql
 sql >> база данни >  >> RDS >> Mysql

Как да вмъкнете огромен Pandas Dataframe в MySQL таблица с паралелно вмъкване?

Можете да направите няколко неща, за да постигнете това.

Един от начините е да използвате допълнителен аргумент, докато пишете в sql.

df.to_sql(method = 'multi')

Съгласно тази документация , предаването на 'multi' на аргумента на метода ви позволява да вмъквате групово.

Друго решение е да се създаде персонализирана функция за вмъкване с помощта на multiprocessing.dummy. ето връзката към документацията:https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy

import math
from multiprocessing.dummy import Pool as ThreadPool

...

def insert_df(df, *args, **kwargs):
    nworkers = 4 # number of workers that executes insert in parallel fashion

    chunk = math.floor(df.shape[0] / nworkers) # number of chunks
    chunks = [(chunk * i, (chunk * i) + chunk) for i in range(nworkers)]
    chunks.append((chunk * nworkers, df.shape[0]))
    pool = ThreadPool(nworkers)

    def worker(chunk):
        i, j = chunk
        df.iloc[i:j, :].to_sql(*args, **kwargs)

    pool.map(worker, chunks)
    pool.close()
    pool.join()

....

insert_df(df, "foo_bar", engine, if_exists='append')

Вторият метод беше предложен на https://stackoverflow.com/a/42164138/5614132 .




  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Отказ и отказ на Amazon RDS

  2. Вземете втората най-висока стойност в MySQL таблица

  3. Критерии за хибернация със самостоятелно присъединяване

  4. c9.io - как да намерите адреса на хоста, за да направите mysql връзка в платформата node.js

  5. SQL:Изберете транзакции, при които редовете не са от критерии в една и съща таблица