python Pandas数据框到对象实例的数组插入批量数据库效率

villoro 2020-02-04 17:40

如果您确实需要快速解决方案，建议您直接使用来哑表pandas。

首先让我们为您的示例创建数据：

import pandas as pd

data = {
    'Time': {0: 0.0, 1: 0.1, 2: 0.2},
    'Temperature': {0: 7.8, 1: 7.9, 2: 7.6},
    'Voltage': {0: 14, 1: 12, 2: 15},
    'Current': {0: 56, 1: 58, 2: 55}
}
df = pd.DataFrame(data)

现在，您应该转换数据框，以使您具有所需的列melt：

df = df.melt(["Time"], var_name="parameter", value_name="parameter_value")

此时，您应该将parameter值映射到外部id。我将params举一个例子：

params = {"Temperature": 1, "Voltage": 2, "Current": 3}
df["parameter"] = df["parameter"].map(params)

此时，数据框将如下所示：

   Time  parameter  parameter_value
0   0.0          1              7.8
1   0.1          1              7.9
2   0.2          1              7.6
3   0.0          2             14.0
4   0.1          2             12.0
5   0.2          2             15.0
6   0.0          3             56.0
7   0.1          3             58.0
8   0.2          3             55.0

现在，要使用 pandas 导出，您可以使用：

import sqlalchemy as sa
engine = sa.create_engine("use your connection data")
df.to_sql(name="my_table", con=engine, if_exists="append", index=False)

但是，当我使用它时，它的速度还不足以满足我们的要求。因此，我建议您使用cursor.copy_frominsted，因为速度更快：

from io import StringIO

output = StringIO()
df.to_csv(output, sep=';', header=False, index=False, columns=df.columns)
output.getvalue()
# jump to start of stream
output.seek(0)

# Insert df into postgre
connection = engine.raw_connection()
with connection.cursor() as cursor:
    cursor.copy_from(output, "my_table", sep=';', null="NULL", columns=(df.columns))
    connection.commit()

我们尝试了数百万次，这是使用PostgreSQL时最快的方法。

Mormoran 2020-02-04 20:05:48

在尝试此方法后，出现错误cursor.copy_from(output, "data", sep=';', null="NULL", columns=(df.columns))。回溯显示为：Expected bytes or unicode string, got numpy.float64 instead，我认为这是由于未在某处提供正确的数据值。（data是我要插入的表的名称）。我以前没有使用过这种方法，您对这里发生的事情有一个了解吗？（此时，我已经走出了我的舒适区，以前从未使用过sqlalchemy或stringIO，因此在尝试学习的同时，我几乎复制/粘贴了您的代码段）

villoro 2020-02-04 22:27:42

我不太确定为什么会收到此错误，但似乎您有一些值作为numpy数字而不是字符串。您是否有可能在数据库中将其中一列定义为字符串？我建议您df.to_sql在执行cursor.copy_from替代方法之前先尝试该选项。有可能该选项对您足够快。

Mormoran 2020-02-04 22:30:22

我可以发布一个示例示例，df.to_csv()如果有帮助，将在主体中执行

Mormoran 2020-02-04 22:34:01

我可能还缺少一些用于复制操作的参数，例如，我的标头不是参数的名称，而是ID。我该如何指定？

villoro 2020-02-05 00:52:36

我不确定你的意思。您能否在数据应该存放的地方添加SQL表的定义？

python - Pandas数据框到对象实例的数组插入批量数据库效率

热门帖子

相关问题

热门github