温馨提示:本文翻译自stackoverflow.com，查看原文请点击：arrays - How to use multiprocessing to create gzip file from dataframe in python

arrays multithreading python-3.x

arrays - 如何使用多重处理从python中的数据帧创建gzip文件

发布于 2020-03-29 13:11:22

我有一个正在变得IO约束的过程，在该过程中，我将数据库中的大型数据集提取到pandas数据框中，然后尝试逐行进行一些处理，然后坚持到gzip文件。我正在尝试找到一种使用多重处理的方法，以便能够将gzip的创建分成多个进程，然后将它们合并到一个文件中。或者并行处理而不覆盖先前的线程。我找到了此软件包p_tqdm，但是我遇到了EOF问题，可能是因为线程相互覆盖了。这是我当前解决方案的示例：

from p_tqdm import p_map

df = pd.read_sql(some_sql, engine)
things =[]
for index, row in df.iterrows():
    things.append(row)    
p_map(process, things)

def process():
    with gzip.open("final.gz", "wb") as f:
        value = do_somthing(row)
        f.write(value.encode())

提问者

dweeb

被浏览

89

查看英文版

查看原文

Marek Schwarz 2020-01-31 17:24

我不知道，p_tqdm但是如果我理解您的问题，可以使用轻松完成multiprocessing。

像这样的东西

import multiprocessing

def process(row):
    # take care that "do_somthing" must return class with encode() method (e.g. string)
    return do_somthing(row)

df = pd.read_sql(some_sql, engine)
things =[]
for index, row in df.iterrows():
    things.append(row)


with gzip.open("final.gz", "wb") as f, multiprocessing.Pool() as pool:
    for processed_row in pool.imap(process, things):
        f.write(processed_row.encode())

仅有几个旁注：

pandas iterrows方法很慢-尽可能避免（请参阅pandas迭代是否存在性能问题？）。
另外，您不需要创建things，只需将iterable传递给imap（甚至应该直接传递df.iterrows（））就可以节省一些内存。
最后，由于您似乎正在读取sql数据，为什么不直接连接到db并遍历SELECT ...查询中的游标，pandas完全跳过。

dweeb 2020-02-01 22:45:37

感谢您的回答和周到的评论。经过进一步研究，我还意识到iterrows（）是性能的噩梦。我将数据框更改为dask数据框，然后传递df.to_array（），然后对此进行迭代以生成.gz文件。性能要好得多。我想知道使用df.array（）传递到多处理池是否会更好。我对读取SQL表感到好奇-我不想妨碍DB的性能，但我想加快这一部分。现在，我基本上完成了所有操作，然后在数百万行上等待10秒的盲目性。有小费吗？

Marek Schwarz 2020-02-03 03:48:35

如我所说，直接在游标对象上进行迭代。您没有说您正在使用的数据库引擎是什么，但是，例如，如果它是类似sql的东西cur.execute("SELECT * FROM x";)，那么通常是可能的：然后for row in cur: ...应该是可能的。（该行通常是一个数据元组。）检出例如docs.python.org/3.8/library/sqlite3.html。我认为多重处理不会给您带来很多性能方面的改进（它有相当大的开销），但这取决于您的用例。

相关问题

1

查找索引与另一个数组值匹配的数组值

2

将行[NumPy或Tensorflow]的索引值之前的行中的值设置为零

3

如何删除数组元素，然后重新索引数组？

4

如何在JavaScript中获取URL时使用where条件？

5

为什么可变长度数组不是C ++标准的一部分？

6

为什么将数组的元素乘以1/2或1/3时会被格式化为零？

7

如何替换数组中的项目？

8

如何将坐标数组格式化为其他参考点

9

如何根据ReactJS中的数组元素更改按钮颜色

10

查找数组中的三个最大元素

热门github

1

🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plugins/Artifacts) and Thinking. One-click FREE deployment of your private ChatGPT/ Claude / DeepSeek application. (翻译：LobeChat 是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（Function Call）插件系统。)

2

Collection of leaked system prompts

3

Jelly Evolution Simulator

4

Master programming by recreating your favorite technologies from scratch. (翻译：在这个项目中，你能学会如何创造自己的各种工具，引擎，游戏，框架，库......)

5

Agent S: an open agentic framework that uses computers like a human

6

An open source payments switch written in Rust to make payments fast, reliable and affordable (翻译：YOLOv8 🚀 in PyTorch > ONNX > CoreML > TFLite)

7

Python - 100天从新手到大师

8

Truly independent web browser

9

Curated list of project-based tutorials (翻译：收藏了基于项目的教程列表)

10

21 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/ (翻译：12 节课程，开始使用生成式 AI 进行构建)

11

ChatGPT DAN, Jailbreaks prompt

12

A quick example of how one can "synchronize" a 3d scene across multiple windows using three.js and localStorage

13

real time face swap and one-click video deepfake with only a single image