温馨提示:本文翻译自stackoverflow.com，查看原文请点击：apache spark - Is there any performance (or other) benefit to loading less columns in pyspark dataframe?

apache-spark pyspark-sql

apache spark - 在pyspark数据框中加载较少的列是否有任何性能（或其他）好处？

发布于 2020-04-08 10:10:20

在pyspark数据框中加载较少的列是否有任何性能（或其他）好处？

基本上，我的用例是我有一个大表（许多行，许多列）作为数据帧加载到其中，以便根据两者中的匹配键来过滤另一个表，例如...

filter_table = sparksession.read.load("/some/path/to/files").select("PK").dropDuplicates()
table_to_filter = table_to_filter.join(filter_table.select("PK"), "PK", "leftsemi")

我的问题是：这样加载表有什么好处

filter_table = sparksession.read.load("/some/path/to/files").select("PK")

vs

filter_table = sparksession.read.load("/some/path/to/files")

我怀疑我对spark的惰性评估如何工作感到困惑（对于使用spark是非常陌生的），但是我会认为由于我只使用过表，.select("PK")所以没有区别（除非整个数据帧一旦加载就存储在内存中（而不仅仅是评估））？

提问者

lampShadesDrifter

被浏览

139

查看英文版

查看原文

Salim 2020-02-01 05:46

读取很少的几列绝对会带来性能上的好处，好处的程度取决于数据格式和源。

如果您正在使用像Parquet这样的列式数据源，那么通过仅读取相关的列组，它会很有帮助。它减少了IO，内存占用量以及反序列化数据所需的时间。柱状数据库也有同样的好处。

如果数据源不是像文本，csv，avro文件或Oracle，MS Sql这样的数据库之类的列，那么它不会减少IO，但是您可能会受益于更少的内存占用和数据库的数据传输成本。读取非列文件可能不会有很大的好处。

这可能会增加代码的复杂性，尤其是在使用案例类支持的数据集的情况下。如果选择的列很少，则它将与基础案例类不匹配。如果您使用的是数据框，那么问题就不多了。

Salim 2020-02-03 21:38:45

您能解释一下否决票，以便我改善答案吗？这是正确的，是根据我的经验得出的。

相关问题

1

在Spark SQL中应用to_date（）和add_months函数时出错

2

使用ArrayType列将UDF重写为pandas udf

3

如何在Spark集群上运行C算法？

4

Delta Lake的VACUUM操作是否需要始终启用Databricks集群？

5

将值添加到Spark DataFrame列中的现有嵌套json中

6

使用PySpark合并没有重复的Spark模式？

7

Pyspark：提取数据框的行，其中值包含字符串

8

具有窗口功能的PySpark数据偏度

9

如何在Apache-Spark中连接主机和从机？

10

AWS EMR上的spark-submit运行但在访问S3时失败

热门github

1

🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plugins/Artifacts) and Thinking. One-click FREE deployment of your private ChatGPT/ Claude / DeepSeek application. (翻译：LobeChat 是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（Function Call）插件系统。)

2

Collection of leaked system prompts

3

Jelly Evolution Simulator

4

Master programming by recreating your favorite technologies from scratch. (翻译：在这个项目中，你能学会如何创造自己的各种工具，引擎，游戏，框架，库......)

5

Agent S: an open agentic framework that uses computers like a human

6

An open source payments switch written in Rust to make payments fast, reliable and affordable (翻译：YOLOv8 🚀 in PyTorch > ONNX > CoreML > TFLite)

7

Python - 100天从新手到大师

8

Truly independent web browser

9

Curated list of project-based tutorials (翻译：收藏了基于项目的教程列表)

10

21 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/ (翻译：12 节课程，开始使用生成式 AI 进行构建)

11

ChatGPT DAN, Jailbreaks prompt

12

A quick example of how one can "synchronize" a 3d scene across multiple windows using three.js and localStorage

13

real time face swap and one-click video deepfake with only a single image