Warm tip: This article is reproduced from serverfault.com, please click

其他-Scala和Pandas的 Spark

(其他 - Spark with Scala and Pandas)

发布于 2020-11-29 09:31:04

我想在Spark应用程序中使用像Melt等的Panda的Transformations。我正在使用Scala for Spark,并且必须使用某些功能,例如Pandas的Melt,是否可以做到这一点?

pd.melt() 我已经看到Pandas和PySpark在Notebook中齐头并进。

Questioner
user14728672
Viewed
22
Alex Ott 2020-11-30 01:08:22

(很难提供没有更多细节的示例,因此此答案仅包含文档链接等)。

在最新版本的Spark中,支持所谓的Pandas UDF,你可以在其中获取Pandas系列或数据框作为参数并返回系列或参数,因此你可以执行Pandas函数以获取结果。由于优化了数据序列化,Pandas UDF比传统的Python UDF快得多。有关更多详细信息,请参见文档此博客文章

另一种选择是使用Koalas -Spark的库,它重新实现了Pandas API,但正在Spark上实现。有一个执行melt以及,但请务必阅读文档,了解可能存在的行为差异。