我想在Spark应用程序中使用像Melt等的Panda的Transformations。我正在使用Scala for Spark,并且必须使用某些功能,例如Pandas的Melt,是否可以做到这一点?
pd.melt() 我已经看到Pandas和PySpark在Notebook中齐头并进。
(很难提供没有更多细节的示例,因此此答案仅包含文档链接等)。
在最新版本的Spark中,支持所谓的Pandas UDF,你可以在其中获取Pandas系列或数据框作为参数并返回系列或参数,因此你可以执行Pandas函数以获取结果。由于优化了数据序列化,Pandas UDF比传统的Python UDF快得多。有关更多详细信息,请参见文档和此博客文章。
另一种选择是使用Koalas -Spark的库,它重新实现了Pandas API,但正在Spark上实现。有一个执行melt以及,但请务必阅读文档,了解可能存在的行为差异。
melt