温馨提示:本文翻译自stackoverflow.com，查看原文请点击：scala - How to create multiples columns from a MapType columns efficiently (without foldleft)

apache-spark apache-spark-sql scala

scala - 如何有效地从MapType列创建多个列（无左折）

发布于 2020-04-06 00:15:15

我的目标是从另一MapType列创建列。列的名称是Map的键及其关联的值。

在我的起始数据框下方：

+-----------+---------------------------+
|id         |         mapColumn         |
+-----------+---------------------------+
| 1         |Map(keyA -> 0, keyB -> 1)  |
| 2         |Map(keyA -> 4, keyB -> 2)  |
+-----------+---------------------------+

低于所需的输出：

+-----------+----+----+
|id         |keyA|keyB|
+-----------+----+----+
| 1         |   0|   1|
| 2         |   4|   2|
+-----------+----+----+

我找到了一个带有累加器的Foldleft解决方案（工作但非常慢）：

val colsToAdd = startDF.collect()(0)(1).asInstanceOf[Map[String,Integer]].map(x => x._1).toSeq
res1: Seq[String] = List(keyA, keyB)

val endDF = colsToAdd.foldLeft(startDF)((startDF, key) => startDF.withColumn(key, lit(0)))

//(lit(0) for testing)

真正的起始数据帧很大，我需要优化。

提问者

Jalil Mankouri

被浏览

94

查看英文版

查看原文

blackbishop 2020-02-02 20:31

您可以简单地使用explodefunction来展开 map类型列，然后使用pivot来获取每个键作为新列。像这样：

val df = Seq((1,Map("keyA" -> 0, "keyB" -> 1)), (2,Map("keyA" -> 4, "keyB" -> 2))
).toDF("id", "mapColumn")

df.select($"id", explode($"mapColumn"))
  .groupBy($"id")
  .pivot($"key")
  .agg(first($"value"))
  .show()

给出：

+---+----+----+
| id|keyA|keyB|
+---+----+----+
|  1|   0|   1|
|  2|   4|   2|
+---+----+----+

Alexandros Biratsis 2020-02-02 21:48:06

很好，我忘了爆炸会默认创建键/值col

相关问题

1

在Spark SQL中应用to_date（）和add_months函数时出错

2

使用ArrayType列将UDF重写为pandas udf

3

如何在Spark集群上运行C算法？

4

Delta Lake的VACUUM操作是否需要始终启用Databricks集群？

5

将值添加到Spark DataFrame列中的现有嵌套json中

6

使用PySpark合并没有重复的Spark模式？

7

Pyspark：提取数据框的行，其中值包含字符串

8

具有窗口功能的PySpark数据偏度

9

如何在Apache-Spark中连接主机和从机？

10

AWS EMR上的spark-submit运行但在访问S3时失败

热门github

1

real time face swap and one-click video deepfake with only a single image

2

A quick example of how one can "synchronize" a 3d scene across multiple windows using three.js and localStorage

3

ChatGPT DAN, Jailbreaks prompt

4

21 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/ (翻译：12 节课程，开始使用生成式 AI 进行构建)

5

Curated list of project-based tutorials (翻译：收藏了基于项目的教程列表)

6

Truly independent web browser

7

Python - 100天从新手到大师

8

An open source payments switch written in Rust to make payments fast, reliable and affordable (翻译：YOLOv8 🚀 in PyTorch > ONNX > CoreML > TFLite)

9

Agent S: an open agentic framework that uses computers like a human

10

Master programming by recreating your favorite technologies from scratch. (翻译：在这个项目中，你能学会如何创造自己的各种工具，引擎，游戏，框架，库......)

11

Jelly Evolution Simulator

12

Collection of leaked system prompts

13

🤯 Lobe Chat - an open-source, modern-design AI chat framework. Supports Multi AI Providers( OpenAI / Claude 3 / Gemini / Ollama / DeepSeek / Qwen), Knowledge Base (file upload / knowledge management / RAG ), Multi-Modals (Plugins/Artifacts) and Thinking. One-click FREE deployment of your private ChatGPT/ Claude / DeepSeek application. (翻译：LobeChat 是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（Function Call）插件系统。)