Warm tip: This article is reproduced from serverfault.com, please click

apache spark-Delta Lake的VACUUM操作是否需要始终启用Databricks集群?

(apache spark - Does Databricks cluster need to be always up for VACUUM operation of Delta Lake?)

发布于 2020-11-27 04:53:24

我正在将Azure Databricks与群集的最新运行时一起使用。我对三角洲地区的VACUUM操作有些困惑。我们知道我们可以为已删除的数据设置保留期限,但是,要在保留期限结束后删除实际数据,是否需要在整个持续时间内保持集群正常运行?

用简单的话来说:为了利用Delta Lake,我们是否需要使Cluster始终处于运行状态?

Questioner
Anish Kumar Sarangi
Viewed
11
9,027 2020-12-01 15:11:16

你无需始终保持集群正常运行。你可以安排真空作业每天(或每周)运行,以清除早于阈值的陈旧数据。Delta Lake不需要始终在线的群集。所有数据/元数据都存储在存储器(s3 / adls / abfs / hdfs)中,因此无需保持任何运行状态。