我正在将Azure Databricks与群集的最新运行时一起使用。我对三角洲地区的VACUUM操作有些困惑。我们知道我们可以为已删除的数据设置保留期限,但是,要在保留期限结束后删除实际数据,是否需要在整个持续时间内保持集群正常运行?
用简单的话来说:为了利用Delta Lake,我们是否需要使Cluster始终处于运行状态?
你无需始终保持集群正常运行。你可以安排真空作业每天(或每周)运行,以清除早于阈值的陈旧数据。Delta Lake不需要始终在线的群集。所有数据/元数据都存储在存储器(s3 / adls / abfs / hdfs)中,因此无需保持任何运行状态。