温馨提示:本文翻译自stackoverflow.com,查看原文请点击:azure - Databricks job cluster per pipeline not per notebook activity
azure azure-data-factory azure-databricks databricks

azure - 每个管道而不是每个笔记本活动的Databricks作业集群

发布于 2020-04-10 00:07:55

我正在不同Databricks笔记本中转换数据(从ADLS读取,转换和写入数据)。我在DataFactory管道中选择了这些笔记本:

Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook

然后,我已经从DataFactory创建了到Databricks的连接,并将其添加到我的笔记本活动中。每当管道触发时,我都想启动一个Databricks集群。总的来说,这一切工作正常。但是Databricks为每个笔记本活动启动一个工作集群,这花了太长时间,对我来说似乎是不必要的。

是否可以在管道的开头启动群集,然后在所有笔记本完成后将其关闭?还是有任何论点认为对每个活动都有工作集群是件好事?

查看更多

提问者
Stev
被浏览
60
databash 2019-02-22 19:42

当前无法将同一作业集群用于多个笔记本活动。

两种选择:

  1. 使用互动式集群
  2. 使用交互式群集,并且(如果有成本意识的话)在开始时有一个网络活动以通过azure数据块REST端点启动该群集,在笔记本活动之后以REST端点删除(终止)该群集之后的另一个Web活动结束

不幸的是,这两个选项都使用交互式群集 -与作业群集相比,这有点贵