温馨提示:本文翻译自stackoverflow.com,查看原文请点击:其他 - How do I configure Cloud Data Fusion pipeline to run against existing Hadoop clusters
google-cloud-data-fusion

其他 - 如何配置Cloud Data Fusion管道以针对现有Hadoop集群运行

发布于 2020-03-27 12:05:41

Cloud Data Fusion为每个运行的管道创建一个新的Dataproc集群。我已经有一个运行24x7的Dataproc集群设置,我想使用该集群来运行管道

查看更多

查看更多

提问者
Sree
被浏览
26
1,710 2019-08-29 12:17

这可以通过在系统管理->配置->系统计算配置文件->创建新的计算配置文件下使用远程Hadoop供应器设置新的计算配置文件来实现。此功能仅在企业版Cloud Data Fusion(“执行环境选择”上可用

以下是详细步骤。

  1. Dataproc群集上的SSH设置

    a. Navigate to Dataproc console on Google Cloud Platform. Go to “Cluster details” by clicking on your Dataproc cluster name.

    b. Under “VM Instances”, click on the “SSH“ button to connect to the Dataproc VM. Dataproc VM SSH

    c. Follow the steps here to create a new SSH key, format the public key file to enforce an expiration time, and add the newly created SSH public key at project or instance level.

    d. If the SSH is setup successfully, you should be able to see the SSH key you just added in the Metadata section of your Compute Engine console, as well as the authorized_keys file in your Dataproc VM. Dataproc SSH密钥

  2. Create a customized system compute profile for your Data Fusion instance

    a. Navigate to your Data Fusion instance console by clicking on “View Instance" 在此处输入图片说明

    b. Click on “System Admin“ on the top right corner. 在此处输入图片说明

    C。在“配置”选项卡下,展开“系统计算配置文件”。单击“创建新配置文件”,然后在下一页上选择“远程Hadoop Provisioner”。 供应者 在此处输入图片说明

    d。填写个人资料的一般信息。

    e。您可以在Compute Engine下的“ VM实例详细信息”页面上找到SSH主机IP信息。 在此处输入图片说明

    F。复制在步骤1中创建的SSH私钥,然后将其粘贴到“ SSH私钥”字段中。

    G。单击“创建”创建配置文件。 轮廓

  3. 配置您的数据融合管道以使用自定义配置文件

    一种。单击管道以针对远程Hadoop运行

    b。单击配置->计算配置,然后选择远程hadoop提供者配置 管道远程Hadoop计算配置文件