Warm tip: This article is reproduced from serverfault.com, please click

r-从在Dataproc集群上运行的Rstudio连接到BigQuery

(r - Connecting to BigQuery from Rstudio running on a Dataproc cluster)

发布于 2020-11-27 17:49:12

我创建了一个Dataproc集群,并按照以下说明成功启动了RStudio服务器:https ://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster

我还安装了sparklyr并成功创建了一个Spark实例。

sc <- spark_connect(master = "local")

但是,我想知道如何连接到BigQuery。有一个sparkbq库,但我不确定如何传递(在运行时)此处描述的bigquery jar连接器:https : //cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example

Questioner
denim
Viewed
12
Gaurangi Saxena 2020-12-01 02:42:36

你可以使用Dataproc初始化操作在群集的所有节点上安装spark-bigquery连接器。https://github.com/GoogleCloudDataproc/initialization-actions/tree/master/connectors

你可能必须使用更新的init操作重新创建集群,然后再次启动RStudio服务器。如果你不希望这样做,并且你的集群很小,则也可以将其放入ssh并手动下载SparkBigQuery-connector jar。