我创建了一个Dataproc集群,并按照以下说明成功启动了RStudio服务器:https ://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster
我还安装了sparklyr并成功创建了一个Spark实例。
sc <- spark_connect(master = "local")
但是,我想知道如何连接到BigQuery。有一个sparkbq库,但我不确定如何传递(在运行时)此处描述的bigquery jar连接器:https : //cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example
你可以使用Dataproc初始化操作在群集的所有节点上安装spark-bigquery连接器。https://github.com/GoogleCloudDataproc/initialization-actions/tree/master/connectors。
你可能必须使用更新的init操作重新创建集群,然后再次启动RStudio服务器。如果你不希望这样做,并且你的集群很小,则也可以将其放入ssh并手动下载SparkBigQuery-connector jar。