温馨提示:本文翻译自stackoverflow.com,查看原文请点击:azure - DATABRICKS DBFS
azure databricks file system

azure - 数据砖DBFS

发布于 2020-04-11 12:46:11

我需要对Databricks DBFS有所了解。

用简单的基本术语来说,它是什么,它的目的是什么,它允许我做什么?

关于数据块的文档说明了这一点。

“ DBFS中的文件会持久保存到Azure Blob存储中,因此即使终止群集,也不会丢失数据。”

任何见解都将是有帮助的,但是从架构和使用角度来看,找不到能够深入了解该文档的文档

查看更多

提问者
Billy B
被浏览
123
Eva 2019-02-25 20:57

我有使用DBFS的经验,它是一个很好的存储设备,可以保存您可以使用DBFS CLI从本地计算机上载的数据CLI设置有点复杂,但是当你管理,你可以很容易地围绕在这个环境中移动整个文件夹(记得使用-overwrite!)

  1. 创建文件夹
  2. 上传文件
  3. 修改,删除文件和文件夹

使用Scala,您可以使用以下代码轻松提取存储在该存储中的数据:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

或读入整个文件夹以处理所有csv可用文件:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

我认为它易于使用和学习,希望此信息对您有所帮助!