我需要对Databricks DBFS有所了解。
用简单的基本术语来说,它是什么,它的目的是什么,它允许我做什么?
关于数据块的文档说明了这一点。
“ DBFS中的文件会持久保存到Azure Blob存储中,因此即使终止群集,也不会丢失数据。”
任何见解都将是有帮助的,但是从架构和使用角度来看,找不到能够深入了解该文档的文档
我有使用DBFS的经验,它是一个很好的存储设备,可以保存您可以使用DBFS CLI从本地计算机上载的数据!该CLI设置有点复杂,但是当你管理,你可以很容易地围绕在这个环境中移动整个文件夹(记得使用-overwrite!)
使用Scala,您可以使用以下代码轻松提取存储在该存储中的数据:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/test.csv")
.select(some_column_name)
或读入整个文件夹以处理所有csv可用文件:
val df1 = spark
.read
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("dbfs:/foldername/*.csv")
.select(some_column_name)
我认为它易于使用和学习,希望此信息对您有所帮助!
感谢您提供的Eva,它非常有帮助,感谢您花费大量时间和精力进行详细说明