【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob
本文屬于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(20)——創建Azure Databricks
本文演示如何通過Azure Databricks訪問Azure存儲
環境準備
在前面的ADF章節,我們已經創建過存儲賬戶,所以這里直接使用。但是對于Databricks,則需要使用額外配置,這里用notebook和Scala語言來實現。
創建Scala notebook前,先創建一個集群,使用前一篇的方式創建即可。然后按下圖創建notebook:
選擇語言和集群:
notebook 界面如下,另外可以看到方框處已經標識出語言。
配置訪問
要訪問存儲賬戶,可以使用專門的賬號,也可以使用【共享訪問簽名】,在存儲賬戶下選擇如下圖的配置,并點擊【生成SAS和連接字符串】:
我們需要SAS 令牌的值。
回到Databricks的notebook,按以下格式填寫信息并在notebook里面執行“shift+回車”,替換前三行的信息:
如下圖,這是訪問Azure Blob的第一層配置:
配置完畢之后,需要裝載容器,可以參考官方文檔:裝載 Azure Blob 存儲容器
本例根據格式,得出的Scala腳本如下:
dbutils.fs.mount(source = "wasbs://test@as4adf.blob.core.windows.net/DataflowDemo.txt",mountPoint = "/mnt/demo",extraConfigs = Map(config -> sas))執行成功:
前面的內容配置好后,可以嘗試讀取數據內容,因為我的文件是txt文件,所以選擇text參考鏈接。
同時也可以用其他方式來查詢數據:
val selectdf = mydf.select("value") display(selectdf)總結
本篇到此為止,主要是集中在對Blob上文件的訪問。
總結
以上是生活随笔為你收集整理的【Azure Data Platform】ETL工具(21)——Azure Databricks使用(1)——访问Azure Blob的全部內容,希望文章能夠幫你解決所遇到的問題。