把數據輸入數據庫湖屋

Databricks提供了多種方式,幫助您將數據攝取到三角洲湖的湖邊小屋。

上傳CSV文件

您可以安全地上傳本地CSV文件,使用Databricks SQL創建表。看到在Databricks SQL中上傳數據並創建表

合作夥伴集成

Databricks合作夥伴集成使您能夠將數據加載到Databricks中。這些集成支持從各種來源將低代碼、可伸縮的數據攝取到Databricks中。看到磚的集成

複製到

用COPY INTO加載數據允許SQL用戶冪等地、增量地將數據從雲對象存儲加載到Delta Lake表中。它可以在Databricks SQL、筆記本和Databricks Jobs中使用。

自動加載程序

自動加載程序當新數據文件到達雲存儲時,無需額外設置即可增量和高效地處理它們。Auto Loader提供了一個新的結構化流源稱為cloudFiles.給定雲文件存儲上的輸入目錄路徑,則cloudFilesSource在新文件到達時自動處理它們,還可以選擇處理該目錄中的現有文件。

何時使用COPY INTO和何時使用自動加載器

這裏有一些事情,當選擇自動加載器和複製到:

  • 如果您要接收數千個數量級的文件,您可以使用複製.如果你期望文件在數百萬或更多的時間,使用自動加載器。與COPY INTO相比,Auto Loader需要更少的總操作來發現文件,並且可以將處理分成多個批次,這意味著Auto Loader在規模上更便宜,更高效。

  • 如果您的數據模式將頻繁演變,Auto Loader提供更好的模式推斷和演變原語。看到在自動加載器中配置模式推斷和演化為更多的細節。

  • 使用COPY INTO加載重新上傳文件的子集可能更容易管理一些。使用自動加載器,很難重新處理選定的文件子集。但是,您可以使用COPY INTO在Auto Loader流同時運行時重新加載文件的子集。

關於自動加載器的簡要概述和演示,以及複製到,觀看這個YouTube視頻(2分鍾)。

使用Data選項卡加載數據

Data Science & Engineering工作區Data選項卡允許您使用UI加載小文件來創建表;看到使用Data選項卡瀏覽並創建表

使用Apache Spark從外部源加載數據

您可以使用Apache Spark連接到各種數據源。看到數據源以獲取連接選項和示例的列表。

檢查在數據攝取期間捕獲的文件元數據

Apache Spark在數據加載過程中自動捕獲源文件的數據。Databricks允許您使用文件元數據列