數據加載到磚Lakehouse

磚提供了多種方式來幫助你的數據加載到一個lakehouse由三角洲湖。磚建議使用自動加載器的增量數據攝入從雲對象存儲。的添加數據界麵提供了許多選項,快速上傳本地文件或連接到外部數據源。

你的第一個ETL工作負載運行

如果你還沒有使用自動加載器在磚上,從一個教程開始。看到磚上運行你的第一個ETL工作負載

自動加載程序

自動加載程序增量地和有效地處理新的數據文件到雲存儲沒有額外的設置。自動加載器提供了一個結構化流源cloudFiles。給定一個輸入在雲端文件存儲目錄路徑,cloudFiles源自動流程為到達的新文件,選擇也處理現有的文件目錄。

自動化與三角洲ETL生活表和自動加載程序

可以簡化部署可伸縮、增量攝入基礎設施自動加載器和δ生活表。注意,δ住表不使用標準的互動執行中發現筆記本電腦,而不是強調基礎設施部署準備生產。

上傳本地數據文件或外部數據源連接

你可以安全地上傳本地數據文件或攝取來自外部數據源的數據創建表。看到加載數據使用UI添加數據

合作夥伴集成

磚夥伴集成允許您將數據加載到數據磚。這些集成使low-code、可伸縮數據攝入來自各種來源的磚。看到磚的集成

複製到

複製到允許SQL用戶從雲冪等和增量加載數據對象存儲到三角洲湖表中。它可以用於磚SQL,筆記本,和磚的工作。

轉換為δ

磚提供了一個命令來拚花或冰山表轉換為三角洲湖和lakehouse解鎖完整的功能;看到轉換為三角洲湖

何時使用複製成和何時使用自動加載程序

這裏有一些事情要考慮在選擇自動加載程序,複製到:

  • 如果你要攝取成千上萬的文件的順序,您可以使用複製。如果你預計數百萬以上的順序文件隨著時間的推移,使用自動加載程序。自動加載程序需要更少的總操作發現文件相比,複製,可以處理分割成多個批次,即自動加載器是更便宜,更有效地規模。

  • 如果您的數據模式經常會進化,自動加載程序提供了更好的基元模式推理和演化。看到配置模式推理和進化自動加載程序為更多的細節。

  • 文件可以加載的一個子集上傳有點容易管理和複製。使用自動加載程序,很難再加工的選擇子集文件。不過,您可以使用複製到重新加載文件時自動加載程序流的子集是同時運行。

簡要概述和演示的自動加載程序,以及複製到看這個YouTube視頻(2分鍾)。

使用Data選項卡來加載數據

數據科學與工程工作區Data選項卡允許您使用UI加載小文件創建表;看到在DBFS探索和創建表

使用Apache火花加載數據從外部來源

你可以連接到不同的數據源使用Apache火花。看到在磚與外部數據連接的選項和示例列表。

審查文件元數據在數據攝入

Apache火花自動捕獲數據在數據加載源文件。磚允許您訪問這個數據的文件元數據列