使用DataBricks自動加載程序,您可以在到達數據湖中時逐步和有效地將新的批量和實時流數據文件進入Delta Lake表 - 以便他們始終包含最完整和最新的數據可用的。自動加載器是一個簡單,靈活的工具,可以連續運行,也可以在“Triggeronce”模式下進行批量處理數據。SQL用戶可以使用簡單的“複製到”命令將新數據從其自動將新數據拉到他們的Delta Lake表中,而無需跟蹤已經處理了哪些文件。
視頻成績單
使用自動裝載機將數據進入Delta湖泊
將原始數據加載到數據倉庫中可能是一個淩亂,複雜的過程,但使用Databricks,填充您的Delta Lake,可用的最新鮮數據從未如此簡單。
在這裏,我們使用的是一些來自IoT設備的JSON遙測數據,比如跟蹤步驟的智能手表。每5秒就有新的數據文件進入我們的數據湖,所以我們需要一種方法自動將它們輸入三角洲湖。Auto Loader提供了一個新的名為“cloudFiles”的結構化流數據源,我們可以使用它來實現這一點。
單擊以展開抄本→
點擊折疊成績單→
如何使用Databricks自動加載程序
首先,我們將“CloudFiles”指定為數據流的格式。接下來,我們指定數據湖中的哪個目錄以監視新文件。一旦他們到達,有效地自動裝載機,並將其逐步將它們加載到我們指定的Delta Lake表中。
你已經完成了!使用自動加載器就像按下“Easy”按鈕進行原始數據攝取。我們不必指定架構,設置消息隊列或手動跟蹤已處理的文件。在幕後,自動加載程序使用總是上的文件通知服務跟蹤新的文件事件,該服務比在數據湖上運行成本高昂的“列表”操作更快,更可擴展。
使用自動加載器以批量模式為Triggeronce
對於時間敏感的數據工作負載,連續運行自動加載器是一個無腦機。但是對於較少的時光工作負載,您可以通過指定“Triggeronce”選項,然後設置筆記本作為計劃作業運行的“批處理模式”運行“批處理模式”。在TriggerOnce模式下,即使在沒有活動群集運行時,自動加載器仍然會跟蹤新文件 - 它隻等待實際處理它們,直到手動運行自動加載器代碼,或作為計劃作業的一部分運行。
將數據加載到SQL用戶的複製
最後,更喜歡此批量的數據攝取方法的SQL用戶可以使用副本來代替命令。複製到是一種可檢索和IDEMPOTENT命令,因此它忽略已被處理的數據,就像“Triggeronce”模式下的自動加載器一樣。
準備開始嗎?