取消
顯示的結果
而不是尋找
你的意思是:

三角洲生活表+ S3 | 5技巧與DLT雲存儲

MadelynM
貢獻者

你已經熟悉了三角洲住表(DLT)通過快速入門入門指南。現在是時候解決創建一個DLT為雲存儲的數據管道一行代碼。這是將當你開始:

創建或更新直播表< table_name > SELECT * FROM cloud_files(<雲存儲位置>,<格式>)

雲存儲位置可以AWS S3 (S3: / /), Azure數據存儲Gen2湖(ADLS Gen2 abfss: / /), GCP雲存儲(GCS, gs: / /), Azure Blob存儲(wasbs: / /), ADLS Gen1 (adl: / /)。磚文件係統(DBFS DBFS: /)也是一個選擇,但不建議用於生產管道。

看看這五個竅門讓DLT運行這一行代碼。

1。使用自動加載程序來攝取文件DLT

2。讓DLT管道運行您的筆記本

3所示。使用JSON集群配置訪問你的存儲位置

4所示。為你指定一個目標數據庫表(年代)

5。使用全部刷新所有的DLT管道代碼和設置變化

小提示# 1:使用自動加載程序來攝取文件DLT

知識檢查:自動加載器是什麼?

自動加載器提供了一個結構化的流媒體稱為cloud_files來源。給定一個輸入在雲端文件存儲目錄路徑,cloud_files源自動流程為到達的新文件,選擇也處理現有文件的目錄。自動加載器可以攝取JSON、CSV、拚花,AVRO、獸人、文本和BINARYFILE文件格式。自動加載程序支持Python和SQL三角洲生活表。

例如:汽車與S3裝載機

創建或更新直播表my_S3_data SELECT * FROM cloud_files (s3a: / / your_datbase_name, json)

你的下一個步驟

  • 去你的磚著陸頁並選擇Create空白筆記本。
  • 在Create筆記本對話,給你的筆記本一個名稱下拉菜單並選擇SQL從默認語言。流行音樂在你的版本的一行代碼。你可以把集群設置為默認值。三角洲生活表運行時創建一個集群在它運行你的管道。
  • 一旦你寫管道代碼在一個筆記本,不要跑,筆記本。相反,去創建您的第一個DLT管道(見小提示# 2)。

更多的資源

小提示# 2:讓DLT管道運行您的筆記本

知識檢查:DLT是什麼?

三角洲生活表是一個框架為構建可靠、可維護、可測試的數據處理管道。你定義轉換執行數據,和δ生活表管理任務編排,集群管理、監控、數據質量和錯誤處理。閱讀更多三角洲的生活表的介紹(AWS][Azure][GCP]。

例子

  • 你必須開始工作流的管道從三角洲住表選項卡的用戶界麵。點擊三角形運行圖標在你的筆記本上運行您的管道將返回這個錯誤:“δ住表查詢在語法上是有效的,但是您必須創建一個管道,以定義和填充你的表。”

你的下一個步驟

  • 從左側導航菜單中打開工作流

Workflows-Left導航

  • 選擇三角洲LiveTables

工作流

  • 創建您的管道,並選擇您剛才創建的筆記本一行代碼
  • 使用實例配置文件設置訪問您的存儲位置(適合生產)或密鑰和機密(見小提示# 3)。
  • 開始你的DLT的管道。記住,你不需要運行筆記本,DLT意誌。

更多的資源

1回複1

MadelynM
貢獻者

小提示# 3:使用JSON集群配置訪問你的存儲位置

知識檢查:我怎麼修改DLT設置使用JSON ?

三角洲生活表設置表示為JSON和三角洲住表中可以修改UI (AWS][Azure][GCP]。

例子:一個S3實例配置文件添加到通過JSON DLT集群配置

“集群”:[{“標簽”:“默認”,“aws_attributes”: {“instance_profile_arn”:“在攻擊:aws:…”}, "autoscale": { "min_workers": 1, "max_workers": 5 } } ]

你的下一個步驟

  • 打開設置你的管道,從界麵切換到JSON。

管道設置UI JSON

  • 添加您的雲存儲位置配置的“集群”:[]部分使用上麵的示例。
  • 如果你的管道運行在不同的集群不同的模式,例如,違約和維護集群,一定要添加雲存儲位置到每個細節。

更多的資源

小提示# 4:為你指定目標數據庫表(s)

知識檢查:為什麼設定了一個目標?

目標設置添加到配置表的數據庫名稱。設定一個目標是使用你的新表(s)後更容易啟動管道。如果你不創造管道在UI中設定了一個目標,你可以回去JSON中設定了一個目標。

例子

UI設置目標的新管道

image.pngJSON編輯現有管道的目標(見小提示# 3)

image.png你的下一個步驟

  • 設定了一個目標
  • 啟動管道
  • 創建一個新的筆記本(不是你的管道筆記本)探討數據庫和表(s)使用你的首選語言,即。SQL將:
select * from my_database.table_name

更多的資源

冰山# 5:全麵刷新所有的管道代碼和設置變化

知識檢查:管道更新是什麼?

在您創建的管道和準備運行它,你開始一個更新。一個更新如下:

  • 開始與正確的集群配置(見小提示# 3)。
  • 發現所有的表和視圖定義,並檢查等任何分析錯誤無效的列名,缺失的依賴,和語法錯誤(見小提示# 1)。
  • 創建或更新表和視圖與可用的最新數據。

例子

image.png更多的資源

所以,你的DLT +雲存儲運行如何?在線程放棄你的問題和建議!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map