開始
加載和管理數據
處理數據
政府
引用和資源
更新4月07年,2023年
給我們反饋
學習如何使用生產就緒的磚來開發和部署的第一個工具提取、轉換和加載(ETL)管道數據編配。
通過本文的結尾,您將感到舒適:
啟動一個磚通用計算集群。
創建一個磚筆記本。
配置增量數據攝入與汽車裝載機三角洲湖。
筆記本電池過程中,執行查詢,並預覽數據。
安排一個筆記本作為磚的工作。
本教程使用交互式筆記本完成常見的ETL任務在Python或Scala。
您還可以使用三角洲生活表建立ETL管道。磚創建三角洲生活表,以減少建築的複雜性,部署和維護生產ETL管道。看到教程:聲明一個數據管道使用SQL在三角洲住表。
您還可以使用磚起程拓殖的提供者本文創建的資源。看到創建集群、筆記本和就業起程拓殖。
你登錄到磚工作區。
你有允許創建一個集群。
請注意
如果你沒有集群控製特權,你仍然可以完成大部分的步驟隻要你有以下訪問一個集群。
如果你隻有進入磚SQL的工作區,明白了磚SQL管理。
做探索性數據分析和數據工程,創建一個集群來提供所需的計算資源執行命令。
點擊計算在側邊欄。
在計算頁麵,點擊創建集群。這將打開新的集群頁麵。
為集群指定一個唯一的名稱,默認狀態保留剩餘的值,並單擊創建集群。
更多地了解磚集群,明白了集群。
開始編寫和執行互動代碼在磚上,創建一個筆記本。
點擊新在側邊欄,然後單擊筆記本。
在創建筆記本頁麵:
為你的筆記本指定一個唯一的名稱。
確保設置為默認語言PythonorgydF4y2BaScala。
選擇您在步驟1中創建的集群集群下拉。
點擊創建。
一個筆記本打開頂部有一個空單元。
學習更多的關於創建和管理筆記本,看到的管理筆記本。
磚推薦使用自動加載程序增量數據的攝入。自動加載程序自動檢測和過程到達雲對象存儲新文件。
磚建議存儲數據三角洲湖。三角洲湖是一個開源存儲層提供lakehouse ACID事務,使數據。三角洲湖是默認格式表中創建數據磚。
配置自動加載程序向三角洲湖攝取數據表,下麵的代碼複製並粘貼到你的筆記本的空單元:
#導入功能從pyspark.sql.functions進口input_file_name,current_timestamp#定義變量中使用下麵的代碼file_path=“/ databricks-datasets / structured-streaming /事件”用戶名=火花。sql(的“選擇regexp_replace (current_user (), [^ a-zA-Z0-9)”,“_”)”)。第一個()(0]table_name=f”{用戶名}_etl_quickstart”checkpoint_path=f“/ tmp /{用戶名}/ _checkpoint / etl_quickstart”#從以前的演示執行清除數據火花。sql(f如果存在“刪除表{table_name}”)dbutils。fs。rm(checkpoint_path,真正的)#配置自動加載程序向三角洲攝取JSON數據表(火花。readStream。格式(“cloudFiles”)。選項(“cloudFiles.format”,“json”)。選項(“cloudFiles.schemaLocation”,checkpoint_path)。負載(file_path)。選擇(“*”,input_file_name()。別名(“source_file”),current_timestamp()。別名(“processing_time”))。writeStream。選項(“checkpointLocation”,checkpoint_path)。觸發(availableNow=真正的)。toTable(table_name))
/ /進口進口org。apache。火花。sql。功能{。input_file_name,current_timestamp}進口org。apache。火花。sql。流媒體。觸發進口火花。值得一提的。_/ /定義變量中使用下麵的代碼瓦爾file_path=“/ databricks-datasets / structured-streaming /事件”瓦爾用戶名=火花。sql(的“選擇regexp_replace (current_user (), [^ a-zA-Z0-9)”,“_”)”)。第一個。得到(0)瓦爾table_name=s”$ {用戶名}_etl_quickstart”瓦爾checkpoint_path=“/ tmp /$ {用戶名}/ _checkpoint”/ /清除數據從之前的演示執行火花。sql(如果存在“刪除表$ {table_name}”)dbutils。fs。rm(checkpoint_path,真正的)/ /配置自動加載程序向三角洲攝取JSON數據表火花。readStream。格式(“cloudFiles”)。選項(“cloudFiles.format”,“json”)。選項(“cloudFiles.schemaLocation”,checkpoint_path)。負載(file_path)。選擇(美元“*”,input_file_name。作為(“source_file”),current_timestamp。作為(“processing_time”))。writeStream。選項(“checkpointLocation”,checkpoint_path)。觸發(觸發。AvailableNow)。toTable(table_name)
在這段代碼中定義的變量應該允許您安全地執行它,而不會與現有工作空間衝突風險資產或其他用戶。限製網絡或存儲權限執行這段代碼時將提高錯誤;聯係您的工作區管理員解決這些限製。
更多地了解汽車裝載機,明白了自動加載器是什麼?。
筆記本電腦執行邏輯細胞。執行的邏輯單元:
運行的細胞在前一步完成,選擇細胞和新聞SHIFT + ENTER。
查詢您剛剛創建的表,下麵的代碼複製並粘貼到一個空的細胞,然後按SHIFT + ENTER運行單元。
df=火花。讀。表(table_name)
瓦爾df=火花。讀。表(table_name)
DataFrame預覽數據,下麵的代碼複製並粘貼到一個空的細胞中,然後按SHIFT + ENTER運行單元。
顯示(df)
了解更多關於交互式可視化數據的選擇,明白了可視化在數據磚筆記本。
您可以運行磚筆記本生產腳本通過添加作為一個磚的工作任務。在這個步驟中,您將創建一個新的工作,你可以手動觸發。
安排你的筆記本作為一個任務:
點擊時間表右邊的標題欄。
輸入一個唯一的名稱作業名。
點擊手冊。
在集群下拉,選擇您在步驟1中創建的集群。
在出現的窗口中,點擊現在運行。
看到工作運行結果,單擊旁邊的圖標最後一次運行時間戳。
工作的更多信息,請參閱創建、運行和管理數據磚的工作。
了解更多關於集成數據工程與磚和工具:
你最喜歡的IDE連接
使用印度生物技術部磚
了解磚命令行界麵(CLI)
了解磚起程拓殖的提供者