Delta Live Tables快速啟動

您可以使用Databricks筆記本輕鬆創建和運行Delta Live Tables管道。本文演示了在包含Wikipedia點擊流數據的數據集上使用Delta Live Tables管道來:

  • 將原始JSON點擊流數據讀入表中。

  • 從原始數據表中讀取記錄並使用Delta Live Tables預期創建包含已清理數據的新表。

  • 使用清理後的數據表中的記錄進行Delta Live Tables查詢,以創建派生數據集。

在這個快速啟動中,你:

  1. 創建一個新的筆記本,並添加實現管道的代碼。

  2. 使用筆記本創建一個新的管道作業。

  3. 啟動一個更新管道工作。

  4. 查看管道作業的結果。

需求

你必須有集群創建權限啟動管道。Delta Live Tables運行時在運行管道之前會創建一個集群,如果您沒有正確的權限,則會失敗。

創建一個筆記本

你可以使用例如筆記本電腦或者創建一個新的筆記本來運行Delta Live Tables管道:

  1. 進入Databricks登錄頁麵並選擇創建空白筆記本

  2. 創建筆記本對話,給你的筆記本一個名字和選擇PythonSQL默認的語言下拉菜單。你可以把集群設置為默認值。Delta Live Tables運行時在運行管道之前創建一個集群。

  3. 點擊創建

  4. 複製Python或SQL代碼示例粘貼到你的新筆記本上。您可以將示例代碼添加到筆記本的單個單元格或多個單元格。

    請注意

    你必須開始你的管道三角洲生活表選項卡。點擊運行圖標運行管道將返回一個錯誤。

代碼示例

進口dltpyspark.sql.functions進口pyspark.sql.types進口json_path“/ databricks-datasets / wikipedia-datasets /數據2015 - 001 /點擊流/ raw-uncompressed-json / _2_clickstream.json”@dlt表格評論“原始的維基點擊流數據集,從數據集獲取。”defclickstream_raw():返回火花格式“json”負載json_path))@dlt表格評論"維基百科點擊流數據清理完畢,準備分析"@dlt預計“valid_current_page_title”"current_page_title IS NOT NULL"@dltexpect_or_fail“valid_count”“click_count > 0 "defclickstream_prepared():返回dlt“clickstream_raw”withColumn“click_count”expr“鑄(n為INT)”))withColumnRenamed“curr_title”“current_page_title”withColumnRenamed“prev_title”“previous_page_title”選擇“current_page_title”“click_count”“previous_page_title”@dlt表格評論"包含鏈接到Apache Spark頁麵的首頁的表。"deftop_spark_referrers():返回dlt“clickstream_prepared”過濾器expr“current_page_title = = Apache_Spark”))withColumnRenamed“previous_page_title”“referrer”排序desc“click_count”))選擇“referrer”“click_count”限製10
創建刷新生活表格clickstream_raw評論“原始的維基點擊流數據集,從數據集獲取。”作為選擇json' /-數據集/維基百科-數據集/數據-001/點擊流/-未壓縮的-json/2015_2_clickstreamjson創建刷新生活表格clickstream_prepared約束valid_current_page預計current_page_title),約束valid_count預計click_count>0違反失敗更新評論"維基百科點擊流數據清理完畢,準備分析"作為選擇curr_title作為current_page_titlen作為INT作為click_countprev_title作為previous_page_title生活clickstream_raw創建刷新生活表格top_spark_referers評論"包含鏈接到Apache Spark頁麵的首頁的表。"作為選擇previous_page_title作為介紹人click_count生活clickstream_prepared在哪裏current_page_title“Apache_Spark”訂單通過click_countDESC限製10

創建一個管道

使用Delta Live Tables筆記本創建一個新的管道:

  1. 點擊工作圖標工作流在側邊欄中,單擊三角洲生活表選項卡,並單擊創建管道

  2. 為管道指定一個名稱並單擊文件選擇器圖標選擇一個筆記本。

  3. 可選地輸入管道輸出數據的存儲位置。如果您離開,係統將使用默認位置存儲位置空的。

  4. 選擇觸發管道模式

  5. 點擊創建

係統顯示管道的細節點擊後的頁麵創建.控件中的管道名稱也可以訪問管道三角洲生活表選項卡。

啟動管道

要啟動新管道的更新,請單擊Delta活動表格開始圖標按鈕。係統返回一條消息,確認您的管道正在啟動。

開始管道

成功啟動更新後,Delta Live Tables係統:

  1. 使用Delta Live Tables係統創建的集群配置啟動集群。您還可以指定一個自定義集群配置

  2. 創建任何不存在的表,並確保模式對於任何現有表都是正確的。

  3. 使用可用的最新數據更新表。

  4. 更新完成後關閉集群。

控件底部的事件日誌可以跟蹤更新的進度管道的細節頁麵。

查看管道事件日誌

查看結果

您可以使用Delta Live Tables用戶界麵查看管道處理的詳細信息。這包括管道圖和模式的可視化視圖,以及記錄處理細節,比如處理的記錄數量和驗證失敗的記錄。

查看管道圖

要查看管道的處理圖,請單擊選項卡。您可以使用鼠標來調整視圖或Delta活動表格圖形按鈕圖標圖形麵板右上角的按鈕。

視圖管線圖

查看數據集信息

單擊數據集可查看該數據集的架構信息。

管道視圖模式

查看處理細節

您可以查看每個數據集的處理細節,例如處理的記錄數量和數據質量指標。的事件日誌中管道的細節頁麵,選擇完成項,並單擊JSON選項卡。

查看事件日誌明細

查看管道設置

單擊設置選項卡來查看為管道生成的配置。單擊設置按鈕,修改管道配置。看到Delta Live Tables設置配置設置的詳細信息。

發布數據集

通過將表發布到Databricks metastore,你可以讓管道輸出數據可用:

  1. 單擊設置按鈕。

  2. 添加目標設置為為表配置數據庫名稱。

    配置數據庫名稱
  3. 點擊保存

  4. 單擊Delta活動表格開始圖標按鈕啟動管道的新更新。

更新完成後,您可以查看數據庫和表、查詢數據或使用下遊應用。

維基百科查詢數據

例如筆記本電腦

這些筆記本提供了Python和SQL示例,實現了Delta Live Tables管道,以實現:

  • 將原始JSON點擊流數據讀取到表中。

  • 從原始數據表中讀取記錄並使用Delta Live Tables預期創建包含已清理數據的新表。

  • 使用清理後的數據表中的記錄進行Delta Live Tables查詢,以創建派生數據集。

開始使用Delta Live Tables Python筆記本

在新標簽頁中打開筆記本

開始使用Delta Live Tables SQL筆記本

在新標簽頁中打開筆記本

找到更多的例子筆記本在_