Delta Live Tables快速啟動
您可以使用Databricks筆記本輕鬆創建和運行Delta Live Tables管道。本文演示了在包含Wikipedia點擊流數據的數據集上使用Delta Live Tables管道來:
將原始JSON點擊流數據讀入表中。
從原始數據表中讀取記錄並使用Delta Live Tables預期創建包含已清理數據的新表。
使用清理後的數據表中的記錄進行Delta Live Tables查詢,以創建派生數據集。
在這個快速啟動中,你:
創建一個新的筆記本,並添加實現管道的代碼。
使用筆記本創建一個新的管道作業。
啟動一個更新管道工作。
查看管道作業的結果。
需求
你必須有集群創建權限啟動管道。Delta Live Tables運行時在運行管道之前會創建一個集群,如果您沒有正確的權限,則會失敗。
創建一個筆記本
你可以使用例如筆記本電腦或者創建一個新的筆記本來運行Delta Live Tables管道:
進入Databricks登錄頁麵並選擇創建空白筆記本.
在創建筆記本對話,給你的筆記本一個名字和選擇Python或SQL從默認的語言下拉菜單。你可以把集群設置為默認值。Delta Live Tables運行時在運行管道之前創建一個集群。
點擊創建.
複製Python或SQL代碼示例粘貼到你的新筆記本上。您可以將示例代碼添加到筆記本的單個單元格或多個單元格。
請注意
你必須開始你的管道從三角洲生活表選項卡。點擊運行管道將返回一個錯誤。
代碼示例
進口dlt從pyspark.sql.functions進口*從pyspark.sql.types進口*json_path=“/ databricks-datasets / wikipedia-datasets /數據2015 - 001 /點擊流/ raw-uncompressed-json / _2_clickstream.json”@dlt.表格(評論=“原始的維基點擊流數據集,從數據集獲取。”)defclickstream_raw():返回(火花.讀.格式(“json”).負載(json_path))@dlt.表格(評論="維基百科點擊流數據清理完畢,準備分析")@dlt.預計(“valid_current_page_title”,"current_page_title IS NOT NULL")@dlt.expect_or_fail(“valid_count”,“click_count > 0 ")defclickstream_prepared():返回(dlt.讀(“clickstream_raw”).withColumn(“click_count”,expr(“鑄(n為INT)”)).withColumnRenamed(“curr_title”,“current_page_title”).withColumnRenamed(“prev_title”,“previous_page_title”).選擇(“current_page_title”,“click_count”,“previous_page_title”))@dlt.表格(評論="包含鏈接到Apache Spark頁麵的首頁的表。")deftop_spark_referrers():返回(dlt.讀(“clickstream_prepared”).過濾器(expr(“current_page_title = = Apache_Spark”)).withColumnRenamed(“previous_page_title”,“referrer”).排序(desc(“click_count”)).選擇(“referrer”,“click_count”).限製(10))
創建或刷新生活表格clickstream_raw評論“原始的維基點擊流數據集,從數據集獲取。”作為選擇*從json.' /磚-數據集/維基百科-數據集/數據-001/點擊流/生-未壓縮的-json/2015_2_clickstream.json`;創建或刷新生活表格clickstream_prepared(約束valid_current_page預計(current_page_title是不零),約束valid_count預計(click_count>0)在違反失敗更新)評論"維基百科點擊流數據清理完畢,準備分析"作為選擇curr_title作為current_page_title,投(n作為INT)作為click_count,prev_title作為previous_page_title從生活.clickstream_raw;創建或刷新生活表格top_spark_referers評論"包含鏈接到Apache Spark頁麵的首頁的表。"作為選擇previous_page_title作為介紹人,click_count從生活.clickstream_prepared在哪裏current_page_title=“Apache_Spark”訂單通過click_countDESC限製10;
創建一個管道
使用Delta Live Tables筆記本創建一個新的管道:
點擊工作流在側邊欄中,單擊三角洲生活表選項卡,並單擊創建管道.
為管道指定一個名稱並單擊選擇一個筆記本。
可選地輸入管道輸出數據的存儲位置。如果您離開,係統將使用默認位置存儲位置空的。
選擇觸發為管道模式.
點擊創建.
係統顯示管道的細節點擊後的頁麵創建.控件中的管道名稱也可以訪問管道三角洲生活表選項卡。
啟動管道
要啟動新管道的更新,請單擊按鈕。係統返回一條消息,確認您的管道正在啟動。
成功啟動更新後,Delta Live Tables係統:
使用Delta Live Tables係統創建的集群配置啟動集群。您還可以指定一個自定義集群配置.
創建任何不存在的表,並確保模式對於任何現有表都是正確的。
使用可用的最新數據更新表。
更新完成後關閉集群。
控件底部的事件日誌可以跟蹤更新的進度管道的細節頁麵。
查看管道設置
單擊設置選項卡來查看為管道生成的配置。單擊設置按鈕,修改管道配置。看到Delta Live Tables設置配置設置的詳細信息。
發布數據集
通過將表發布到Databricks metastore,你可以讓管道輸出數據可用:
單擊設置按鈕。
添加目標設置為為表配置數據庫名稱。
點擊保存.
單擊按鈕啟動管道的新更新。
更新完成後,您可以查看數據庫和表、查詢數據或使用下遊應用。