取消
顯示的結果
而不是尋找
你的意思是:

數據質量在磚

Phani1
因素二世

你好磚團隊,想實現數據質量規則在磚,除了DLT我們有標準方法執行前/數據質量規則適用於銅層進一步進行金銀層。

4回複4

AndrewN
新的貢獻者三世
新的貢獻者三世

查看dbdemos。人工智能,你可能會感興趣的例子應用測試你的DLT管道,確保數據質量。

https://www.dbdemos.ai/demo.html?demoName=dlt-unit-test

Vidula_Khanna
主持人
主持人

嗨@Janga Reddy

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

匿名
不適用

@Janga Reddy:

是的,有幾種方法可以實現數據質量規則在磚,並應用在銅層是一個很好的實踐。

一種方法是使用磚三角洲湖斷言的命令對數據應用數據質量檢查。維護命令允許您定義條件,必須對您的數據被認為是有效的,並提出了一個錯誤如果任何條件都是虛假的。您可以使用此命令來執行數據質量規則,如檢查缺失值,驗證數據類型,或驗證的數據範圍。

這裏有一個例子如何使用斷言命令檢查缺失值δ表:

從pyspark.sql。功能導入坳df = spark.read.format(“δ”).load(路徑“/ / /銅/表”)df \ .select(坳(“column1”),坳(“column2”),坳(“column3”)) \ . assert(坳(column1) .isNotNull() &坳(column2) .isNotNull() &坳(column3) .isNotNull ())

在這個例子中,我們從青銅層讀取三角洲表,選擇我們想要的列檢查缺失的值,並應用維護命令的條件檢查是否所有選定的列不為空。如果所選列null值,它會拋出一個錯誤。

另一種方法是使用磚質量控製(QC)的框架,這是一個圖書館的定義和執行數據質量檢查磚。與QC,您可以定義數據質量檢查使用SQL或Python代碼,並執行在您的數據。QC也提供報告和報警功能,數據質量檢查失敗時通知你。

這裏有一個例子如何定義一個使用質量控製數據質量檢查:

從磚進口qc qc.test (my_data_quality_check) \碧綠(my_bronze_table) \ .expect (“column1 qc.not_null ()) \ .expect (“column2 qc.not_null ()) \ .expect (“column3 qc.not_null ())

在這個例子中,我們定義了一個數據質量檢查使用qc.test()方法,指定的表檢查()方法,並定義使用預期的期望()方法。qc.not_null()方法用於指定列必須沒有null值。

這些隻是幾個例子的方法可以實現數據質量規則在磚。根據您的特定的用例和需求,您可以選擇最適合您的需求的方法。

Phani1
因素二世

import_error謝謝你分享的細節,我們使用DBR 12.2。

我們麵臨以下錯誤而導入庫/包。你能幫我如何導入它嗎

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map