取消
顯示的結果
而不是尋找
你的意思是:

什麼是跟蹤數據磚的最佳實踐——觀察和writestream數據記錄流

starbucks
新的因素

試圖通過一個新的事件連接下麵點方法在Azure eventhub,存儲、分區,avro記錄(那些我可以監視)δ表?我如何跟蹤觀察,writeStream和觸發器?

…elif TABLE_TYPE = =“活”:打印(“調試:TABLE_TYPE生活觀察表”)打印(f”調試:觀察{一},{月},{日期}writeStream queryName {EVENTHUB_NAME} CHECKPOINT_PATH {CHECKPOINT_PATH}開始ADLS_MOUNT_PATH {ADLS_MOUNT_PATH}”)表。觀察(“度量”,點燃(f”{一}-{月}{日期}”).alias (“batchTime”)) .writeStream.queryName (EVENTHUB_NAME) .format(“δ”)。觸發(processingTime = 210秒)。選項(“checkpointLocation”, CHECKPOINT_PATH) .start (ADLS_MOUNT_PATH)

我證實上遊由目標Azure eventhub captrued應用事件,我看到了新avro在Azure存儲文件,盡管流片段上麵沒有寫新事件,下麵的代碼我可以寫事件數據(比如在一個批處理模式)。我在尋找一些幫助和建議最好方法跟蹤和解決讓直播工作。

打印(“調試:測試這個寫test_live目標”)spark.catalog.refreshTable (TARGET_TABLE) table.write.format .mode(“δ”)(“覆蓋”)。選項(“mergeSchema”,“真正的”).saveAsTable (TARGET_TABLE)

謝謝,新磚開發

大衛

2回答2

匿名
不適用

@David馬丁:

故障診斷和調試流管道,您可以使用以下步驟:

  1. 檢查日誌:您提供的打印語句代碼可以幫助您調試和解決問題在你的管道。你可以檢查磚工作區或使用日誌中的日誌聚合工具像Azure監控監控日誌。
  2. 監控流工作:您可以監視的狀態流使用磚UI的工作。去“流”選項卡並點擊你流工作的工作狀態,輸入的行數,輸出行。
  3. 驗證模式:確保事件中的數據中心的模式和目標的觀察表匹配模式δ表。您可以使用磚“模式注冊”功能來管理和驗證模式。
  4. 檢查檢查點位置:驗證代碼中指定檢查點位置存在,具有正確的權限。您可以使用磚“DBFS”(磚文件係統)來管理和監控檢查點文件。
  5. 測試觸發:驗證觸發間隔中指定的代碼是正確的,流觸發工作在預期的時間間隔。您可以使用磚“工作”功能的調度和監控扳機。
  6. 檢查分區:驗證分區的數據是正確的,數據是均勻分布的分區。您可以使用磚“數據”選項卡查看分區和檢查數據的分布。
  7. 檢查writeStream輸出:驗證writeStream方法是寫數據到預期的輸出位置(ADLS_MOUNT_PATH)。可以使用磚“數據”選項卡,查看輸出並檢查模式和數據的格式。

通過以下步驟和監控管道在每個階段,您可以識別和解決任何問題在你流管道和處理實時數據。

這是否幫助你覺得呢?請讓我們知道。

Vidula_Khanna
主持人
主持人

嗨@David馬丁

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map