取消
顯示的結果
而不是尋找
你的意思是:

DLT cloudfiles觸發間隔不工作

elifa
新的因素

我有以下流表定義使用cloudfiles格式和pipelines.trigger.interval設置減少文件發現成本但查詢觸發每12秒,而不是每隔5分鍾。

我有另一個配置缺失或DLT cloudfiles不使用該設置?

@dlt。表def s3_data (spark_conf = {“pipelines.trigger.interval”:“5分鍾”},table_properties ={“質量”:“青銅”、“pipelines.reset。允許”:“false”#保護三角洲中的數據表如果你全部刷新}):返回(spark.readStream.format .option (“cloudFiles (“cloudFiles”)。格式”、“json) .load (s3: / /桶/).withColumn (“filePath input_file_name ()))

3回複3

Timothydickers
新的因素

@elifa寫道:

我有以下流表定義使用cloudfiles格式和pipelines.trigger.interval設置減少文件發現成本但查詢觸發每12秒,而不是每隔5分鍾。

我有另一個配置缺失或DLT cloudfiles不使用該設置?sheets聽

@dlt。表def s3_data (spark_conf = {“pipelines.trigger.interval”:“5分鍾”},table_properties ={“質量”:“青銅”、“pipelines.reset。允許”:“false”#保護三角洲中的數據表如果你全部刷新}):返回(spark.readStream.format .option (“cloudFiles (“cloudFiles”)。格式”、“json) .load (s3: / /桶/).withColumn (“filePath input_file_name ()))


你好,

pipelines.trigger.interval設置的目的是控製新文件的發現間隔使用三角洲湖時間旅行時在輸入路徑與CloudFiles磚的流源。然而,似乎有一個問題與觸發間隔不尊敬。

首先,確認你使用正確的語法pipelines.trigger.interval設置。正確的格式是“5米”,代表5分鍾,而不是“5分鍾”。更新你的spark_conf設置觸發區間如下:

spark_conf = {“pipelines.trigger.interval”:“5 m”}

如果問題仍然存在,請考慮檢查任何可能限製您使用磚或更新的版本。可能會有錯誤或兼容性問題在已經安裝的版本。

另一個可能的方法是檢查磚的文檔或論壇是否有任何已知的問題或解決方案相關pipelines.trigger.interval設置當使用CloudFiles流源。

如果你仍然麵臨的問題,你可能會考慮接觸磚支持援助和進一步調查。他們可以提供特定的見解與CloudFiles pipelines.trigger.interval設置的行為在你的磚環境和解決問題上提供指導。

Tharun-Kumar
尊敬的貢獻者
尊敬的貢獻者

@elifa

你能檢查這個消息日誌文件?

信息EnzymePlanner:規劃流程:s3_data

根據配置pipelines.trigger.interval,規劃應該在每5分鍾發生一次。

下麵的日誌是我可以看到它是如何運行每12秒。我使用相同的配置在其他表不cloudfiles格式和效果好。

23/08/08 04:59:00信息MicroBatchExecution:流媒體查詢取得了進展:{“名稱”:“s3_data”,“時間戳”:“2023 - 08年- 08 - t04:59:00.005z”、“numInputRows”: 0,“inputRowsPerSecond”: 0.0,“processedRowsPerSecond”: 0.0,} 23/08/08 04:59:12信息MicroBatchExecution:流媒體查詢取得了進展:{“名稱”:“s3_data”,“時間戳”:“2023 - 08年- 08 - t04:59:12.000z”、“numInputRows”: 0,“inputRowsPerSecond”: 0.0,“processedRowsPerSecond”: 0.0,} 23/08/08 04:59:36信息MicroBatchExecution:流媒體查詢取得了進展:{“名稱”:“s3_data”,“時間戳”:“2023 - 08年- 08 - t04:59:36.000z”、“numInputRows”: 0,“inputRowsPerSecond”: 0.0,“processedRowsPerSecond”: 0.0,} 23/08/08 04:59:48信息MicroBatchExecution:流媒體查詢取得了進展:{“名稱”:“s3_data”,“時間戳”:“2023 - 08年- 08 - t04:59:48.002z”、“numInputRows”: 0,“inputRowsPerSecond”: 0.0,“processedRowsPerSecond”: 0.0,}

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map