取消
顯示的結果
而不是尋找
你的意思是:

DLT設置超過實際構建的表

dsldan
新的貢獻者二世

嗨!

我們使用DLT ETL作業和我們注意設置步驟(初始化,重新設置表。設置表、渲染圖)正采取更長的時間比實際ETL操作的數據表。我們有大約110表結合在青銅,金銀層。似乎用一個更大的計算集群不幫助減少。

有什麼方法來加快?

歡呼,

她女兒

1接受解決方案

接受的解決方案

匿名
不適用

@daan duppen:

有一些策略可以嚐試優化你的三角洲生活表設置時間:

  1. 減少表的數量:110個表是一個重要的數字,和設置時間為每個表能迅速增加。盡可能考慮合並表或刪除不再需要的任何表。
  2. 優化你的表模式:確保你的表的模式盡可能簡化。這可以包括刪除不必要的列,使用適當的數據類型,並利用三角洲湖優化分區和聚類等。
  3. 優化你的數據來源:如果您的數據是來自外部源,考慮優化源減少,需要讀取的數據量和加工過程中設置。
  4. 優化你的ETL代碼:確保你的ETL代碼盡可能有效和適當使用並行性和優化SQL查詢。
  5. 利用緩存:考慮使用緩存來減少所需的時間來加載數據到你的表。這可能是特別有效,如果你反複查詢相同的數據集。
  6. 利用預處理:根據您的數據的性質,它可能會預處理之前加載到你的表。例如,您可以聚合數據在一個更高的水平加載到你的表,或刪除任何不必要的下遊處理不需要的數據。
  7. 使用性能剖析工具:使用性能剖析工具來識別任何ETL作業瓶頸,這可能影響安裝時間。這可以幫助您識別領域的優化。

重要的是要注意,你應該使用的具體策略將取決於您的數據和用例的細節。你可能需要嚐試不同的策略和措施的影響設置時間找到最有效的方法。

在原帖子查看解決方案

2回答2

匿名
不適用

@daan duppen:

有一些策略可以嚐試優化你的三角洲生活表設置時間:

  1. 減少表的數量:110個表是一個重要的數字,和設置時間為每個表能迅速增加。盡可能考慮合並表或刪除不再需要的任何表。
  2. 優化你的表模式:確保你的表的模式盡可能簡化。這可以包括刪除不必要的列,使用適當的數據類型,並利用三角洲湖優化分區和聚類等。
  3. 優化你的數據來源:如果您的數據是來自外部源,考慮優化源減少,需要讀取的數據量和加工過程中設置。
  4. 優化你的ETL代碼:確保你的ETL代碼盡可能有效和適當使用並行性和優化SQL查詢。
  5. 利用緩存:考慮使用緩存來減少所需的時間來加載數據到你的表。這可能是特別有效,如果你反複查詢相同的數據集。
  6. 利用預處理:根據您的數據的性質,它可能會預處理之前加載到你的表。例如,您可以聚合數據在一個更高的水平加載到你的表,或刪除任何不必要的下遊處理不需要的數據。
  7. 使用性能剖析工具:使用性能剖析工具來識別任何ETL作業瓶頸,這可能影響安裝時間。這可以幫助您識別領域的優化。

重要的是要注意,你應該使用的具體策略將取決於您的數據和用例的細節。你可能需要嚐試不同的策略和措施的影響設置時間找到最有效的方法。

Vidula_Khanna
主持人
主持人

嗨@daan duppen

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map