在集群中重播Apache Spark事件

使用單個節點集群在Spark UI中重播另一個集群的事件日誌。

寫的arjun.kaimaparambilrajan

最後發布時間:2023年2月10日

Spark UI通常用作Spark作業的調試工具。

如果無法訪問Spark界麵,可以在其他集群中加載事件日誌,使用“事件日誌回放”筆記本重放Spark事件。

刪除

警告

集群日誌傳遞默認不啟用。在啟動集群之前,必須啟用集群日誌傳遞,否則將沒有要重播的日誌。

請參考文檔進行配置集群日誌傳遞在您的集群上。

集群日誌的位置取決於集群日誌路徑您在集群配置期間設置的。

例如,日誌路徑為dbfs: / cluster-logs,指定集群的日誌文件將存儲在dbfs: / cluster-logs / <集群名稱>而各個事件日誌將存儲在dbfs: / cluster-logs / <集群名稱> /事件日誌/ < cluster-name-cluster-ip > / < log-id > /

刪除

請注意

本例將DBFS用於集群日誌,但這不是必需的。可以將集群日誌存儲在DBFS或S3存儲中。

確認集群日誌存在

檢查集群日誌路徑,並驗證正在為所選集群寫入日誌。日誌文件每5分鍾寫入一次。

啟動單節點集群

啟動單節點集群。您將在這個集群上重放日誌。

根據要重播的事件日誌的大小選擇實例類型。

運行事件日誌重播筆記本

  • 將事件日誌重播筆記本附加到單節點集群。
  • 在記事本的event_log_path字段中輸入所選集群事件日誌的路徑。
  • 運行筆記本。

事件日誌回放筆記本

在新標簽中打開筆記本。

防止從UI中刪除項目

如果你有一個長期運行的集群,一些作業和/或階段可能會從Spark UI中刪除。

這是由於默認UI限製導致的,該限製旨在防止UI使用太多內存並在集群上導致內存不足錯誤。

如果使用單節點集群重播事件日誌,可以增加默認UI限製並為Spark UI分配更多內存。這樣可以防止物品掉落。

類型可以在創建集群期間調整這些值火花配置

本例包含這些屬性的默認值。

spark. gui . retainedjobs 1000 spark.ui.retainedStages 1000 spark.ui.retainedTasks 100000 spark.sql.ui. retaineddexections 1000


這篇文章有用嗎?