Spark UI通常用作Spark作業的調試工具。
如果無法訪問Spark界麵,可以在其他集群中加載事件日誌,使用“事件日誌回放”筆記本重放Spark事件。
請參考文檔進行配置集群日誌傳遞在您的集群上。
集群日誌的位置取決於集群日誌路徑您在集群配置期間設置的。
例如,日誌路徑為dbfs: / cluster-logs,指定集群的日誌文件將存儲在dbfs: / cluster-logs / <集群名稱>而各個事件日誌將存儲在dbfs: / cluster-logs / <集群名稱> /事件日誌/ < cluster-name-cluster-ip > / < log-id > /.
確認集群日誌存在
檢查集群日誌路徑,並驗證正在為所選集群寫入日誌。日誌文件每5分鍾寫入一次。
啟動單節點集群
啟動單節點集群。您將在這個集群上重放日誌。
根據要重播的事件日誌的大小選擇實例類型。
運行事件日誌重播筆記本
- 將事件日誌重播筆記本附加到單節點集群。
- 在記事本的event_log_path字段中輸入所選集群事件日誌的路徑。
- 運行筆記本。
事件日誌回放筆記本
防止從UI中刪除項目
如果你有一個長期運行的集群,一些作業和/或階段可能會從Spark UI中刪除。
這是由於默認UI限製導致的,該限製旨在防止UI使用太多內存並在集群上導致內存不足錯誤。
如果使用單節點集群重播事件日誌,可以增加默認UI限製並為Spark UI分配更多內存。這樣可以防止物品掉落。
類型可以在創建集群期間調整這些值火花配置.
本例包含這些屬性的默認值。
spark. gui . retainedjobs 1000 spark.ui.retainedStages 1000 spark.ui.retainedTasks 100000 spark.sql.ui. retaineddexections 1000