取消
顯示的結果
而不是尋找
你的意思是:

磚的工作調度——連續模式

smurug
新的貢獻者二世

調度磚使用連續模式工作時,會發生什麼,如果工作是配置為集群運行工作。

在每個集群將終止運行,重新再下一次運行嗎?官方文檔還不清楚,但它隻提到,會有一個輕微的延遲不超過60秒。

但快速實用檢查這個場景中,點的方向,集群正在重現,因為一個簡單的筆記本做什麼花2分鍾完成,從日誌看起來不同的集群。但不是決定性的。

欣賞任何想法相同的——因為邏輯上連續的選擇應該重用集群(為了節省啟動時間),否則這個選項的值將是有限的。

2回答2

Tharun-Kumar
重視貢獻三世
重視貢獻三世

@smurug

集群工作設計是獨一無二的每次運行工作。所以,每次運行的作業將運行集群對一份新工作。

如果你想讓你的工作持續運行沒有任何延遲和重用集群,我建議使用專用集群互動。在這種情況下,集群將被保留在工作運行,你的工作將立即之前運行完成後執行。

smurug
新的貢獻者二世

謝謝你的回應——是的,我們這樣做是目前(使用交互式集群),但是以下是指針,正在考慮重新評估這種方法,到達一個可能的選擇(如果可能的話)

1)成本集群互動和工作的區別

2)在生產環境中,時不時被收到以下錯誤

運行失敗與錯誤消息上下文ExecutionContextId(1496834584910869936)斷開連接。而這個錯誤可以獲得多個原因,集群資源約束根據理解的主要原因之一。因此,思維過程是個體工作集群不同的工作,可以獨立了,因此這將導致使就業而不是專用的可用資源共享資源從集群互動在所有工作。然而它可能不是可行的創建許多互動集群考慮成本,因此使用集群工作可以抵消一些成本,有助於降低整體成本。
此外,在網上搜索,發現了這篇文章https://medium.com/@24chynoweth continuous-jobs-and-file-triggers-in-databricks-e7ba51a0c93a提到資源重用。
同時,官方文檔,https://docs.www.eheci.com/workflows/jobs/schedule-jobs.html——顯然也沒提到任何關於重用/終止,但提到,會有一個輕微的延遲將不超過60秒。因此如果集群需要會重現,我不認為這能保證隻有60秒延遲。
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map