取消
顯示的結果
而不是尋找
你的意思是:

結構化流運行時工作在生產、降低成本的一般的最佳實踐是什麼?

User16752245312
新的貢獻者三世

考慮一個聚合的基本結構用例流數據,執行一些基本的數據清洗轉換、合並成一個曆史聚合數據集。

5回複5

User16826994223
尊敬的貢獻者三世

我能想到的是什麼

1。把觸發器處理時間間隔,而不是多屏畫麵等等。Api的檢查點存儲增加成本,而不是dbus但對於雲計算供應商

2。如果你有多個多個流流那麼多路複用到一個,而不是不同的集群不同流。

User16869510359
尊敬的貢獻者
  • 總有一批之間的權衡成本和執行時間。可以發射小型集群和限製數據每批成功並運行它。然而,有一個機會流工作負載將開發積壓。所以選擇正確的集群大小是重要和大小的主要因素決定應該SLA數據可用性,而不是成本。但是如果有更多的成本優先推出小型集群會有所幫助。
  • 當你在做一個聚合操作,它也可以包括狀態管理。如果是這樣的話,選擇最好的狀態存儲磁盤上也可以幫助減少不必要的成本擴張。
  • 作為@Kunal Gaurav提到的,你可以計劃一個交互式的集群上運行多個流。但是注意,流媒體應用程序可以長時間運行,因為按需集群更便宜,在按需運行工作負載集群可以便宜。

Soma
價值貢獻

這將幫助很多之前請確保我們按照以下生產

https://docs.www.eheci.com/spark/latest/structured-streaming/production.html

lawrence009
貢獻者

我第二個建議:自動加載與觸發,批處理而不是連續流用例允許的地方。此外,

  • 先和小批量測試
  • 有利於減少更大的工人更多的小工人
  • 調整你的工作集群加班,通過觀察火花UI和集群指標看步驟可以優化和計算資源減少
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map