你好Berdonio,
1 -這實際上取決於你的工作以及它如何使用資源(CPU /內存)和壓力是多少在你的節點。但我最初會1司機和2工人組成的小型集群(固定大小)和監控情況。
2 -就像我說的真的取決於你的工作,但如果你沒有複雜的連接/合並,計算優化和監控情況。如果與計算優化的機器你取得好結果和尊重你的SLA好去,否則搬到通用的cpu /內存的比例更加平衡。如果你仍然有內存問題,選擇一個內存優化的機器類型。如果在你流的工作你是大量使用磁盤緩存,去三角洲緩存加速的機器。
3 -選擇同一類型的司機和工人。
4 -流,最好使用一個固定的尺寸,這樣你就不會浪費時間在集群調整(dlt過了嗎?dlt增強的自動定量流式的工作。)
5 -光子可以給你一個巨大的性能,但這實際上取決於操作你在你的工作。打開它,你的工作和比較你的火花正常工作。如果你有一個可接受的性能增益,使用它。
6——這取決於你的SLA和多久你需要刷新數據。
希望這個有幫助。