問答回顧從辦公時間11/30
問:什麼是使用z值和自動優化的缺點嗎?看起來可能會有一個權衡與寫作小文件(而它善於閱讀更大的文件),這是真的嗎?
答:默認情況下,三角洲湖磚收集統計數據的第一個32列上定義在你的表模式。它跟蹤簡單統計等某一粒度最小和最大值與I / O相關的粒度。收集統計信息在長字符串是一項昂貴的操作,有時可以瓶頸
問:有沒有一種磚on-prem跑步嗎?我們有一些工作負載是不允許去雲數據安全需求。
你可以利用我們的PVC支持(私有虛擬雲)你所有的控製平麵和dataplane可以訪問。這可能是最好的方法。
問:光子的更多信息,以及它是如何被使用?我們會喜歡閱讀它
答:這是一個深入論文在光子。你可以得到一個更一般的概述在這裏。
問:如何組織數據磚從AWS市場有多個vpc為每個環境?一個AWS VPC每個工作區嗎?
答:賬戶控製台——所有比特和咬你的網絡組件將被控製。此外,您指定的子網customer-managed VPC必須隻留給一個磚工作區。你不能與任何分享這些子網其他資源,包括其他磚工作區。理想情況下,您可以有1工作區1 VPC
問:我有很多選擇在集群上安裝的東西:notebook-scoped圖書館集群級、init_scripts和自定義碼頭工人的形象。在這種情況下,你會推薦他們每個人嗎?尤其是在與很多情況下我有一個項目依賴關係和我想加速集群啟動
如果你想有很多庫安裝我建議使用init腳本。管理相同的也會很容易。一個黑客,加上10/20秒睡在您的腳本之前安裝命令
問:有沒有一種禁用默認DBFS存儲用戶帳戶?我們有一個網絡政策不允許我們使用任何存儲賬戶與公共IP(默認存儲賬戶,我們不能改變它)。問題是,當新用戶,DBFS存儲位置是默認位置創建新表或數據集時。
答:你需要DBFS。但是你可以問用戶不是山。我不確定如果這符合你的用例,但你也可以實現一些否定規則
問:什麼可能是一個最好的方法(響應和成本有效)處理低容量消息輸入(每天1000條消息)……假設長時間沒有消息....但當他們進來,子第二次回應接收和處理預計....我假設我需要集群總是在處理這種....即使它不會很忙除非有另一種方法來處理和零星的傳入消息近乎實時的消息嗎?
答:您可以使用自動裝卸機觸發。現在可用並運行一些間隔如果被接受的延遲的工作。這將幫助你節省成本。