跳轉到主要內容
Beplay体育安卓版本平台的博客

構建可靠的和成本有效的流數據管道與達美住表“增強的自動定量

分享這篇文章

今年我們宣布的一般可用性三角洲生活表(DLT),第一個ETL框架使用一個簡單的聲明性方法構建可靠的數據管道。自發射,磚繼續擴張的DLT的新功能。今天我們興奮地宣布增強自動定量三角洲生活表(DLT)現在一般可用。分析師和數據工程師可以使用DLT快速創建生產就緒流媒體或批處理的數據管道。你隻需要定義轉換執行數據使用SQL或Python, DLT了解管道的附件和自動計算管理、監控、數據質量和錯誤處理。

DLT增強自動定量旨在處理流媒體工作負載的和不可預測的。對於流媒體工作負載優化集群利用率降低你的成本,同時確保你的數據管道所需的一切資源去維護一致的sla。結果,您可以專注於處理數據與業務的信心獲得最新鮮的數據和你的成本優化。許多客戶已beplay体育app下载地址經在使用增強的自動定量生產今天,從創業企業納斯達克殼牌。DLT增強自動定量供電生產客戶喜歡用例beplay体育app下载地址貝瑞阿普曼&萊頓LLP)(BAL),獲獎的全球移民律師事務所:

知名律師事務所”DLT的增強的自動定量使像BAL優化流數據管道,同時保留我們的延遲需求。我們提供給客戶的報告數據4 x比以前更快,所以他們的信息對他們的移民程序作出更明智的決定。”
——Chanille朱諾,首席技術官,落下帷幕

落下帷幕

流數據是關鍵任務

流負載越來越受歡迎,因為它們允許更快的決策上大量的新數據。實時處理提供了新鮮的數據組織的分析和機器學習模型使他們能夠做出更好的、更快的決策,更準確的預測,提供改善客戶體驗,等等。許多磚用戶采用流上lakehouse利用低延遲、容錯和支持增量處理。我們已經看到巨大的采用流媒體的開放源碼Apache引發用戶和磚的客戶。beplay体育app下载地址以下圖表顯示了每周磚上的流媒體工作的數量在過去的三年裏,它已從幾千幾百萬,仍在加速。

圖:流媒體的崗位數量在磚上運行
圖:流媒體的崗位數量在磚上運行

有許多類型的工作負載,數據量隨時間:點擊流事件,電子商務交易,服務日誌,和更多。與此同時,我們的客戶要求更可預測的延遲和保證beplay体育app下载地址數據可用性和新鮮。

擴展基礎設施來處理流數據,同時保持一致的sla在技術上具有挑戰性,有不同的,比傳統的批處理更複雜的需求。團隊經常要解決這個問題,數據規模的基礎設施高峰負荷,從而導致低利用率和更高的成本。手動管理基礎設施操作複雜和費時。

磚了集群自動定量2018年解決這個問題擴展計算資源,以應對變化的計算要求。集群自動定量挽救了我們的客戶資金同時確保必要的負載能力,以避免昂貴的beplay体育app下载地址停機時間。然而,集群自動定量設計麵向批處理的流程計算的要求相對眾所周知,沒有波動的工作流。DLT的增強的自動定量是建立專門處理不可預測的數據流,可以跟流管道,幫助客戶節省金錢和簡化操作,確保一致的sla流的工作負載。beplay体育app下载地址

DLT增強自動定量智能尺度流和批處理工作負載

DLT與自動定量跨越許多用例所有垂直行業包括零售、金融服務、等等。在這個例子中,我們選擇了一個用例分析網絡安全事件。讓我們看看增強自動定量為三角洲住表刪除需要手動管理基礎設施,同時提供新鮮的結果與低成本。我們將說明這與一個共同的,現實世界的例子:使用三角洲住表檢測網絡安全事件。

網絡安全工作負載自然的早晨——用戶登錄電腦,離開桌子吃飯,更多的用戶在另一個時區醒過來,一個循環的圓不斷重複著。安全團隊需要處理事件盡快保護業務,同時控製成本。

在這個演示中,我們將接收和處理連接Zeek產生的日誌,一個流行的開源網絡監視工具。

圖:寫入著陸場的行數
圖:寫入著陸場的行數

三角洲生活表管道遵循的標準大獎章架構——它接受JSON數據到一個青銅層使用磚自動加載程序數據,然後將清洗到銀層,調整數據類型,重命名列,和應用數據的預期處理錯誤數據。完整的流管道是這樣的,從創建幾行代碼:

圖:網絡安全示例DLT管道
圖:網絡安全示例DLT管道

分析我們將使用來自DLT的信息事件日誌,也可以作為δ表。

下麵的圖顯示了集群大小與增強的自動定量增加數據量和減少數據量減少時,處理積壓。

圖:使用的執行器數量的DLT管道使用增強的自動定量。
圖:使用的執行器數量的DLT管道使用增強的自動定量。

正如你所看到的圖,能夠自動增減集群的規模大大節省了資源。

三角洲生活表收集有用的度量數據管道,包括自動定量和集群事件。集群資源事件提供信息關於當前的執行者和任務名額,利用任務槽和隊列任務的數量。增強自動定量使用此數據進行實時計算最優數量的執行人對於一個給定的工作負載。舉個例子,我們可以看到在下麵的圖中,任務的數量的增加導致執行人推出的數量的增加,當任務的數量下降,執行人也刪除優化成本:

圖:當前和預計的最優數量的執行人&排隊任務的平均數量
圖:當前和預計的最優數量的執行人&排隊任務的平均數量

結論

鑒於改變,不可預測的數據量,人工分級集群可以困難和風險獲得最佳性能。dlt增強自動定量最大化集群利用率,同時降低整個端到端延時降低成本。

在這篇博客文章中,我們演示了如何DLT的增強的自動定量尺度滿足流負載要求通過選擇理想數量的計算資源基於當前和預計的數據加載。我們還演示了如何,為了減少開支,提高自動定量將縮減集群資源才會安靜下來。

開始使用增強的自動定量和δ生活表數據磚Lakehouse平台Beplay体育安卓版本

增強自動定量自動啟用新管道DLT中創建用戶界麵。我們鼓勵用戶在現有支持增強的自動定量DLT管道通過單擊設置按鈕DLT的UI。DLT管道通過REST API必須包括一個設置啟用增強的自動定量(見文檔)。DLT管道中沒有指定自動定量模式設置,我們將逐步推出的變化增強了默認的自動定量。

看下麵的演示發現易用性的DLT數據工程師和分析師們:

如果你是一個磚客戶,隻是遵循導遊開始。如果你沒有一個現有的磚的客戶,注冊一個免費試用,您可以查看我們的詳細的DLT定價365beplay体育手机

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map