跳到主要內容
公司博客上

Azure上的現代工業物聯網分析-第1部分

beplay体育app下载地址客戶利用Azure Databricks進行工業物聯網分析
分享這篇文章
這篇文章和關於工業物聯網分析的三部分係列文章是由Databricks和微軟雲解決方案架構團隊成員共同撰寫的。我們要感謝Databricks解決方案架構師Samir Gupta和微軟雲解決方案架構師Lana Koprivica和Hubert Dua,感謝他們對本文和即將發布的兩篇文章所做的貢獻。

在過去的幾年裏,工業物聯網(IIoT)作為一種基層技術堆棧已經發展起來,主要在石油和天然氣行業進行試點,在製造業、化工、公用事業、交通和能源行業廣泛采用和生產使用。由於以下因素,Scada、曆史學家甚至Hadoop等傳統物聯網係統都無法提供大多數組織所需的大數據分析功能,以預測優化其工業資產。

挑戰 所需的能力
數據量明顯更大、更頻繁 能夠可靠地從物聯網設備中捕獲和存儲亞秒級的顆粒級讀數,並且具有成本效益,每天傳輸tb級數據
數據處理需求更加複雜 兼容acid的數據處理——基於時間的窗口、聚合、樞軸、回填、移位,並能夠輕鬆地重新處理舊數據
更多的用戶角色想要訪問數據 數據是一種開放的格式,可以輕鬆地與運營工程師、數據分析師、數據工程師和數據科學家共享,而不會產生豎井
可伸縮的ML是決策製定所必需的 能夠在細粒度曆史數據上快速協作地訓練預測模型,以做出智beplay娱乐ios能資產優化決策
降低成本的要求比以往任何時候都高 低成本的按需管理平台,可獨立擴展數據和工作負載,無需大Beplay体育安卓版本量前期資金

組織正在轉向像微軟Azure這樣的雲計算平台,以利用他們必須提供的可擴展的、支持iiot的Beplay体育安卓版本技術,使吸收、處理、分析和服務時間序列數據源(如曆史學家和SCADA係統)變得容易。

在第1部分中,我們討論了端到端技術堆棧和角色Azure磚在現代物聯網分析工業應用的架構和設計中發揮著重要作用。

在第2部分中,我們將深入研究部署現代工業物聯網分析,將現場設備的實時工業物聯網機器對機器數據輸入Azure數據湖存儲,並直接在數據湖上執行複雜的時間序列處理。

在第3部分中,我們將研究機器學習和工業物聯網數據分析。

用例-風力渦輪機優化

大多數工業物聯網分析項目旨在最大化工業資產的短期利用,同時最大限度地降低其長期維護成本。在本文中,我們關注一個假設的能源供應商,試圖優化其風力渦輪機。最終目標是確定一組最優的渦輪運行參數,使每個渦輪的功率輸出最大化,同時使其故障時間最小化。

工業物聯網的目標是在短期內最大化效用,同時在長期內最小化停機時間。

這個項目的最終工件是:

  1. 自動的數據攝取和處理管道,將數據傳輸給所有最終用戶
  2. 一種預測模型,在給定當前天氣和運行條件下估計每個渦輪機的功率輸出
  3. 一種預測模型,在給定當前天氣和運行條件下估計每個渦輪機的剩餘壽命
  4. 一種優化模型,確定最佳的操作條件,以最大限度地提高功率輸出和最小化維護成本,從而最大限度地提高總利潤
  5. 為高管提供實時分析儀表板,以可視化其風電場的當前和未來狀態,如下圖所示:

工業物聯網分析儀表板可以幫助業務高管可視化,例如,一個工業資產(如風電場)的當前和未來狀態。

建築-攝取,儲存,準備,訓練,服務,可視化

下麵的架構說明了許多組織使用的現代最佳平台,利用Azure為工業物聯網分析提供的所有功能。Beplay体育安卓版本

以Azure數據湖存儲和Delta存儲格式為特色的工業物聯網數據分析架構為數據團隊提供了處理時間序列流數據的最佳平台。Beplay体育安卓版本

該架構的一個關鍵組件是Azure數據湖存儲(ADLS),它支持Azure中的“一次寫入,經常訪問”分析模式。然而,數據湖本身並不能解決時間序列流數據帶來的現實挑戰。Delta存儲格式為存儲在ADLS中的所有數據源提供了一層彈性和性能。特別是對於時間序列數據,Delta在ADLS上提供了與其他存儲格式相比的以下優勢:

所需的能力 ADLS Gen 2上的其他格式 ADLS上的Delta格式Gen 2
統一批、流處理 數據湖通常與CosmosDB這樣的流存儲結合使用,從而形成複雜的架構 與acid兼容的事務使數據工程師能夠在ADLS的相同位置執行流提取和曆史批量加載
模式實施和演進 數據湖不強製執行模式,要求將所有數據推入關係數據庫以提高可靠性 模式在默認情況下是強製的。隨著新的物聯網設備被添加到數據流中,模式可以安全地演變,因此下遊應用程序不會失敗
高效的插入 數據湖不支持內嵌更新和合並,需要刪除和插入整個分區才能執行更新 MERGE命令在處理延遲IoT讀取、用於實時充實的修改維度表或需要重新處理數據的情況下非常有效。
文件壓縮 將時間序列數據輸入數據湖會生成數百甚至數千個小文件。 Delta中的自動壓縮優化了文件大小,以提高吞吐量和並行性。
多維聚簇 數據湖僅對分區提供下推過濾 在時間戳或傳感器ID等字段上對時間序列進行排序,可以讓Databricks對這些列進行篩選和連接,速度比簡單的分區技術快100倍。

總結

在這篇文章中,我們回顧了傳統工業物聯網係統麵臨的一些不同挑戰。我們介紹了現代工業物聯網分析的用例和目標,分享了組織已經大規模部署的可重複架構,並探討了Delta格式對每個所需功能的好處。

在下一篇文章中,我們將從現場設備獲取實時工業物聯網數據到Azure,並直接在數據湖上執行複雜的時間序列處理。

他們把一切聯係在一起的關鍵技術是三角洲湖。ADLS上的Delta提供可靠的流數據管道和對大量時間序列數據的高性能數據科學和分析查詢。最後,它通過將最好的Azure工具引入一次編寫、經常訪問的數據存儲,使組織能夠真正采用Lakehouse模式。

接下來是什麼?

了解更多關於Azure Databricks的信息三部分培訓係列並通過參與了解如何創建現代數據架構這個網絡研討會

免費試用Databricks

相關的帖子

看到所有公司博客上的帖子
Baidu
map