跳轉到主要內容
公司博客上

Apache火花和光子接收SIGMOD獎項

2022年6月15日 公司博客上

分享這篇文章

本周,許多最具影響力的工程師和研究人員在數據管理社區為ACM SIGMOD在費城召開現場會議,經過兩年的會議幾乎。作為活動的一部分,我們很興奮地看到下麵兩個獎項:

  • Apache火花獎被授予SIGMOD係統
  • 磚光子被授予最佳行業論文獎

我們以為我們會借此機會討論的背景,我們將怎樣到達那裏。

什麼是ACM SIGMOD,獎勵是什麼?

ACM SIGMOD代表計算機協會的特殊利益集團的管理數據。我們知道,長期的名字。每個人都隻是SIGMOD說。它是最著名的會議數據庫研究人員和工程師,許多最重要的思想領域的數據庫,從列商店查詢優化,已發表在這個地點。

SIGMOD係統獎每年給出一個“係統的技術貢獻有重大影響的理論或實踐上大規模數據管理係統。“這些係統往往有大規模的實際應用以及影響未來數據庫係統是如何設計的。過去的獲獎者包括Postgres、SQLite、BerkeleyDB和極光。

最好的工業紙獎每年頒發一個基於現實世界影響的結合,創新,報告的質量。

Apache火花的數據和人工智能的起源

大約十年前,Netflix開始競爭稱為Netflix獎,他們大量的匿名用戶電影評級,讓競爭對手提出的算法預測用戶速率的電影。1 m美元獎杯會團隊最好的機器學習模型。

一群在加州大學伯克利分校的博士學生決定競爭。他們遇到的第一個挑戰是,工具隻是不夠好。為了建立更好的模型,他們需要一個快速、幹淨的迭代方法,分析,處理大量的數據(不符合一個學生筆記本電腦),和他們需要一個框架表達足以組成實驗ML算法。

數據倉庫,企業數據的標準,不能處理非結構化數據,缺乏表現力。他們討論了這一挑戰與另一個博士生,馬泰Zaharia。在一起,他們設計了一個新的並行計算框架稱為火花,用一個新的創新的分布式數據結構稱為抽樣。火花使其用戶運行數據並行操作快速、簡潔。

或者換句話說,它是快速編寫代碼和快速運行。快寫是很重要的,因為它使程序更容易理解,而且可以用於構建更複雜的算法很容易。快速運行意味著用戶可以更快的得到反饋,並建立他們的模型使用日益增長的數據。

結果學生們並不孤單。這些早期的數據和人工智能應用程序,每個人都麵臨類似的挑戰。與流行的需求,項目轉移到Apache軟件基金會和發展成為一個龐大的社區。

今天,是數據處理的事實上的標準,和增長:

  • 上個月已經下載了4500萬次,僅在PyPI和Maven中央。這代表了一個下載量同比增長90%。
  • 它是用在至少204個國家和地區。
  • 它排名# 1支付技術堆棧溢出的2021開發人員調查

SIGMOD係統獎的驗證項目的采用以及其影響一代又一代的係統來把數據和人工智能作為一個統一的方案。

光子:新的工作負載和Lakehouse

作為Apache火花越來越受歡迎,我們發現組織想做多大規模數據處理和機器學習:他們想要傳統的交互式數據倉庫應用程序運行在同一數據集他們使用在他們的業務,不再需要管理多個數據係統。這導致了的概念lakehouse係統:一個數據存儲,可以做大規模處理和交互式SQL查詢,結合數據倉庫和數據湖係統的好處。

支持這些類型的用例,我們開發了光子,一個快速的c++,矢量化執行引擎的火花和SQL工作負載運行的背後引發現有的編程接口。光子使更快的交互式查詢以及更高的並發性比火花,同時支持相同的api和工作負載,包括SQL、Python和Java應用程序。我們看到好的結果與光子工作負載的大小,設置大規模的世界紀錄TPC-DS數據倉庫基準去年小3 x提供更高的性能,並發查詢

10 GB TPC-DS查詢/人力資源在32並發流(更高更好)

設計和實現光子引擎是具有挑戰性的,因為我們需要保留的表現力和靈活性火花(支持各種各樣的應用程序),從來沒有慢(為了避免性能回歸),顯著加快我們的目標工作負載。此外,與傳統的數據倉庫引擎假定所有數據已經加載到專有格式,光子需要lakehouse環境中工作,處理數據的開放格式,如三角洲湖和Apache拚花,用最小的假設關於攝入過程(例如,可用性的索引或數據統計)。我們的SIGMOD紙描述了我們如何解決這些挑戰和光子的許多技術細節的實現。

我們很高興看到這項工作被認為是最好的工業紙和我們希望它給數據庫工程師和研究人員好想法的挑戰在這個新的lakehouse係統的模型。當然,我們也非常興奮到目前為止客戶做完光子——新引擎已經發展到我們的工作負載的一個重要部分。beplay体育app下载地址

如果你是參加SIGMOD,減少磚booth說嗨。我們希望一起討論未來的數據係統。作為回報,我們將給你一個”數據倉庫是一個lakehouse最好的“t恤!

免費試著磚

相關的帖子

看到所有公司博客上的帖子
Baidu
map