跳轉到主要內容
Beplay体育安卓版本平台的博客

引入三角洲共享:一個開放的協議安全的數據共享

分享這篇文章

更新:三角洲分享現在一般用於AWS和Azure。

數據共享已成為在現代經濟中至關重要,因為企業希望安全地交換數據與客戶,供應商和合作夥伴。beplay体育app下载地址例如,一個零售商可能需要實時銷售數據發布到供應商,或供應商可以共享實時庫存。但到目前為止,數據共享是極其有限的,因為共享解決方案與一個單一的供應商。這對兩個數據提供者和使用者產生摩擦,自然不同的平台上運行。Beplay体育安卓版本

今天,我們推出一個新的開源項目,簡化了跨組織共享:三角洲分享,一個開放大型數據集的協議安全實時交換,使安全的數據共享在產品第一次。我們正在開發三角洲頂端與合作夥伴共享軟件和數據提供者。

明白為什麼今天的數據共享的解決方案創建摩擦,考慮一個零售商,想共享數據分析師供應商之一。今天,零售商可以使用多個雲數據倉庫提供的數據共享,但分析師會需要使用,安全,和采購團隊部署相同的倉庫產品的公司,這一過程可能需要數月時間。此外,一旦倉庫部署,分析師會做的第一件事就是從它導出數據到他們最喜歡的數據科學工具,比如熊貓或表。

用戶可以與δ共享,數據直接通過熊貓連接到共享數據,表,或許多其他係統實現開放協議,無需部署一個特定平台。Beplay体育安卓版本這樣可以減少訪問時間從幾個月到分鍾,並且極大地降低了數據提供者的工作想要達到盡可能多的用戶。

我們正在與一個充滿活力的生態係統合作夥伴三角洲共享,包括產品團隊在領先的雲,BI和數據供應商:

三角洲共享生態係統——Apache火花,大熊貓,轉眼間,Trino,生鏽,蜂巢,畫麵,BI, Qlik,美人,磚,微軟Azure,穀歌BigQuery亮光,Dremio, AtScale, Immuta, Privacera, Alation, Collibra,納斯達克(Nasdaq)、標準普爾,冰,紐交所,AWS, FactSet,準確地說,Atlassian, Foursquare,生物序列

在這篇文章中,我們將解釋如何三角洲分享工作和為什麼我們如此興奮開放數據共享方法。

三角洲共享目標

三角洲共享設計容易為提供者和使用者使用現有數據和工作流。我們設計了四個目標:

  • 共享實時數據直接拷貝:我們想讓它容易分享現有的實時數據。今天,大多數的企業數據存儲在雲湖和lakehouse係統數據。三角洲分享這些工作;特別是,它可以讓您安全地共享任何現有數據集在三角洲湖或Apache拚花格式。
  • 支持廣泛的客戶:接受者應該能夠直接使用數據從他們的工具的選擇不安裝一個新的平台。Beplay体育安卓版本三角洲共享協議是容易為工具設計的直接支持。它是基於拚花,大多數工具已經支持,所以很容易實現一個連接器。
  • 強大的安全審計和管理:協議旨在幫助您滿足隱私和合規要求。三角洲分享讓你格蘭特,跟蹤和審計訪問共享數據的單點執行。
  • 規模巨大的數據集:數據共享越來越需要支持t級的數據集,如細粒度的工業或金融數據,對遺產的挑戰的解決方案。三角洲共享利用的成本和彈性雲存儲係統分享經濟和可靠的大規模數據集。

δ分享如何工作?

三角洲安全地共享是一個簡單的REST協議,股票進入雲數據集的一部分。它利用現代雲存儲係統,如S3, ADLS或GCS,可靠地傳輸大型數據集。有兩個當事人:數據提供者和接受者。

作為數據提供者,三角洲分享讓你分享現有表或部分(例如,特定表的分區版本)的數據存儲在雲湖三角洲湖格式。三角洲湖表實質上是拚花文件的集合,並且很容易包裝如果需要現有的鑲花表到三角洲湖。數據提供商決定他們想要什麼數據分享和共享服務器運行在它前麵,它實現了三角洲為接受者共享協議和管理訪問。我們開源參考共享服務器;我們提供托管一磚,如我們想象其他供應商。

數據接收者,所有你需要的是一個許多三角洲共享客戶支持協議。我們發布了熊貓開源連接器,Apache火花,鐵鏽和Python,我們與合作夥伴合作更多。

三角洲安全地共享是一個簡單的REST協議,股票進入雲數據集的一部分。它利用現代雲存儲係統,如S3, ADLS或GCS,可靠地傳輸大型數據集。

實際的交換是精心設計的高效利用雲存儲係統和三角洲湖的功能。的協議工作如下:

  1. 接收方的客戶端驗證到共享服務器(通過不記名令牌或其他方法),要求查詢特定的表。客戶端還可以提供過濾的數據(例如“國家=我們”)作為一個提示閱讀數據的一個子集。
  2. 服務器驗證客戶是否允許訪問數據,日誌請求,然後確定哪些數據發回。這將是一個子集的數據對象在S3中或其他雲存儲係統,實際上構成了表。
  3. 傳輸數據時,服務器產生短暫的pre-signed url,允許客戶端讀這些拚花文件直接從雲提供商,以便轉移可以發生在平行巨大的帶寬,通過共享服務器沒有流。這個強大的功能可以在所有主要的雲使它快速、廉價和可靠的分享非常大的數據集。

設計的好處

三角洲共享設計為提供者和消費者提供了很多好處:

  • 數據提供者可以很容易地共享整個表,或隻是一個版本或分區的表,因為客戶隻得到一個對象的特定子集。
  • 數據提供者可以更新數據實時可靠地使用ACID事務在三角洲湖,和接受者總是看到一個一致的觀點。
  • 數據接收者不需要在同一個平台的提供者,甚至在雲中——跨雲共享工作,甚至從雲到本地用戶。Beplay体育安卓版本
  • δ為客戶共享協議是非常容易實現,如果他們已經理解拚花。我們大部分的原型實現與開源引擎和BI工具隻需要1 - 2周。
  • 轉移快,便宜,可靠和可平行的使用底層的雲係統。

一個開放的生態係統

如前所述,我們興奮建立一個開放的數據共享方法。數據提供者,如納斯達克,統一告訴我們,也很難提供多樣化的消費者數據,所有這些都使用不同的分析工具。

“我們支持三角洲的願景共享和開放的協議,它將簡化安全數據共享和跨組織的合作。三角洲分享會提高我們的工作方式與我們的合作夥伴,降低運營成本,使更多的用戶訪問全方位的納斯達克的數據套件發現見解和製定財務戰略,”比爾Dague說替代數據,納斯達克。

三角洲地區與共享,很多流行的係統將能直接連接到共享數據,這樣任何用戶都可以使用它,為所有參與者減少摩擦。我們正在與許多合作夥伴定義三角洲共享標準,我們邀請你來參加。
許多這樣的公司擴展支持今天的啟動:

BI工具:,Qlik、電力BI,美人
分析:AtScale,Dremio,的亮光穀歌,微軟Azure, BigQuery
治理:Collibra,ImmutaAlation,Privacera
數據提供商:FactSet,納斯達克,精確的,SafegraphAtlassian AWS, Foursquare,冰,Qandl,標普,SequenceBio

δ分享於磚

磚的客戶將有一個本地集beplay体育app下载地址成三角洲共享的統一目錄為共享數據,提供一個流線型的體驗內和跨組織。管理員可以管理股票使用新創建共享SQL語法或REST api和審計都集中訪問。接受者將能夠使用數據從任何平台。Beplay体育安卓版本報名加入我們的候補名單預覽訪問和更新。

路線圖

第一個版本的三角洲分享隻是一個開始。我們開發這個項目,我們計劃擴展共享其他對象,如流,SQL視圖或任意文件像機器學習模型。我們相信,未來的數據共享是開放的,我們很高興把這種方法和其他共享工作流。

開始使用三角洲共享

嚐試開源三角洲共享發布,按照說明delta.io /共享。或者,如果你是一個磚的客戶,報名更新我們的服務。我們很高興聽到您的反饋!

免費試著磚

相關的帖子

看到所有公告的帖子
Baidu
map