跳轉到主要內容
工程的博客

延長δ分享Azure

三角洲分享0.3.0包括Azure支持,令牌過期時間,查詢限製參數,提高api
分享這篇文章

我們是興奮的釋放δ分享0.3.0,介紹了幾個關鍵性的改進和錯誤修正,包括以下功能:

  • 三角洲分享現在可供Azure Blob存儲和Azure數據代湖:您現在可以共享Azure Blob存儲和Azure上三角洲表數據代湖(# 56,# 59)。
  • 令牌過期時間:一個可選的expirationTime字段添加到三角洲分享配置文件指定一個令牌過期時間(# 77)。
  • 查詢限製參數:Python連接器現在接受一個可選的極限參數允許獲取的行子集當使用load_as_pandas函數(# 76)。同樣,用戶還可以提交時發送limitHint參數共享查詢使用Apache火花™連接器(# 55)。
  • 改進API列表中的所有表分享:添加了一個新的API為清單中的所有表一個分享,支持分頁(# 63,# 66,# 67,# 88)。
  • 自動刷新Pre-signed網址:添加了一個新的緩存到Apache火花驅動程序自動刷新pre-signed文件url為長時間運行的查詢(# 69)。

在這篇文章中,我們將通過一些偉大的改進版本。

三角洲在Azure Blob存儲和共享Azure數據代湖

Azure Blob存儲已經被證明是一個具有成本效益的解決方案在Azure雲存儲三角洲表。這個版本新,您現在可以分享三角洲表存儲在Azure Blob存儲和Azure數據代湖三角洲的參考實現共享服務器。

與達美0.3.0共享,您現在可以分享三角洲表存儲在Azure Blob存儲和Azure數據代湖。

三角洲在Azure Blob存儲共享的例子

分享三角洲表Azure Blob存儲是比以往更容易!例如,分享一個表稱為δ經典在Azure Blob容器movie_recommendations,您可以簡單地更新共享配置文件的位置δ表在Azure Blob存儲:

delta-sharing-profile.yaml

#配置股票/模式/表股票:——名稱:“my_share”模式:——名稱:“電影”表:——名稱:“經典”地點:“wasbs: / /(電子郵件保護)_sharing.blob.core.windows.net/delta/classics”

湖三角洲Azure數據共享存儲Gen2例子

對於那些希望利用內置的分層目錄結構和細粒度訪問控製,你可以分享三角洲表Azure數據存儲Gen2湖。隻是更新三角洲共享配置文件的位置在Azure數據存儲Gen2湖三角洲表,和三角洲共享服務器將自動處理數據的三角洲共享查詢:

delta-sharing-profile.yaml

#配置股票/模式/表股票:——名稱:“my_share”模式:——名稱:“電影”表:——名稱:“comedy_heaven”地點:“abfss: / /(電子郵件保護)_sharing.dfs.core.windows.net/delta/comedy_heaven”

查詢限製參數

有時它可能有助於探索幾記錄在一個共享的數據集。而不是從blob存儲整個數據集加載到內存中,您現在可以添加一個限製提示在δ共享查詢。查詢限製將被推下來,發送到三角洲共享服務器作為一個限製提示。

例如,負載共享三角洲表作為一個熊貓DataFrame 100年的行數限製,您現在可以添加的極限參數load_as_pandas ()函數調用:

進口delta_sharingIPython.display進口顯示profile_file =“~ / wgirten / delta-sharing-profile.yaml”
              客戶= delta_sharing.SharingClient (profile_file)table_url = profile_file +“# my_share.movies.comedy_heaven”#添加一個查詢限製限製的數據量隻有100行sample_pdf = delta_sharing。load_as_pandas (table_url限製=One hundred.)
              顯示器(sample_pdf)

同樣,如果Apache火花連接器發現限製條款引發的SQL查詢,它將試圖壓低限製少服務器請求數據:

——創建一個新表,分享作為一個表指定位置的路徑創建my_comedy_movies使用deltaSharing位置“~ / wgirten / delta-sharing-profile.yaml # my_share.movies.comedy_heaven”;——顯示第一個100行通過限製提示查詢中選擇*my_comedy_movies限製One hundred.;

列出所有表的改進API

這個版本是一個新的和改進的API中包含以下列出所有表中的所有模式份額。新的API支持分頁類似於其他API。

例如,列表中的所有表增量份額my_share,你可以發送一個GET請求/股票/ {share_name} /所有表端點在共享服務器上。

curl http://localhost/shares/wgirten_share/所有表- h“授權:無記名<標記>”{“項目”:【{“共享”:“my_share”,“模式”:“電影”,“名稱”:“經典”},{“共享”:“my_share”,“模式”:“電影”,“名稱”:“comedy_heaven”}),“nextPageToken”:“…”}< /令牌>

自動刷新pre-signed url

當閱讀δ分享表、三角洲共享服務器自動生成pre-signed為δ表文件的url。然而,對於長時間運行的查詢,pre-signed文件url可能到期之前共享客戶端有機會閱讀文件。該版本增加了一個pre-signed URL緩存的火花司機,自動刷新pre-signed文件URL在一個後台線程。任務運行在火花執行人交流火花驅動程序獲取最新pre-signed文件的url。

接下來是什麼

我們已經準備我們的下一個版本的三角洲共享。我們目前的一個主要功能是工作穀歌雲存儲支持。你可以跟蹤所有的即將推出,計劃特性github的裏程碑



學分
我們想擴展貢獻這個版本的特別感謝丹尼·李,Felix張、林周,馬泰Zaharia Shixiong朱,將Girten,太陽,散熱,kohei-tosshy,威廉洲。

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map