延長δ分享Azure
我們是興奮的釋放δ分享0.3.0,介紹了幾個關鍵性的改進和錯誤修正,包括以下功能:
- 三角洲分享現在可供Azure Blob存儲和Azure數據代湖:您現在可以共享Azure Blob存儲和Azure上三角洲表數據代湖(# 56,# 59)。
- 令牌過期時間:一個可選的expirationTime字段添加到三角洲分享配置文件指定一個令牌過期時間(# 77)。
- 查詢限製參數:Python連接器現在接受一個可選的極限參數允許獲取的行子集當使用load_as_pandas函數(# 76)。同樣,用戶還可以提交時發送limitHint參數共享查詢使用Apache火花™連接器(# 55)。
- 改進API列表中的所有表分享:添加了一個新的API為清單中的所有表一個分享,支持分頁(# 63,# 66,# 67,# 88)。
- 自動刷新Pre-signed網址:添加了一個新的緩存到Apache火花驅動程序自動刷新pre-signed文件url為長時間運行的查詢(# 69)。
在這篇文章中,我們將通過一些偉大的改進版本。
三角洲在Azure Blob存儲和共享Azure數據代湖
Azure Blob存儲已經被證明是一個具有成本效益的解決方案在Azure雲存儲三角洲表。這個版本新,您現在可以分享三角洲表存儲在Azure Blob存儲和Azure數據代湖三角洲的參考實現共享服務器。
三角洲在Azure Blob存儲共享的例子
分享三角洲表Azure Blob存儲是比以往更容易!例如,分享一個表稱為δ經典
在Azure Blob容器movie_recommendations
,您可以簡單地更新共享配置文件的位置δ表在Azure Blob存儲:
delta-sharing-profile.yaml
#配置股票/模式/表股票:——名稱:“my_share”模式:——名稱:“電影”表:——名稱:“經典”地點:“wasbs: / /(電子郵件保護)_sharing.blob.core.windows.net/delta/classics”
湖三角洲Azure數據共享存儲Gen2例子
對於那些希望利用內置的分層目錄結構和細粒度訪問控製,你可以分享三角洲表Azure數據存儲Gen2湖。隻是更新三角洲共享配置文件的位置在Azure數據存儲Gen2湖三角洲表,和三角洲共享服務器將自動處理數據的三角洲共享查詢:
delta-sharing-profile.yaml
#配置股票/模式/表股票:——名稱:“my_share”模式:——名稱:“電影”表:——名稱:“comedy_heaven”地點:“abfss: / /(電子郵件保護)_sharing.dfs.core.windows.net/delta/comedy_heaven”
查詢限製參數
有時它可能有助於探索幾記錄在一個共享的數據集。而不是從blob存儲整個數據集加載到內存中,您現在可以添加一個限製提示在δ共享查詢。查詢限製將被推下來,發送到三角洲共享服務器作為一個限製提示。
例如,負載共享三角洲表作為一個熊貓DataFrame 100年的行數限製,您現在可以添加的極限參數load_as_pandas ()
函數調用:
進口delta_sharing從IPython.display進口顯示profile_file =“~ / wgirten / delta-sharing-profile.yaml”
客戶= delta_sharing.SharingClient (profile_file)table_url = profile_file +“# my_share.movies.comedy_heaven”#添加一個查詢限製限製的數據量隻有100行sample_pdf = delta_sharing。load_as_pandas (table_url限製=One hundred.)
顯示器(sample_pdf)
同樣,如果Apache火花連接器發現限製條款引發的SQL查詢,它將試圖壓低限製少服務器請求數據:
——創建一個新表,分享作為一個表指定位置的路徑創建表my_comedy_movies使用deltaSharing位置“~ / wgirten / delta-sharing-profile.yaml # my_share.movies.comedy_heaven”;——顯示第一個100行通過限製提示查詢中選擇*從my_comedy_movies限製One hundred.;
列出所有表的改進API
這個版本是一個新的和改進的API中包含以下列出所有表中的所有模式份額。新的API支持分頁類似於其他API。
例如,列表中的所有表增量份額my_share
,你可以發送一個GET請求/股票/ {share_name} /所有表
端點在共享服務器上。
curl http://localhost/shares/wgirten_share/所有表- h“授權:無記名<標記>”{“項目”:【{“共享”:“my_share”,“模式”:“電影”,“名稱”:“經典”},{“共享”:“my_share”,“模式”:“電影”,“名稱”:“comedy_heaven”}),“nextPageToken”:“…”}< /令牌>
自動刷新pre-signed url
當閱讀δ分享表、三角洲共享服務器自動生成pre-signed為δ表文件的url。然而,對於長時間運行的查詢,pre-signed文件url可能到期之前共享客戶端有機會閱讀文件。該版本增加了一個pre-signed URL緩存的火花司機,自動刷新pre-signed文件URL在一個後台線程。任務運行在火花執行人交流火花驅動程序獲取最新pre-signed文件的url。
接下來是什麼
我們已經準備我們的下一個版本的三角洲共享。我們目前的一個主要功能是工作穀歌雲存儲支持。你可以跟蹤所有的即將推出,計劃特性github的裏程碑。
學分
我們想擴展貢獻這個版本的特別感謝丹尼·李,Felix張、林周,馬泰Zaharia Shixiong朱,將Girten,太陽,散熱,kohei-tosshy,威廉洲。