使用Apache Spark DataFrames讀取Delta共享共享表
本文提供了使用Apache Spark查詢共享數據的語法示例三角洲分享.使用deltasharing
關鍵字作為DataFrame操作的格式選項。
查詢共享數據的其他選項
你也可以在注冊在metastore中的Delta Sharing目錄中創建使用共享表名的查詢,例如下麵的例子:
選擇*從shared_table_name
火花.讀.表格(“shared_table_name”)
有關在Databricks中配置Delta共享和使用共享表名查詢數據的詳細信息,請參見讀取使用databicks -to- databricks Delta Sharing共享的數據.
您可以使用結構化流來增量地處理共享表中的記錄。若要使用結構化流,必須啟用表的曆史共享。看到改變分享.曆史共享需要Databricks Runtime 12.1或以上版本。
如果共享表在源增量表上啟用了更改數據提要,並且在共享上啟用了曆史記錄,則可以在使用結構化流或批處理操作讀取增量共享時使用更改數據提要。看到在Databricks上使用Delta Lake更改數據提要.
使用Delta Sharing格式關鍵字讀取
的deltasharing
關鍵字用於Apache Spark DataFrame讀取操作,示例如下:
df=(火花.讀.格式(“deltasharing”).負載(“< profile_path > # < share_name >, < schema_name >。< table_name >”))
讀取Delta Sharing共享表的更改數據提要
對於已共享曆史並啟用了更改數據提要的表,您可以使用Apache Spark DataFrames讀取更改數據提要記錄。曆史共享需要Databricks Runtime 12.1或以上版本。
df=(火花.讀.格式(“deltasharing”).選項(“readChangeFeed”,“真正的”).選項(“startingTimestamp”,“2021-04-21 05:45:46”).選項(“endingTimestamp”,“2021-05-21 12:00:00”).負載(“< profile_path > # < share_name >, < schema_name >。< table_name >”))
使用結構化流讀取Delta共享共享表
對於已共享曆史的表,您可以使用共享表作為結構化流的源。曆史共享需要Databricks Runtime 12.1或以上版本。
streaming_df=(火花.readStream.格式(“deltasharing”).負載(“< profile_path > # < share_name >, < schema_name >。< table_name >”))如果源表開啟了CDFstreaming_cdf_df=(火花.readStream.格式(“deltasharing”).選項(“readChangeFeed”,“真正的”).選項(“startingTimestamp”,“2021-04-21 05:45:46”).負載(“< profile_path > # < share_name >, < schema_name >。< table_name >”))