取消
顯示的結果
而不是尋找
你的意思是:

三角洲湖在Apache火花

asethia
新的因素

你好,

按照文檔https://docs.delta.io/latest/quick-start.html,我們可以配置DeltaCatalog使用火花. sql。目錄spark_catalog。

冰山支持兩種目錄實現(https://iceberg.apache.org/docs/latest/spark-configuration/目錄):

  • 更換使用org.apache.iceberg.spark會話目錄(spark_catalog)。SparkSessionCatalog,它增加了對冰山的支持表來引發的內置目錄,和代表為non-Iceberg內置的目錄表
  • 自定義目錄——org.apache.iceberg.spark。SparkCatalog——支持蜂巢Metastore或Hadoop倉庫

我們有一個選項類似於三角洲湖冰山;我們可以配置一個自定義的目錄在哪裏?

1回複1

匿名
不適用

@Arun Sethia:

是的,三角洲湖還支持自定義目錄。三角洲湖使用火花目錄API,它允許可插入目錄的實現。您可以實現您自己的自定義目錄使用與三角洲湖。

使用一個自定義目錄,您可以設置spark.sql.catalog配置屬性。my_custom_catalog定製目錄實現的完全限定名稱。然後你可以使用增量表像往常一樣通過指定目錄和數據庫表中的標識符,像這樣:my_custom_catalog.my_database.my_table。

這裏有一個例子如何創建一個自定義目錄實現三角洲湖:

從pyspark.sql。目錄import Catalog class MyCustomCatalog(Catalog): def __init__(self, spark_session): super().__init__(spark_session) # implementation details for your custom catalog # set configuration property to use your custom catalog spark.conf.set("spark.sql.catalog.my_custom_catalog", "com.example.MyCustomCatalog") # use Delta tables with your custom catalog df = spark.read.format("delta").table("my_custom_catalog.my_database.my_table")

在上麵的例子中,MyCustomCatalog是一個定製的實現提供的Catalog類火花,和spark.sql.catalog。my_custom_catalog將該實現的完全限定名稱。然後你可以使用增量表像往常一樣,但由於自定義目錄中指定的表標識符。

希望這可以幫助你找出你的解決方案!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map