在集群環境中,安裝Maven庫org.apache.hudi: hudi-spark3.3-bundle_2.12:0.13.0磚12.2 LTS
——集群配置,添加三行:
spark.sql。擴展org.apache.spark.sql.hudi。HoodieSparkSessionExtension spark.sql.catalog。spark_catalog org.apache.spark.sql.hudi.catalog。HoodieCatalog火花。序列化器org.apache.spark.serializer.KryoSerializer
流與hudi快樂!
我試著安裝庫和配置配置,重新啟動集群,然後在筆記本跑創建cmd但它給了我錯誤陳述
. io .FileNotFoundException:沒有這樣的文件或目錄:s3: / / incred-databricks-data / hudi_dms_data / hudi_cow_pt_tbl
我的在python中cmd筆記本:
% sql create table hudi_cow_pt_tbl (id bigint名稱字符串,ts bigint, dt字符串,hh字符串)使用hudi tblproperties (type =‘牛’,primaryKey =“id”, preCombineField = ' ts)分區(dt, hh)位置的s3: / / incred-databricks-data / hudi_dms_data / hudi_cow_pt_tbl ';
而且這並不工作,使錯誤:ModuleNotFoundError:沒有模塊命名為“org.apache.hudi”
進口org.apache.hudi.DataSourceReadOptions。_進口org.apache.hudi.DataSourceWriteOptions。_進口org.apache.hudi.config.HoodieWriteConfig._