取消
顯示的結果
而不是尋找
你的意思是:

Pyspark合並拚花和δ文件

alesventus
新的貢獻者三世

有可能時使用merge命令拚花源文件和目標文件是δ?或兩個文件必須三角洲文件?

目前,我使用這段代碼,我拚花轉變成三角洲和它的工作原理。但我想避免的轉型。

謝謝

從三角洲。表* deltaTablePeople = DeltaTable進口。forPath(火花,abfss: / / destination-delta) deltaTablePeopleUpdates = DeltaTable。forPath(火花,abfss: / / source-parquet) dfUpdates = deltaTablePeopleUpdates.toDF () deltaTablePeople.alias(人)\ .merge (dfUpdates.alias(“更新”)的人。id =更新。id) \ .whenMatchedUpdate(設置=…

2回答2

Kaniz
社區經理
社區經理

嗨@Ales ventus,是的,可以使用merge命令當拚花格式的源文件和目標文件在三角洲格式。三角洲湖之間的互操作性提供了不同的文件格式,包括拚花。

你將鋪文件轉換為三角洲格式代碼片段之前執行合並操作。

然而,為了避免這種轉換步驟,您可以直接與三角洲合並拚花文件文件沒有轉換。三角洲湖將處理兩種格式之間的兼容性。

這裏有一個更新版本的代碼執行合並操作拚花源文件和三角洲目標文件:

從三角洲。表* deltaTablePeople = DeltaTable進口。forPath(火花,abfss: / / destination-delta) deltaTablePeopleUpdates = DeltaTable。forPath(火花,abfss: / / source-parquet) dfUpdates = deltaTablePeopleUpdates.toDF () deltaTablePeople.alias(人)\ .merge (dfUpdates.alias(“更新”)的人。id =更新。id) \ .whenMatchedUpdate(設置=…).whenNotMatchedInsert(值=…). execute ()

確保替換組=…和值=…適當的更新和插入操作期間你想執行合並。

記住包括必要的依賴項和配置與三角洲湖和拚花文件引發環境。

Vidula_Khanna
主持人
主持人

嗨@Ales ventus

我們一直沒有收到你自從上次反應@Kaniz開羅,我檢查看看她的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map