02-09-202305:25我
我需要讀/查詢表、操作/修改數據並插入新的數據表。
我認為使用:
Cur_Actual =火花。sql (“Select *從表”)
currAct_Rows = Cur_Actual.rdd.collect ()
在currAct_Rows行:
do_somthing(行)
但這並不允許我更改數據,例如:
行。日期= date_add(行。目前為止,1)
然後我不明白我怎麼插入新的數據表。
安迪的建議,我們將不勝感激。
02-09-202305:44我
好的。
基本上你不能遍曆dataframe因為呈現的分布式能力引發無用。
你應該做的是:
上有一些有趣的教程磚網站介紹給火花/磚。
在原帖子查看解決方案
02-09-202305:29我
很難說沒有上下文。我想表基於三角洲是一個蜂巢表或鑲花嗎?
如果是這樣的話,這可以很容易地實現withColumn語句和覆蓋的數據(或者寫一個merge語句,甚至更新為三角洲湖)。
02-09-202305:40我
表是一個δ表。我得到了這個:
Cur_Actual.write.format(δ).mode(“追加”)。保存(“/位置/表”)
但是據我所知,一個不能遍曆DF,因此數據改變了.collect()函數集合。
這些數據需要修改和寫回,但如何?
02-09-2023上午11:06
您可以使用withColumn()的轉換,然後可以追加寫入數據,覆蓋,合並。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。