我想創建一個代理在三角洲地區的表和我使用id-Generated標識列的默認值
我可以將行插入到三角洲表隻使用火花。sql Insert查詢嗎?或者我也可以使用寫三角洲格式選項?如果我使用df。寫說不匹配的列?誰能幫助如何實現呢?
你好@Menaka Murugesan,
如果您正在使用標識列,我相信你會創建表如下,(開始值1和步驟1)
創建表my_table (INT id身份(1,1)主鍵值的字符串)
你可以插入值標識表中
插入my_table(值)值(“1”)(“價值2》),(“價值3 ')
的id列值將自動生成的標識列的值1、2和3分別。
另外,您還可以使用火花SQL插入數據到三角洲表標識列。這裏是如何做到這一點的一個例子:
火花。sql(“插入my_table(值)值(“1”),(“值2”)(“價值3 ')”)
將數據寫入一個增量表使用df標識列。編寫API PySpark
data =[(“值1”)(“值2”)(“價值3”)]列=(“價值”)df =火花。createDataFrame(數據列)df.write.format(“δ”)。選項(“路徑”,“/路徑/ / my_table”)。選項(“overwriteSchema”,“真正的”)。選項(“idCol”、“id”) .save ()
id列將自動生成。
我認為你是不匹配的列的錯誤,因為你正試圖插入id的值?請進一步澄清錯誤和你插入的值。
希望這個有幫助。