取消
顯示的結果
而不是尋找
你的意思是:

平一個複雜的JSON文件和加載到三角洲表中

BeginnerBob
新的貢獻者三世

你好,

我是JSON文件加載到磚隻需執行以下操作:

從pyspark.sql。功能導入*

從pyspark.sql。導入類型*

bronze_path = " wasbs: / /…/ 140477. json”

df_incremental = spark.read.option(“多行”,“真正的”). json (bronze_path)

顯示器(df_incremental)

我的JSON文件很複雜,顯示:

圖像

我希望能夠這個數據加載到三角洲表。

我的模式是:

審計結構類型自動生成結構{{Refno字符串的json:“Refno”Formid字符串的json:“Formid”AuditName字符串的json:“audit_name”AuditorName字符串的json:“auditor_name”位置字符串的json:“位置”Fulllocation字符串的json:“Fulllocation”發表字符串json:“發表”的日期字符串的json:“日期”兼容的字符串json:“兼容”的存檔字符串的json:“存檔”得分字符串的json:“分數”PossibleScore字符串的json:“possible_score”百分比字符串的json:“百分比”答案[]結構{QuestionNumber字符串的json:“question_number”問題串的json:“問題”地位字符串的json:“地位”Answerid字符串的json:“Answerid”Questionid字符串的json:“Questionid”回答字符串的json:“答案”Ansoptid字符串的json:“Ansoptid omitempty“觀察字符串的json:“觀察”兼容的字符串json:“兼容”的得分字符串的json:“分數”PossibleScore字符串的json:“possible_score”DateResolved字符串的json:“date_resolved”ResolvedByUser字符串的json:“resolved_by_user”DateCompliant字符串的json:“date_compliant”法規遵循[]接口{}的json:“依從”HookName字符串的json:“HookName”DateAuthorised字符串的json:“date_authorised omitempty“AuthorisedByUser字符串的json:“authorised_by_user omitempty“}”json:“答案”}的json:“審計”}

知道如何做到這一點嗎?

4回複4

werners1
尊敬的貢獻者三世

三角洲可以處理嵌套列所以你可以寫三角洲湖。

你試過了嗎?它將可能隻是工作。

如果你隻想舉新傳入的數據,你想合並在一個現有表,有點複雜。您需要定義一個合並的關鍵將決定你會做什麼操作(插入、刪除更新)。

BeginnerBob
新的貢獻者三世

我怎麼寫這一個增量表,看看它的工作原理?

werners1
尊敬的貢獻者三世

所以你已經有了df json數據(推斷模式)。

下一個步驟是:

df。寫\

.format \(“δ”)

.mode \(“覆蓋”)

.save (“< whereveryouwanttostoreyourdata >”)

Vidula
尊敬的貢獻者

嗨@Lloyd維克瑞

做@Werner Stinckens反應回答你的問題?如果是的,你會很高興它標記為最好,其他成員可以找到解決方案更快嗎?

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map