取消
顯示的結果
而不是尋找
你的意思是:

寫數據幀火花ADLS在巨大的文本數據在數據幀。

Santosh09
新的貢獻者二世

火花和文本數據模式在數據幀結構類型火花是花太多時間寫/保存/推動ADLS或SQL數據庫數據或下載csv。

image.png

1接受解決方案

接受的解決方案

匿名
不適用

仍然很難找出什麼是錯的,但我猜想的爆炸是創建一個巨大的dataframe不能配合到內存中。這很大程度上取決於你有多少行,結構體的大小。如果你有100行,結構長度/尺寸100,那麼你得到100 x100行。

在原帖子查看解決方案

5回複5

Kaniz
社區經理
社區經理

嗨@shiva桑托什!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

Hubert_Dudek1
尊敬的貢獻者三世

你能分享你的代碼嗎?提供更多細節和detaset大小一樣,集群配置。我還不理解“文本數據”似乎更複雜的數據類型。

Santosh09
新的貢獻者二世

我用從SparkNLP YakeKeywordExtraction提取關鍵詞,我麵臨一個問題在保存結果(數據幀火花)從Azure磚ADLS gen1三角洲表。數據幀包含字符串的結構模式格式我轉換結構模式正常格式由爆炸和提取需要的數據。當我試著保存這個數據幀的目標數據源ADLS / DB / toPandas / CSV。馬克斯的行沒有出現在數據幀將20 7列。這個筆記本的計算時間是10分鍾。但當最後Df是準備提取的數據保存正在接近55小時。我試圖遏製這一次通過實現上市的所有類型的優化技術在各種論壇/社區使用execution.arrow像。pyspark,抽樣等毫無效果。

代碼爆炸結果:

成績=結果\ .selectExpr(“爆炸(arrays_zip(關鍵詞。因此,keywords.metadata) resultTuples”) \ .selectExpr (“resultTuples(“0”)作為關鍵字”,“resultTuples [1]。得分是得分”)

代碼編寫ADLS:

scores.write.format(“δ”).save(“路徑/ / adls /文件夾/結果”)

匿名
不適用

仍然很難找出什麼是錯的,但我猜想的爆炸是創建一個巨大的dataframe不能配合到內存中。這很大程度上取決於你有多少行,結構體的大小。如果你有100行,結構長度/尺寸100,那麼你得到100 x100行。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map