取消
顯示的結果
而不是尋找
你的意思是:

磚和地方pyspark分裂的區別。

Merchiv
新的貢獻者三世

我已經注意到一些不一致的行為之間的調用“拆分”功能在磚和在我的本地安裝。

運行在一個磚筆記本了

火花。sql(“選擇分裂(“abc”,”)、大小(分裂(“abc”,“)”),告訴()

image.png字符串分割成3部分。

如果我運行在本地安裝我得到4部分。

在磚上運行的本地我pyspark 3.2.1之上,我已經試過但他們都給多個版本相同的結果。

4回複4

JAHNAVI
新的貢獻者三世
新的貢獻者三世

你好,

火花3.0及以後版本,默認行為的split()函數空分隔符包含空字符串的開頭結果數組,這樣的原因是顯示4。

Merchiv
新的貢獻者三世

你好,

我的磚集群運行火花3.3,但確實給長度為3。圖像有什麼不同之處的磚實現pyspark還是應該使用相同的標準?

匿名
不適用

@Ivo Merchiers:

你看到的行為可能是由於不同的基礎版本的Apache引發本地安裝和磚之間。

split()函數提供的火花的SQL函數和不同版本的火花可能差異這些函數的實現。你提到你在本地使用PySpark版本3.2.1。確認使用哪個版本的火花,你可以PySpark shell中運行以下命令:

導入pyspark打印(pyspark.__version__)

您可以檢查相應的版本的火花和SQL函數文檔

split()函數的行為。在磚,你可以檢查火花正在使用的版本通過運行命令:

spark.version

如果你看到不同的結果之間的分裂()你的本地安裝和磚,你可能需要調整你的代碼來處理不同的行為或在兩種環境中使用相同版本的火花。

Merchiv
新的貢獻者三世

謝謝你的建議,但即使有相同的火花版本似乎有區別的本地發生了什麼,發生了什麼磚集群。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map