消除非ascii和特殊字符在pyspar…-磚- 27782

RohiniMathur · ‎09-23-2019

我對python 2.7運行引發2.4.4 pycharm IDE。

輸入文件(. csv)包含編碼值等一些列的下麵。

文件數據看起來

COL1、COL2 COL3 COL4

厘米,503004,(dόνυ美元F . h *Λ! |”ψμ=(.ξ;,.ʽ|!3 - 2 - 704

我想要的輸出

厘米,503004,,3-2-704 - - - - -所有的編碼和ascii值刪除。

代碼我嚐試:

從pyspark。sql進口SparkSession火花= SparkSession.builder。瀏覽器名稱(“Python火花”).getOrCreate () df = spark.read.csv (“filepath \ Cubeplay体育app下载地址stomers_v01.csv”,標題= True, 9 = "、");最高產量研究= df.rdd。地圖(λx: [1] .encode () .decode (utf - 8))打印(myres.collect ())

但這隻是給予

503004年,印刷col2值。

請分享你的建議,有可能解決這個問題在pyspark。

非常感謝

shyam_9 · ‎09-23-2019

嗨@Rohini Mathur,使用以下代碼列包含非ascii和特殊字符。

df的column_name .str。編碼(“ascii”、“忽略”).str.decode (ascii)

RohiniMathur · ‎09-23-2019

@Shyamprasad Miryala:謝謝…我們可以定義多個列的列名稱與逗號','

RohiniMathur · ‎09-23-2019

@Shyamprasad Miryala:我喜歡這個最高產量研究= df的COLC .str。編碼(“ascii”、“忽略”).str.decode (ascii)but getting error like pyspark.sql.utils.AnalysisException: u'Cannot resolve column name "" among (colA, (colB, (colC);'. please help

shyam_9 · ‎09-23-2019

這是由於不正確的CSV文件的結構。刪除空白從CSV文件。也許一些列名稱包含空格前的名稱本身。

磚

刪除非ascii和pyspark特殊字符