取消
顯示的結果
而不是尋找
你的意思是:

刪除非ascii和pyspark特殊字符

RohiniMathur
新的貢獻者二世

我對python 2.7運行引發2.4.4 pycharm IDE。

輸入文件(. csv)包含編碼值等一些列的下麵。

文件數據看起來

COL1、COL2 COL3 COL4

厘米,503004,(dόνυ美元F . h *Λ! |”ψμ=(.ξ;,.ʽ|!3 - 2 - 704

我想要的輸出

厘米,503004,,3-2-704 - - - - -所有的編碼和ascii值刪除。

代碼我嚐試:

從pyspark。sql進口SparkSession火花= SparkSession.builder。瀏覽器名稱(“Python火花”).getOrCreate () df = spark.read.csv (“filepath \ Cubeplay体育app下载地址stomers_v01.csv”,標題= True, 9 = "、");最高產量研究= df.rdd。地圖(λx: [1] .encode () .decode (utf - 8))打印(myres.collect ())

但這隻是給予

503004年,印刷col2值。

請分享你的建議,有可能解決這個問題在pyspark。

非常感謝

4回複4

shyam_9
價值貢獻
價值貢獻

嗨@Rohini Mathur,使用以下代碼列包含非ascii和特殊字符。

df的column_name .str。編碼(“ascii”、“忽略”).str.decode (ascii)

RohiniMathur
新的貢獻者二世

@Shyamprasad Miryala:謝謝…我們可以定義多個列的列名稱與逗號','

RohiniMathur
新的貢獻者二世

@Shyamprasad Miryala:我喜歡這個最高產量研究= df的COLC .str。編碼(“ascii”、“忽略”).str.decode (ascii)but getting error like pyspark.sql.utils.AnalysisException: u'Cannot resolve column name "" among (colA, (colB, (colC);'. please help

這是由於不正確的CSV文件的結構。刪除空白從CSV文件。也許一些列名稱包含空格前的名稱本身。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map