我對python 2.7運行引發2.4.4 pycharm IDE。
輸入文件(. csv)包含編碼值等一些列的下麵。
文件數據看起來
COL1、COL2 COL3 COL4
厘米,503004,(dόνυ美元F . h *Λ! |”ψμ=(.ξ;,.ʽ|!3 - 2 - 704
我想要的輸出
厘米,503004,,3-2-704 - - - - -所有的編碼和ascii值刪除。
代碼我嚐試:
從pyspark。sql進口SparkSession火花= SparkSession.builder。瀏覽器名稱(“Python火花”).getOrCreate () df = spark.read.csv (“filepath \ Cubeplay体育app下载地址stomers_v01.csv”,標題= True, 9 = "、");最高產量研究= df.rdd。地圖(λx: [1] .encode () .decode (utf - 8))打印(myres.collect ())
但這隻是給予
503004年,印刷col2值。
請分享你的建議,有可能解決這個問題在pyspark。
非常感謝
@Shyamprasad Miryala:謝謝…我們可以定義多個列的列名稱與逗號','
@Shyamprasad Miryala:我喜歡這個最高產量研究= df的COLC .str。編碼(“ascii”、“忽略”).str.decode (ascii)but getting error like pyspark.sql.utils.AnalysisException: u'Cannot resolve column name "" among (colA, (colB, (colC);'. please help