我想讀一個文件從一個穀歌雲存儲桶。文件名開頭一段,所以火花假設文件是隱藏的,不讓我看。
我的代碼類似於:
從pyspark。sql進口SparkSession火花= SparkSession.builder.getOrCreate () df = spark.read.format .load(“文本”)(“gs: / / <桶> /。myfile”, wholetext = True) df.show ()
結果DataFrame是空的(如,它沒有行)。
當我運行這個在我的筆記本電腦,我得到以下錯誤信息:
22/02/15 16:40:58警告數據源:所有路徑都被忽略了:gs: / / <桶> / .myfile
我注意到,這適用於文件從一個下劃線。
我怎樣才能解決這個問題嗎?
有什麼辦法可以解決呢?
嗨@Lincoln Bergeson,火花從HDFS使用Hadoop api來讀取數據。Hadoop輸入格式有路徑過濾器過濾文件從“_”和“。”Try setting this property, FileInputFormat.setInputPathFilter in your configuration and then use newAPIHadoopFile to create the RDD.