解決:如何閱讀一個隱藏文件的內容在一個年代……-磚- 28026

Lincoln_Bergeso · ‎02-15-2022

我想讀一個文件從一個穀歌雲存儲桶。文件名開頭一段,所以火花假設文件是隱藏的,不讓我看。

我的代碼類似於:

從pyspark。sql進口SparkSession火花= SparkSession.builder.getOrCreate () df = spark.read.format .load(“文本”)(“gs: / / <桶> /。myfile”, wholetext = True) df.show ()

結果DataFrame是空的(如,它沒有行)。

當我運行這個在我的筆記本電腦,我得到以下錯誤信息:

22/02/15 16:40:58警告數據源:所有路徑都被忽略了:gs: / / <桶> / .myfile

我注意到,這適用於文件從一個下劃線。

我怎樣才能解決這個問題嗎?

Dan_Z · ‎05-04-2022

我不認為有一個簡單的方法來做到這一點。你也休息非常基本的功能(如閱讀三角洲表)如果你能避開這些限製。我建議你使用一個重命名工作,然後閱讀。

在原帖子查看解決方案

werners1 · ‎02-16-2022

引發使用Hadoop API來讀取輸入文件,忽略了每個文件,開始用下劃線或一段時間。

我沒有找到一個解決方案這是hiddenFileFilter總是活躍。

Lincoln_Bergeso · ‎02-16-2022

有什麼辦法可以解決呢?

Kaniz · ‎02-22-2022

嗨@Lincoln Bergeson,火花從HDFS使用Hadoop api來讀取數據。Hadoop輸入格式有路徑過濾器過濾文件從“_”和“。”Try setting this property, FileInputFormat.setInputPathFilter in your configuration and then use newAPIHadoopFile to create the RDD.

匿名 · ‎02-16-2022

嗨,@Lincoln Bergeson !我的名字是風笛手,我是一個主持人的磚。謝謝你的問題,歡迎來到社區。我們會給你的同行一個回應的機會,然後我們會回頭如果我們需要。

提前感謝你的耐心。

磚

我怎麼讀一個隱藏文件的內容引發的工作嗎?