取消
顯示的結果
而不是尋找
你的意思是:

我怎麼讀一個隱藏文件的內容引發的工作嗎?

Lincoln_Bergeso
新的貢獻者二世

我想讀一個文件從一個穀歌雲存儲桶。文件名開頭一段,所以火花假設文件是隱藏的,不讓我看。

我的代碼類似於:

從pyspark。sql進口SparkSession火花= SparkSession.builder.getOrCreate () df = spark.read.format .load(“文本”)(“gs: / / <桶> /。myfile”, wholetext = True) df.show ()

結果DataFrame是空的(如,它沒有行)。

當我運行這個在我的筆記本電腦,我得到以下錯誤信息:

22/02/15 16:40:58警告數據源:所有路徑都被忽略了:gs: / / <桶> / .myfile

我注意到,這適用於文件從一個下劃線。

我怎樣才能解決這個問題嗎?

1接受解決方案

接受的解決方案

Dan_Z
尊敬的貢獻者

我不認為有一個簡單的方法來做到這一點。你也休息非常基本的功能(如閱讀三角洲表)如果你能避開這些限製。我建議你使用一個重命名工作,然後閱讀。

在原帖子查看解決方案

10個回答10

werners1
尊敬的貢獻者三世

引發使用Hadoop API來讀取輸入文件,忽略了每個文件,開始用下劃線或一段時間。

我沒有找到一個解決方案這是hiddenFileFilter總是活躍。

Lincoln_Bergeso
新的貢獻者二世

有什麼辦法可以解決呢?

嗨@Lincoln Bergeson,火花從HDFS使用Hadoop api來讀取數據。Hadoop輸入格式有路徑過濾器過濾文件從“_”和“。”Try setting this property, FileInputFormat.setInputPathFilter in your configuration and then use newAPIHadoopFile to create the RDD.

匿名
不適用

嗨,@Lincoln Bergeson !我的名字是風笛手,我是一個主持人的磚。謝謝你的問題,歡迎來到社區。我們會給你的同行一個回應的機會,然後我們會回頭如果我們需要。

提前感謝你的耐心。:slightly_smiling_face:

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map