取消
顯示的結果
而不是尋找
你的意思是:

讀文件從dbfs pd.read_csv使用databricks-connect ()

hamzatazib96
新的貢獻者三世

你好所有的,

如標題所述,這是我的問題:

1。我用databricks-connect為了向磚集群發送工作

2。“本地”環境是一個AWS EC2

3所示。我想讀一個CSV文件,DBFS(磚)

pd.read_csv ()
。原因是它太大了
spark.read.csv ()
然後
.toPandas ()
(每次崩潰)。

4所示。當我運行

pd.read_csv (“/ dbfs / FileStore / some_file”)
我得到一個
FileNotFoundError
因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?

提前謝謝!

28日回複28

嗨@venter2021,你試試這個嗎?

pd.read_csv (“/ dbfs / mnt / path_to_file.csv”)
pd.read_excel (“/ dbfs / mnt / path_to_file.xls”)

Student185
新的貢獻者三世

我試過了,沒用。

Kaniz
社區經理
社區經理

嗨@Yuanyue劉,DBR你用的版本?

Student185
新的貢獻者三世

嗨,開羅,

謝謝你的關心。

我試過了10.1毫升(包括Apache火花3.2.0,Scala 2.12)和9.1 LTS (Scala 2.12,火花3.1.2)。他們都不工作。

然而,當我讀它通過火花。和我曾經顯示(dbutils.fs.ls (dbfs: / FileStore /表/))來測試它,我的文件路徑(dbfs: / FileStore /表/ POS_CASH_balance.csv)存在。所以我不認為這是熊貓的路徑或我的代碼的問題。我個人猜測,免費版不支持閱讀csv /文件從dbfs直接通過熊貓,不是嗎?

下麵是我的代碼的變化,改變工作

pd.read_csv (“dbfs: / FileStore /表/ POS_CASH_balance.csv ') - - > spark.read.csv (“dbfs: / FileStore /表/ POS_CASH_balance.csv)

希望我的經驗能夠幫助別人。

幹杯

martud
新的貢獻者二世

磚community edition 10.4 LTS毫升(Apache火花3.2.1之上,Scala 2.12)也有同樣的問題pd.read_csv。

spark.read語句替換原來的列名(_c0 _c1,…),除非.option(“標題”,真正的“)使用。

以下表單應該工作:

路徑= ' dbfs: / FileStore /表/ POS_CASH_balance.csv '
spark.read.option("header", "true") .csv(path)
spark.read.format("csv") .option("header", "true") .load(file_name)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map