你好所有的,
如標題所述,這是我的問題:
1。我用databricks-connect為了向磚集群發送工作
2。“本地”環境是一個AWS EC2
3所示。我想讀一個CSV文件,DBFS(磚)
pd.read_csv ()
。原因是它太大了spark.read.csv ()
然後.toPandas ()
(每次崩潰)。
4所示。當我運行
pd.read_csv (“/ dbfs / FileStore / some_file”)
我得到一個FileNotFoundError
因為它指向當地S3 bucket而不是dbfs。有辦法做我想做的事(如改變大熊貓尋找文件有一些選項)?
提前謝謝!
你好,
一些研究之後,我發現大熊貓API隻讀取本地文件。這意味著,即使read_csv命令在磚筆記本的工作環境中,它不會工作在使用databricks-connect(熊貓從筆記本中讀取本地環境)。
周圍工作是使用pyspark spark.read.format (csv) API來讀取遠程文件並添加一個“.toPandas()最後,我們得到一個熊貓dataframe。
df_pandas = spark.read.format (csv) .options(頭= '真的').load(“路徑/ / /遠程/ dbfs /文件係統/ ').toPandas ()
用pd嚐試它。read_excel沒有幫助。