解決:多個csv文件加載到一個dataframe -磚- 28428

Shridhar · ‎10-17-2018

我可以通過做一些加載多個csv文件:

路徑= [“file_1”、“file_2”,“file_3”] df = sqlContext。讀.format (com.databricks.spark.csv) .option(“標題”、“true”) .load(路徑)

但這似乎並沒有保存的順序| |路徑。

特別地,我想有一個單調遞增id,跨越所有文件中的數據。

Jaswanth_Saniko · ‎01-12-2022

val鑽石= spark.read.format (csv) .option(“標題”、“true”) .option .load (“inferSchema”、“true”) (“csv / FileStore /表/ 11.”、“12. / FileStore /表/ csv”,“csv / FileStore /表/ 13.”)顯示(鑽石)

這是為我工作@Shridhar

在原帖子查看解決方案

JayaKommuru · ‎11-19-2019

@shridhar你發現另一個實現。我也有同樣的問題。

Jaswanth_Saniko · ‎01-12-2022

val鑽石= spark.read.format (csv) .option(“標題”、“true”) .option .load (“inferSchema”、“true”) (“csv / FileStore /表/ 11.”、“12. / FileStore /表/ csv”,“csv / FileStore /表/ 13.”)顯示(鑽石)

這是為我工作@Shridhar

磚

多個csv文件加載到一個dataframe秩序