我可以通過做一些加載多個csv文件:
路徑= [“file_1”、“file_2”,“file_3”] df = sqlContext。讀.format (com.databricks.spark.csv) .option(“標題”、“true”) .load(路徑)
但這似乎並沒有保存的順序| |路徑。
特別地,我想有一個單調遞增id,跨越所有文件中的數據。
val鑽石= spark.read.format (csv) .option(“標題”、“true”) .option .load (“inferSchema”、“true”) (“csv / FileStore /表/ 11.”、“12. / FileStore /表/ csv”,“csv / FileStore /表/ 13.”)顯示(鑽石)
這是為我工作@Shridhar