解決:Re:合並12在磚CSV文件。頁2 -磚- 3551

AleksandraFrolo · ‎06-06-2023

大家好,

我在磚絕對新鮮,所以我需要你的幫助。

細節:

任務:合並12 CSV文件在磚的最佳方式。

位置的文件:我將詳細描述它,因為我可以沒有很好的定位。如果我去的數據- >瀏覽DBFS - >我可以找到文件夾12 csv文件。

我已經嚐試:

首先我必須說我已經到了正確的結果,但我認為這是非常糟糕的方法。

創建火花對象。該對象將有助於從csv文件讀取數據。

火花= SparkSession.builder.getOrCreate ()

保存csv讀入變量。

df_April = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_April_2019.csv”) df_August = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_August_2019.csv”) df_December = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_December_2019.csv”) df_February = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_February_2019.csv”) df_January = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_January_2019.csv”) df_July = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_July_2019.csv”) df_June = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_June_2019.csv”) df_March = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_March_2019.csv”) df_May = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_May_2019.csv”) df_November = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_November_2019.csv”) df_October = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore /(電子郵件保護)/銷售分析/ Sales_October_2019.csv”) df_September = spark.read.format (csv)。選項(“分隔符”,”、“).option .load(“標題”、“true”) (“dbfs: / FileStore / aleksa(電子郵件保護)銷售分析/ Sales_September_2019.csv”)

使用聯盟()方法將數據。數據structrure這個方法應該是一樣的。聯盟()方法返回一個包含所有項目從原來的集合,和所有物品從指定的組/ s。

df_AllMonth = df_April.union (df_August) .union (df_December) .union (df_February) .union (df_January) .union (df_July) .union (df_June) .union (df_March) .union (df_May) .union (df_November) .union (df_October) .union (df_September)

結論:

我想找到一個方法,我可以合並數據不保存到變量。是可能的嗎?也許你可以找到更好的方法怎麼做這個任務嗎?

謝謝你！

AleksandraFrolo · ‎06-07-2023

你好,謝謝你的回答!是的,是真的,我所有的csv文件的模式是相同的,它們都位於一個文件夾。我發了一個解決方案上麵的你的信息。

磚

在磚合並12 CSV文件。