你好,
我有一個預定的日常工作處理數據和寫root_folder等鋪文件在一個特定的文件夾結構/ {CountryCode} / parquetfiles。每一天的工作將為countrycode寫新數據為countrycode文件夾下嗎
我試圖實現這一目標通過使用
dataframe.partitionBy (countryCode) .write.parquet (root_Folder)
這是創建一個文件夾結構
root_folder / countryCode = x / part1-snappy.parquet
root_folder / countryCode = x / part2-snappy.parquet
root_folder / countryCode = y / part1-snappy.parquet
但coutryCode列從鋪中刪除文件。
在我的情況下,拚花要讀取文件是由外部的消費者和他們希望coutryCode列文件。
有一個選項列在文件和文件夾的路徑。
這是官方文檔分區的發現https://spark.apache.org/docs/2.3.1/sql-programming-guide.html partition-discovery