自動加載程序目錄清單模式是什麼?
自動加載器使用默認目錄清單模式。在目錄清單模式下,自動加載程序識別新文件清單輸入目錄。目錄清單模式允許您快速啟動自動加載程序流沒有任何權限配置除了訪問雲存儲你的數據。
最佳性能的目錄清單模式下,使用磚運行時的9.1或以上。本文描述了默認的目錄清單的功能模式以及優化的基礎上詞彙的順序文件。
目錄清單模式是如何工作的呢?
磚已優化的目錄清單模式自動加載程序發現文件雲存儲更有效地比其他Apache火花選項。
例如,如果你有文件上傳每5分鍾/一些/道路/ / MM / DD / YYYY HH /文件名
找到這些目錄中的所有文件,Apache火花源文件並行列出所有子目錄。下麵的算法估計總數的API列表
目錄調用對象存儲:
1(基本目錄)+ 365(每天)* 24(每小時)= 8761個電話
通過從存儲接收一個扁平的響應,自動加載程序減少了API調用的數量文件存儲的數量除以每個API調用返回的結果的數量,大大降低您的雲成本。下麵的表顯示了每個API調用返回的文件數量為共同的對象存儲:
每個電話返回結果 |
對象存儲 |
---|---|
1000年 |
S3 |
5000年 |
ADLS代 |
1024年 |
GCS |
增量清單
請注意
可以在磚運行時9.1 LTS及以上。
增量清單可供Azure數據存儲Gen2湖(abfss: / /
),S3 (s3: / /
)和GCS (g: / /
)。
字母順序生成的文件,自動加載器利用詞法文件排序清單api來提高效率和優化最近攝入的目錄清單,清單文件清單的內容,而不是整個目錄。
默認情況下,自動加載程序自動檢測是否有一個特定的目錄清單通過檢查和比較適用於增量文件路徑的目錄列表之前完成。為了確保最終的數據的完整性汽車
模式時,自動加載程序完成後自動觸發一個完整的目錄列表7連續增量列表。你可以控製的頻率通過設置完整的目錄列表cloudFiles.backfillInterval
在一個給定的時間間隔觸發異步回填。
您可以顯式地啟用或禁用清單通過設置增量cloudFiles.useIncrementalListing
來“真正的”
或“假”
(默認“汽車”
)。顯式地啟用時,自動加載程序不觸發完整的目錄列表,除非回填間隔設置。AWS服務動作消防帶,AWS DMS和Azure數據工廠服務,可以配置上傳文件到存儲係統中詞法順序。
詞彙的順序文件
詞法命令文件,上傳新文件需要按大於現有文件的前綴。詞彙的一些示例命令目錄如下所示。
版本文件
三角洲湖使提交事務日誌詞法順序表。
< path-to-table > / _delta_log / 00000000000000000000。json < path-to-table > / _delta_log / 00000000000000000001。json < -保證之後寫的版本0 < path-to-table > / _delta_log / 00000000000000000002。json < -保證之後寫的版本1…
AWS DMSAWS S3上傳疾控中心文件版本化的方式。
database_schema_name / table_name / LOAD00000001。csv database_schema_name / table_name / LOAD00000002。csv……
分區文件日期
文件可以上傳日期分區格式,利用增量清單。這樣的例子有:
/ / <基本路徑> / / MM / dd / yyyy HH: MM: ss-randomString <基本路徑> / 2021/12/01/10:11:23-b1662ecd-e05e-4bb7-a125-ad81f6e859b4。json <基本路徑> / 2021/12/01/10:11:23-b9794cf3-3f60-4b8d-ae11-8ea320fad9d1。json……/ / <基本路徑> /年= yyyy /月= MM /天= = HH /分鍾= MM / dd /小時randomString <基本路徑> /年= 2021 /月= 12 /天= 04 /小時= 08 /分鍾= 22/442463e5 f6fe - 458 - 8 - f69 a06aa970fc69。csv <基本路徑> /年= 2021 /月= 12 /天= 04 /小時= 08 /分鍾= 22/8f00988b - 46 - 4112 - 808 - d - 6 a35aead0d44。csv < -這可能是之前上傳的文件上麵隻要處理經常少於一分鍾
在文件上傳日期分區時,有些事情要記住的是:
月、日、小時、分鍾需要與零墊,確保詞彙排序(應該上傳
小時= 03
,而不是小時= 3
或2021/05/03
而不是2021/5/3
)。文件沒有必要在詞法順序最深的上傳目錄,隻要處理的發生頻率比父目錄的時間粒度。
一些服務,可以上傳文件日期分區詞法順序是: