自動加載器常見問題解答
一般詢問磚自動加載程序。
並自動加載程序處理文件再次當文件被附加或覆蓋?
文件處理,除非完全一次cloudFiles.allowOverwrites
啟用。當一個文件被附加到或覆蓋,磚不能保證版本的文件將被處理。你也應該啟用時要特別小心cloudFiles.allowOverwrites
在文件通知模式,自動加載程序可能確定新的文件通過文件通知和目錄清單。由於差異文件通知事件時間和文件修改時間,自動加載程序可能會得到兩個不同的時間戳,因此攝取兩次相同的文件,即使文件隻寫一次。
一般來說,磚建議您使用自動加載程序隻攝取不變的文件,避免設置cloudFiles.allowOverwrites
。如果這個不符合您的需求,請聯係你的磚的代表。
如果我沒有數據文件不斷,但在相等的時間間隔,例如,一天一次,我仍然應該使用這個源和有什麼好處嗎?
在這種情況下,您可以設置一個Trigger.AvailableNow
(磚中可用的運行時10.2及以後)結構化流工作,調度運行後預期的文件到達時間。自動加載程序適用與罕見的或頻繁的更新。即使最終的更新是非常大的,汽車裝載機秤輸入大小。自動加載程序的高效的文件發現技術和模式演化能力使汽車裝載機增量數據攝入推薦的方法。
我需要事先創建事件通知服務嗎?
不。如果你選擇文件通知模式和提供所需的權限,自動加載程序可以創建文件通知為您服務。看到自動加載程序文件通知模式是什麼?
我如何清理事件通知資源由汽車裝載機?
您可以使用雲資源管理器列表和拆除資源。您還可以手動刪除這些資源使用雲提供商的UI或api。
我可以從不同的輸入運行多個流查詢目錄在同一個桶/集裝箱嗎?
是的,隻要他們不是父子目錄;例如,prod-logs /
和prod-logs /使用/
不會工作,因為/使用
是一個孩子的目錄嗎/ prod-logs
。
自動加載程序推斷模式如何?
DataFrame首先被定義時,自動加載程序列表你的源目錄,選擇最近的(通過文件修改時間)50或1000 GB的數據文件,並使用這些數據來推斷模式。
自動加載器也推斷分區列通過檢查源目錄結構和查找包含的文件路徑/ /關鍵=價值
結構。如果源目錄結構不一致,例如:
基地/道路/分區= 1 /日期= 2020-12-31 / file1。json / /不一致,因為日期和分區目錄是不同訂單基地/道路/日期= 2020-12-31 = 2 / file2 /分區。json / /不一致,因為日期目錄丟失= 3 / file3.json基地/道路/分區
自動加載程序推斷分區列是空的。使用cloudFiles.partitionColumns
的顯式解析列目錄結構。
什麼時候自動裝卸機推斷模式嗎?進化後自動每micro-batch嗎?
模式推斷DataFrame時第一次在您的代碼中定義。在每個micro-batch,模式變化動態評估;因此,您不需要擔心性能。流重啟的時候,拿起進化模式的模式位置並開始執行從推理沒有任何開銷。