自動加載器常見問題解答

一般詢問磚自動加載程序。

並自動加載程序處理文件再次當文件被附加或覆蓋?

文件處理,除非完全一次cloudFiles.allowOverwrites啟用。當一個文件被附加到或覆蓋,磚不能保證版本的文件將被處理。你也應該啟用時要特別小心cloudFiles.allowOverwrites在文件通知模式,自動加載程序可能確定新的文件通過文件通知和目錄清單。由於差異文件通知事件時間和文件修改時間,自動加載程序可能會得到兩個不同的時間戳,因此攝取兩次相同的文件,即使文件隻寫一次。

一般來說,磚建議您使用自動加載程序隻攝取不變的文件,避免設置cloudFiles.allowOverwrites。如果這個不符合您的需求,請聯係你的磚的代表。

如果我沒有數據文件不斷,但在相等的時間間隔,例如,一天一次,我仍然應該使用這個源和有什麼好處嗎?

在這種情況下,您可以設置一個Trigger.AvailableNow(磚中可用的運行時10.2及以後)結構化流工作,調度運行後預期的文件到達時間。自動加載程序適用與罕見的或頻繁的更新。即使最終的更新是非常大的,汽車裝載機秤輸入大小。自動加載程序的高效的文件發現技術和模式演化能力使汽車裝載機增量數據攝入推薦的方法。

如果我改變檢查點位置當重啟流?

一個檢查點位置保持一個流的重要識別信息。有效改變檢查點位置意味著你已經放棄了先前的流,開始一個新的流。

我需要事先創建事件通知服務嗎?

不。如果你選擇文件通知模式和提供所需的權限,自動加載程序可以創建文件通知為您服務。看到自動加載程序文件通知模式是什麼?

我如何清理事件通知資源由汽車裝載機?

您可以使用雲資源管理器列表和拆除資源。您還可以手動刪除這些資源使用雲提供商的UI或api。

我可以從不同的輸入運行多個流查詢目錄在同一個桶/集裝箱嗎?

是的,隻要他們不是父子目錄;例如,prod-logs /和prod-logs /使用/不會工作,因為/使用是一個孩子的目錄嗎/ prod-logs。

我能使用此功能時現有文件通知我的桶或容器嗎?

是的,隻要你輸入目錄不衝突與現有通知前綴(例如,上述父子目錄)。

自動加載程序推斷模式如何?

DataFrame首先被定義時,自動加載程序列表你的源目錄,選擇最近的(通過文件修改時間)50或1000 GB的數據文件,並使用這些數據來推斷模式。

自動加載器也推斷分區列通過檢查源目錄結構和查找包含的文件路徑/ /關鍵=價值結構。如果源目錄結構不一致,例如:

             基地/道路/分區= 1 /日期= 2020-12-31 / file1。json / /不一致,因為日期和分區目錄是不同訂單基地/道路/日期= 2020-12-31 = 2 / file2 /分區。json / /不一致,因為日期目錄丟失= 3 / file3.json基地/道路/分區
            

自動加載程序推斷分區列是空的。使用cloudFiles.partitionColumns的顯式解析列目錄結構。

如何自動加載程序的行為當源文件夾是空的嗎?

如果源目錄是空的,自動加載程序要求您提供一個模式由於沒有數據進行推理。

什麼時候自動裝卸機推斷模式嗎?進化後自動每micro-batch嗎?

模式推斷DataFrame時第一次在您的代碼中定義。在每個micro-batch,模式變化動態評估;因此,您不需要擔心性能。流重啟的時候,拿起進化模式的模式位置並開始執行從推理沒有任何開銷。

的性能影響攝取數據在使用自動加載程序模式推理?

你應該期望模式推理花幾分鍾在初始模式推理非常大的源目錄。你不應該觀察到顯著的性能達到否則流執行期間。如果您運行您的代碼在一個磚筆記本,狀態更新中可以看到,指定當自動加載程序將清單目錄抽樣和推斷你的數據模式。

由於一個錯誤,一個錯誤的文件模式徹底改變了我。我應該做回滾一個模式改變?

接觸磚支持幫助。