API - >雲存儲- >δ是更合適的方法。
自動加載程序幫助不丟失任何數據(跟蹤發現文件檢查點位置使用RocksDB提供隻有一次攝入擔保),使進化模式推理,支持文件元數據你可以很容易地切換到批處理使用.trigger(一旦= True)或.trigger (availableNow = True)。
此外,獲救的數據列確保你永遠不會失去或錯過在ETL數據。獲救的數據列不包含任何數據解析,要麼從給定的模式,因為它不見了,因為有一個類型不匹配,或者因為套管列的記錄或文件不匹配的模式。所以,如果數據添加或改變了在一個源API你將能夠識別這一修改,所以,決定要做什麼:要麼適應流與其他列或集成隻是忽略它。
最後,您將總是保持你的json格式的源文件。這樣你可以根據需要他們處理文檔,導出或分享未來式。
API - >雲存儲- >δ是更合適的方法。
自動加載程序幫助不丟失任何數據(跟蹤發現文件檢查點位置使用RocksDB提供隻有一次攝入擔保),使進化模式推理,支持文件元數據你可以很容易地切換到批處理使用.trigger(一旦= True)或.trigger (availableNow = True)。
此外,獲救的數據列確保你永遠不會失去或錯過在ETL數據。獲救的數據列不包含任何數據解析,要麼從給定的模式,因為它不見了,因為有一個類型不匹配,或者因為套管列的記錄或文件不匹配的模式。所以,如果數據添加或改變了在一個源API你將能夠識別這一修改,所以,決定要做什麼:要麼適應流與其他列或集成隻是忽略它。
最後,您將總是保持你的json格式的源文件。這樣你可以根據需要他們處理文檔,導出或分享未來式。
你好,
答案取決於你的戰略架構和團隊知識。希望以下問題會幫助你選擇正確的解決方案。
架構:
團隊:
沒有特定的代碼片段,您可以保存您所選擇的響應格式(文件支持的格式自動加載程序)。
是明智的——如果你的決定是將DB筆記本和你看不到利潤使用裝載器(例如,分離收集原始數據流從數據處理流允許您運行和規模都獨立),您可以編寫直接差值表,不要ADLS上創建文件。