取消
顯示的結果
而不是尋找
你的意思是:

種架構攝入數據通過http API

聯邦貿易委員會
新的貢獻者二世

我想知道什麼是設計模式攝入數據通過http API請求。模式需要使用種架構。我們需要攝取JSON輸出先雲存儲(不是青銅層),然後使用自動加載程序進一步處理數據?或者,我們攝取數據作為JSON格式的銅層,然後處理進一步嗎?謝謝

1接受解決方案

接受的解決方案

artsheiko
重視貢獻二世
重視貢獻二世

API - >雲存儲- >δ是更合適的方法。

自動加載程序幫助不丟失任何數據(跟蹤發現文件檢查點位置使用RocksDB提供隻有一次攝入擔保),使進化模式推理,支持文件元數據你可以很容易地切換到批處理使用.trigger(一旦= True)或.trigger (availableNow = True)。

此外,獲救的數據列確保你永遠不會失去或錯過在ETL數據。獲救的數據列不包含任何數據解析,要麼從給定的模式,因為它不見了,因為有一個類型不匹配,或者因為套管列的記錄或文件不匹配的模式。所以,如果數據添加或改變了在一個源API你將能夠識別這一修改,所以,決定要做什麼:要麼適應流與其他列或集成隻是忽略它。

最後,您將總是保持你的json格式的源文件。這樣你可以根據需要他們處理文檔,導出或分享未來式。

在原帖子查看解決方案

3回複3

artsheiko
重視貢獻二世
重視貢獻二世

API - >雲存儲- >δ是更合適的方法。

自動加載程序幫助不丟失任何數據(跟蹤發現文件檢查點位置使用RocksDB提供隻有一次攝入擔保),使進化模式推理,支持文件元數據你可以很容易地切換到批處理使用.trigger(一旦= True)或.trigger (availableNow = True)。

此外,獲救的數據列確保你永遠不會失去或錯過在ETL數據。獲救的數據列不包含任何數據解析,要麼從給定的模式,因為它不見了,因為有一個類型不匹配,或者因為套管列的記錄或文件不匹配的模式。所以,如果數據添加或改變了在一個源API你將能夠識別這一修改,所以,決定要做什麼:要麼適應流與其他列或集成隻是忽略它。

最後,您將總是保持你的json格式的源文件。這樣你可以根據需要他們處理文檔,導出或分享未來式。

非常感謝。從你的建議,現在我更清楚我們需要做什麼。一個問題,我們應該利用ADF攝取數據通過Http連接服務著陸數據到數據湖,這是容易的,簡單的實現;或者我們使用筆記本電腦來調用API通過然後使用dataframe另存為JSON,在我看來,從API對JSON的數據保存湖並不直接。有什麼好的最佳實踐實現的示例代碼?謝謝你提前。

你好,

答案取決於你的戰略架構和團隊知識。希望以下問題會幫助你選擇正確的解決方案。

架構:

  • ADF隻能在Azure -你會做什麼如果你決定遷移到另一個雲?
  • API支持批處理模式嗎?請注意,ADF定價模型基於時間的活動執行和運行活動的數量。所以,如果有一天你計劃從API請求1 M的記錄一個接一個,您將需要執行1 M(更多信息,檢查活動azure定價計算器)
  • 可能是Azure函數/ Azure邏輯應用程序/自動化將是最合適的解決方案在你的案子嗎?
  • 是必要的,所有數據僅通過ADF或你打算部署它隻對這個API (ADF單一入口點的數據今天和將來)?
  • 你將如何管理API密匙/令牌,它將Azure密鑰庫(在這種情況下,你的ADF管道將會更複雜的調用API之前,您需要設置另一個從KV網絡活動的關鍵;請仔細閱讀謹慎塊),或者你更喜歡使用磚秘密的範圍嗎?

團隊:

  • 他們喜歡拖放方法+填充配置字段或他們更多技術人員愛git,編碼模式,他們可以重用在簡單的方法嗎?
  • 比方說,有一天,新數據必須來自另一個API,這將是最簡單的和健壯的方法來實現解決方案?

沒有特定的代碼片段,您可以保存您所選擇的響應格式(文件支持的格式自動加載程序)。

是明智的——如果你的決定是將DB筆記本和你看不到利潤使用裝載器(例如,分離收集原始數據流從數據處理流允許您運行和規模都獨立),您可以編寫直接差值表,不要ADLS上創建文件。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map