使用Databricks,您可以從數百個數據源增量和有效地攝取數據到您的Delta Lake,以確保您的數據lakehouse始終包含最完整和最新的數據,可用於數據科學,機器學習和業務分析。
數據攝取,簡化
自動加載程序
使用自動加載器攝取任何文件,可以登陸數據湖到Delta湖。指向雲存儲服務上的目錄,如Amazon S3, Azure數據湖存儲或穀歌計算存儲,自動加載器將增量處理新文件與精確的一次語義。
跟蹤和監控
讓Auto Loader跟蹤哪些文件已被處理,發現延遲到達的數據,推斷您的數據模式,隨著時間的推移監控模式的變化,並挽救數據的數據質量問題。Auto Loader可以在幾秒鍾內連續攝取數據,也可以計劃以您預期的數據到達速率運行-無論是一小時一次,一天一次還是一個月一次。
複製到
SQL命令COPY INTO允許您將批處理文件導入Delta Lake。COPY INTO是一個隻使用一次語義攝取文件的命令,當輸入目錄包含數千個或更少的文件,而用戶更喜歡使用SQL時,最好使用該命令。COPY INTO可以在您方便的時候通過JDBC將數據推入Delta Lake。
高效的數據處理
使用Databricks,您可以從流行的消息隊列中提取數據,例如Apache卡夫卡, Azure事件集線器或AWS Kinesis以較低的延遲。通過將這些源的數據輸入Delta Lake,您不必擔心由於保留策略而丟失這些服務中的數據。隨著業務需求的發展,您可以更便宜、更有效地重新處理數據,並且可以對數據保持更長的曆史視圖,從而為機器學習和業務分析應用程序提供動力。
統一來自其他企業應用程序的數據
利用Azure data Factory、Fivetran、Qlik、Infoworks、StreamSets和Syncsort等合作夥伴的龐大數據攝取網絡,從易於使用的連接器庫中輕鬆地將來自應用程序、數據存儲、大型機、文件等的數據攝取到Delta Lake中。利用合作夥伴的生態係統,充分發揮結合大數據和雲應用程序、數據庫、大型機和文件係統的數據的潛力。
從Delta Lake的應用程序數據庫中獲取變更數據
您的業務依賴於應用程序數據庫。在數據分析用例中直接使用它們可能會由於數據庫負載過大而導致業務應用程序中斷。通過將這些數據集複製到您的lakehouse,您可以確保您的業務應用程序在利用分析用例中的有價值信息時可以正常運行。您可以通過利用Azure數據工廠、AWS DMS和Auto Loader等服務或Fivetran等合作夥伴從這些數據存儲中獲取數據。
beplay体育app下载地址
準備開始了嗎?