將數據應用程序遷移到Databricks
本文介紹了如何將現有數據應用程序遷移到Databricks。Databricks提供了一種統一的方法,允許您在單個平台上處理來自多個源係統的數據。Beplay体育安卓版本
有關平台功能的概述,請參見Beplay体育安卓版本什麼是Databricks?.
將ETL作業遷移到Databricks
隻需幾個步驟,就可以將用於從本地或雲本地實現提取、轉換和加載數據的Apache Spark作業遷移到Databricks。看到為Databricks調整現有的Apache Spark代碼.
Databricks通過預配置的開源集成、合作夥伴集成和企業產品提供擴展了Spark SQL的功能。如果您的ETL工作負載是用SQL或Hive編寫的,您可以通過最少的重構遷移到Databricks。了解有關Databricks SQL產品的更多信息:
有關從各種源係統遷移到Databricks的具體說明,請參見將ETL管道遷移到Databricks.
將您的企業數據倉庫替換為“湖畔小屋”
當工作負載圍繞存儲在lakehouse中的數據對齊時,Databricks提供了最佳的價值和性能。許多企業數據棧包括數據湖和企業數據倉庫,組織創建複雜的ETL工作流來嚐試保持這些係統和數據同步。湖屋允許您跨通常依賴於單獨數據倉庫的查詢和係統使用存儲在數據湖中的相同數據。更多關於湖邊小屋的信息,請看什麼是Databricks Lakehouse?.有關Databricks上數據倉庫的更多信息,請參見什麼是Databricks上的數據倉庫?.
從企業數據倉庫遷移到數據庫通常涉及降低數據體係結構和工作流的複雜性,但是在完成這項工作時需要記住一些注意事項和最佳實踐。看到將您的數據倉庫遷移到Databricks Lakehouse.
統一你的機器學習、數據科學和分析工作負載
由於lakehouse通過表查詢或文件路徑提供了對基於雲的數據文件的優化訪問,因此您可以在數據的單個副本上進行ML,數據科學和分析。Databricks可以輕鬆地從開源和專有工具中移動工作負載,並維護分析師和數據科學家使用的許多開源庫的更新版本。
Jupyter筆記本中的Pandas工作負載可以使用磚回購.磚提供對大熊貓的原生支持在所有Databricks運行時版本中配置許多流行的ML和深度學習庫Databricks ML運行時.如果您使用Git和Repos中的文件,您可以為本地環境中的數據和自定義庫使用相同的相對路徑。
請注意
默認情況下,Databricks維護.ipynb
擴展的Jupyter筆記本與Databricks Repos同步,但自動轉換Jupyter筆記本到Databricks筆記本時使用UI導入.Databricks筆記本保存一個. py
擴展,因此可以在Git存儲庫中與Jupyter筆記本並行使用。