三角洲湖入門
做出有用數據驅動決策的關鍵限製之一是基礎數據存儲的結構,可訪問性和質量。因此,重要的是要為所有最終用戶製定精心計劃的數據訪問策略。
該策略的一個方麵可以是數據存儲格式由三角洲湖。
什麼是三角洲湖?
達美湖是Databricks Lakehouse建築的關鍵組成部分。Delta表格式是大規模企業數據湖泊的廣泛使用標準。建立在另一種開源格式(Parquet)的基礎上,戴爾塔湖(Parquet)增加了高級功能和功能,可實現額外的魯棒性,速度,版本控製和數據軟件式的酸合規性。這是使用現有廉價斑點存儲服務的現有成本優勢。
Databricks對Delta Lake有內置的支持,最新的Databricks Runtimes包括增強性能,以提高速度和性能。
有關三角洲湖及其能力的完整討論,請參見此演講:與三角洲湖變得更好。
使用Delta Lake和Delta Live Tables的數據管道
當您納入您的整體數據策略時,建立在三角洲湖上的數據管道應遵循分層的多跳策略。這是從原始攝入量(青銅水平)到半理程(銀級)再到最受處理的業務就緒的表(金色級別)的連續數據清潔和轉換模式。
您可以在本演講中查看對此方法的更徹底的檢查:簡化和擴展數據工程管道。
Databricks也包括三角洲現場桌,一個有力的框架,用於構建可靠,可維護和可測試的數據處理管道。您定義要執行數據的轉換,並管理Delta Live桌子管理任務編排,群集管理,監視,數據質量和錯誤處理。
Delta Live Tables沒有使用一係列單獨的Apache Spark任務來定義數據管道,而是根據您針對每個處理步驟定義的目標架構來管理數據如何轉換。
有關介紹,請參閱QuickStart:使用Delta Live表創建數據管道