常見問題(FAQ)
三角洲湖是什麼?
三角洲湖是一個開源存儲層這帶來了可靠性數據的湖泊。三角洲湖提供ACID事務,可擴展的元數據處理,結合流媒體和批量數據處理。湖三角洲湖上運行你的現有數據,與Apache火花api完全兼容。
三角洲湖磚允許您配置的三角洲湖上基於工作負載模式並提供優化布局和索引用於快速交互式查詢。
為什麼我刪除三角洲湖數據仍然存儲在S3中嗎?
如果您使用的是三角洲湖,你使桶版本S3 bucket,你有兩個實體管理表文件:三角洲湖和AWS。確保數據是完全刪除,你必須:
清理刪除文件中不再三角洲湖使用事務日誌
真空
。啟用一個S3版本對象的生命周期政策,確保刪除舊版本的文件被清除。
為什麼一個表顯示舊的數據在我刪除三角洲湖文件rm射頻
並創建一個新表在相同的位置嗎?
刪除在S3隻是最終一致。因此表刪除舊版本的事務日誌後可能仍然是可見的。為了避免這種情況,不重用一個表路徑後刪除它。相反,我們建議您使用事務機製刪除從
,覆蓋
,overwriteSchema
刪除和更新表。看到最佳實踐來取代一個表。
三角洲湖是否支持寫入或讀取使用火花流DStream API ?
δ不支持DStream API。我們建議表流讀取和寫入。
當我使用三角洲湖,我能我的代碼移植到其他容易引發平台嗎?Beplay体育安卓版本
是的。使用三角洲湖時,您使用的是打開Apache火花api,以便你可以方便的代碼移植到其他平台火花。Beplay体育安卓版本港口代碼替換δ
格式與拚花
格式。
δ表與蜂巢SerDe表怎麼樣?
三角洲表更大程度。特別是,有幾個蜂巢SerDe參數三角洲湖管理代表你,你不應該手動指定:
ROWFORMAT
SERDE
OUTPUTFORMAT
和INPUTFORMAT
壓縮
存儲作為
三角洲湖什麼DDL和DML功能不支持?
不支持DDL特點:
分析表分區
改變表(添加|刪除)分區
改變表恢複分區
改變表集SERDEPROPERTIES
創建表就像
插入覆蓋目錄
負載數據
不支持的DML特點:
插入成(覆蓋)
與靜態分區表插入覆蓋表
與動態分區表用桶裝
當閱讀從一個表指定一個模式
指定目標分區使用
分區(part_spec)
在截斷表
我怎麼能改變列的類型?
改變列的類型或刪除表需要重寫一列。例如,看到的改變列類型。
這是什麼意思,三角洲湖支持多集群寫嗎?
這意味著三角洲湖並鎖定來確保查詢寫入表同時從多個集群不會腐敗。然而,這並不意味著如果有寫衝突(例如,更新和刪除相同的),他們都將成功。相反,一個自動將失敗和錯誤會告訴你重試操作。
多集群寫的局限性是什麼?
不支持以下特性以這種模式運行時:
SparkR使用磚運行時7.5甚至更低。寫入一個增量表使用SparkR磚運行時的7.6及以上支持多集群寫道。
spark-submit工作使用磚運行時7.2甚至更低。運行一個spark-submit工作使用磚運行時7.3及以上支持多集群寫道。
S3路徑不能訪問的憑證在一個集群中AWS安全令牌服務
你可以禁用多集群通過設置寫道spark.databricks.delta.multiClusterWrites.enabled
來假
。如果他們被禁用,寫入一個表必須源自一個集群。
警告
你不能同時修改相同的差值表不同的工作區。
警告
下列情形不推薦作為酸保證可能會破碎而造成數據損壞或數據丟失問題:
修改相同的差值表不同的同時工作區。
禁用
spark.databricks.delta.multiClusterWrites.enabled
但是修改相同的表從三角洲多個同時集群。
我可以訪問三角洲表以外的磚運行時?
有兩種情況考慮:外部讀取和外部寫道。
外部讀取:三角洲表存儲數據在一個開放的格式編碼(鋪),允許其他工具,理解這種格式讀取數據。如何閱讀三角洲的信息表,請參閱從外部訪問三角洲表數據處理引擎。
外部寫道:三角洲湖維護事務日誌啟用額外的元數據酸事務和快照隔離為讀者。確保事務日誌更新正確執行和適當的驗證,作家實現必須嚴格遵守三角洲事務協議。三角洲湖在磚運行時保證酸保證基於三角洲事務協議。是否non-Spark連接器,寫δ表可以寫與酸擔保取決於連接器實現。信息,請參閱從外部訪問三角洲表數據處理引擎和整合相關的文檔寫保證。