常見問題(FAQ)

三角洲湖是什麼?

三角洲湖是一個開源存儲層這帶來了可靠性數據的湖泊。三角洲湖提供ACID事務,可擴展的元數據處理,結合流媒體和批量數據處理。湖三角洲湖上運行你的現有數據,與Apache火花api完全兼容。

三角洲湖磚允許您配置的三角洲湖上基於工作負載模式並提供優化布局和索引用於快速交互式查詢。

三角洲湖用來存儲數據什麼格式?

三角洲湖使用版本化的鑲花文件存儲在雲存儲你的數據。除了版本,三角洲湖還存儲所有提交的事務日誌記錄的表或blob存儲目錄提供ACID事務。

我怎麼能讀和寫數據與三角洲湖嗎?

你可以使用你喜歡的Apache火花與三角洲湖api來讀取和寫入數據。看到讀一個表寫一個表

三角洲湖將數據存儲在哪裏?

在寫入數據時,您可以指定你雲存儲的位置。三角洲湖商店鋪格式的數據的位置。

我可以將我的三角洲湖表複製到另一個位置嗎?

是的你可以複製你的三角洲湖表到另一個位置。記得要複製文件不改變與時間戳以確保時間旅行的時間戳將是一致的。

為什麼我刪除三角洲湖數據仍然存儲在S3中嗎?

如果您使用的是三角洲湖,你使桶版本S3 bucket,你有兩個實體管理表文件:三角洲湖和AWS。確保數據是完全刪除,你必須:

  • 清理刪除文件中不再三角洲湖使用事務日誌真空

  • 啟用一個S3版本對象的生命周期政策,確保刪除舊版本的文件被清除。

為什麼一個表顯示舊的數據在我刪除三角洲湖文件rm射頻並創建一個新表在相同的位置嗎?

刪除在S3隻是最終一致。因此表刪除舊版本的事務日誌後可能仍然是可見的。為了避免這種情況,不重用一個表路徑後刪除它。相反,我們建議您使用事務機製刪除,覆蓋,overwriteSchema刪除和更新表。看到最佳實踐來取代一個表

我能直接流數據和從三角洲表嗎?

是的,你可以直接使用結構化流寫入數據到表和讀取δ表中。看到流數據到三角洲表中從三角洲流數據表

三角洲湖是否支持寫入或讀取使用火花流DStream API ?

δ不支持DStream API。我們建議表流讀取和寫入

當我使用三角洲湖,我能我的代碼移植到其他容易引發平台嗎?Beplay体育安卓版本

是的。使用三角洲湖時,您使用的是打開Apache火花api,以便你可以方便的代碼移植到其他平台火花。Beplay体育安卓版本港口代碼替換δ格式與拚花格式。

δ表與蜂巢SerDe表怎麼樣?

三角洲表更大程度。特別是,有幾個蜂巢SerDe參數三角洲湖管理代表你,你不應該手動指定:

  • ROWFORMAT

  • SERDE

  • OUTPUTFORMATINPUTFORMAT

  • 壓縮

  • 存儲作為

三角洲湖什麼DDL和DML功能不支持?

  • 不支持DDL特點:

    • 分析分區

    • 改變(添加|刪除)分區

    • 改變恢複分區

    • 改變SERDEPROPERTIES

    • 創建就像

    • 插入覆蓋目錄

    • 負載數據

  • 不支持的DML特點:

    • 插入(覆蓋)與靜態分區表

    • 插入覆蓋與動態分區表

    • 用桶裝

    • 當閱讀從一個表指定一個模式

    • 指定目標分區使用分區(part_spec)截斷

三角洲湖支持多表事務嗎?

三角洲湖不支持多表事務和外鍵。在三角洲湖支持事務的水平。

我怎麼能改變列的類型?

改變列的類型或刪除表需要重寫一列。例如,看到的改變列類型

這是什麼意思,三角洲湖支持多集群寫嗎?

這意味著三角洲湖並鎖定來確保查詢寫入表同時從多個集群不會腐敗。然而,這並不意味著如果有寫衝突(例如,更新和刪除相同的),他們都將成功。相反,一個自動將失敗和錯誤會告訴你重試操作。

多集群寫的局限性是什麼?

不支持以下特性以這種模式運行時:

你可以禁用多集群通過設置寫道spark.databricks.delta.multiClusterWrites.enabled。如果他們被禁用,寫入一個表必須源自一個集群。

警告

你不能同時修改相同的差值表不同的工作區。

警告

下列情形不推薦作為酸保證可能會破碎而造成數據損壞數據丟失問題:

  • 修改相同的差值表不同的同時工作區。

  • 禁用spark.databricks.delta.multiClusterWrites.enabled但是修改相同的表從三角洲多個同時集群。

我可以訪問三角洲表以外的磚運行時?

有兩種情況考慮:外部讀取和外部寫道。