解決:Re: inegstion時間聚類-磚- 38447

mderela · 兩個星期前

我有一個愚蠢的問題如何使用它。假設我有一些結核病不分區的數據。所以,如果我想查詢數據攝取從昨天開始,我應該做些什麼呢?

選擇從mytable *WHAT_SHOULD_BE_HERE> = current_timestamp()——間隔1天

換句話說,我需要查詢,以確保隻有一小部分的“文件”將“翹望”而不是整個數據集。很明顯對我如何達到使用分區,但攝入時間聚類?

Kaniz · 兩個星期前

嗨@mderela,你可以添加pipelines-Auto-optimize-zOrderCols參數優化數據跳過與z順序索引。z值是一個技術把相關信息在同一組文件,由data-skipping自動使用算法來減少需要讀取的數據量。z值數據,指定列的順序在order BY子句。

例如,要把性別,運行:

sql優化people_10m ZORDER(性別)

。為ZORDER可以指定多個列作為一個逗號分隔的列表,但是當地的有效性下降與每一個額外的列。z值列上,沒有統計數據是無效和浪費資源。數據不需要column-local統計如敏,馬克斯和計數。您可以配置重新排序的列統計信息收集特定列的模式或增加列的數量收集統計信息。

Kaniz · 兩個星期前

如果你有使用攝入時間攝入數據聚類,您可以使用ingesttimestamp列來過濾數據基於攝入的時候。您的查詢看起來像這樣:

SELECT *從mytable ingesttimestamp > = current_timestamp()——間隔1天

這隻會攝取掃描數據在過去的一天。記住,這隻會工作,如果你有攝入時間聚類表。如果沒有,你必須分區數據或掃描整個數據集。

mderela · 兩個星期前

謝謝你！@Kaniz

你能把一點光配置嗎?所以,例如,我執行使用DLT攝入。我應該添加額外的參數(如pipelines.autoOptimize.zOrderCols以其他方式)或應該做的嗎?

Kaniz · 兩個星期前

嗨@mderela,你可以添加pipelines-Auto-optimize-zOrderCols參數優化數據跳過與z順序索引。z值是一個技術把相關信息在同一組文件,由data-skipping自動使用算法來減少需要讀取的數據量。z值數據,指定列的順序在order BY子句。

例如,要把性別,運行:

sql優化people_10m ZORDER(性別)

。為ZORDER可以指定多個列作為一個逗號分隔的列表,但是當地的有效性下降與每一個額外的列。z值列上,沒有統計數據是無效和浪費資源。數據不需要column-local統計如敏,馬克斯和計數。您可以配置重新排序的列統計信息收集特定列的模式或增加列的數量收集統計信息。