你好,
我們隻是開始看磚的特性存儲功能。我們第一次嚐試創建一個功能表導致非常緩慢的寫。為了避免所發生的時間特性的功能我生成dataframe相同鍵的,但從蘭德()生成的特征值。這是< 700 k行和列~ 280特性。它似乎不在乎我們是否使用合並模式或覆蓋,這是非常緩慢的獨立的4核心集群上(8.5分鍾)。我從Sparq連接SQL細節UI。是在3.5秒掃描文件匹配和近8.5分鍾重寫匹配的文件。雖然它似乎1.5 gb的輸出,似乎相當長時間重新更改。我試過和沒有分區,重新分區。誰能提供一些見解或建議改善的性能特性/δ表寫?
問候,
阿什利
如何創建表:
fs.create_table (
name = ' dsci_features.ab_test ',
primary_keys = (“customer_id”、“obs_date”),
#如果df,這個數據將被保存在一個三角洲表
# df = feature_df,
#如果提供模式,沒有數據將被保存
模式= base_df.schema,
# partition_columns = [' cal_quarter '),
描述= ' AB測試”
)
主鍵:
fs.write_table (
name = ' dsci_features.ab_test ',
df = base_df,
模式=“合並”
)
特性寫:
fs.write_table (
name = ' dsci_features.ab_test ',
df = base_df,
模式=“合並”
)