嗨@Landan喬治,
謝謝你及時響應和詳細的答案。
後一點,我不是,是關於與MLflow集成。你有一個具體的例子,在其中存儲用MLflow特性是更容易,比使用三角洲湖表。
一個點,我想,它可能是存儲特性的好處相比正常三角洲湖表,準備階段的轉換特性可以存儲(例如one-hot-encodig變換擬合函數和訓練期間min-max-scaler),所以,一旦我們在生產部署模型,得到一個新的批看不見的原始數據,我們將不需要加載醃擬合函數應用到新的數據,我的假設是錯誤的嗎?
謝謝!
嗨@Landan喬治,
謝謝你分享這個筆記本,也你的洞察力。抱歉不清楚上麵和我的語句。我的意思是,如果我有一個做一些變換預處理管道(如one-hot-encoding或縮放數值)在訓練數據,然後存儲安裝功能為預處理泡菜一旦一套新的原始推理數據分批到達,我們必須應用原始數據轉換函數,所以它被訓練數據的格式。但是我認為真正的FS保存映射transforamtion裏麵,一旦我們得到新的原始數據推斷我們不需要加載那些醃功能和應用它,我們可以直接使用FS變換它們的能力。但我假設這個功能還沒有特征存儲的一部分。對吧?