毫升管道

通常運行時機器學習算法,它包括一係列的任務,包括預處理、特征提取、模型擬合,驗證階段。例如,當分類文本文檔可能涉及文本分割和清潔,提取特征,用交叉驗證和訓練一個分類模型。盡管有許多圖書館為每個階段我們可以使用,連接這些點並不像看起來那麼容易,尤其是在大規模數據集。大多數毫升庫不用於分布式計算或他們不為管道提供本機支持創建和調優。

機器學習的管道

毫升管道是一個高級的API MLlib生活在“火花。毫升”包。管道由一係列的階段。有兩種基本類型的管道階段:變壓器和估計量。一個變壓器的數據集作為輸入,並生成一個增廣數據集作為輸出。比如,一個記號賦予器是一個變壓器,將與文本數據集轉換成一個數據集的標記。估計量必須首先滿足輸入數據集生成一個模型,這是一個變壓器,將輸入數據集。例如,邏輯回歸是一個估計量,列車與標簽和數據集的特性和產生一個邏輯回歸模型。

額外的資源

回到術語表
Baidu
map