MLlib (RDD-based)

分類

LogisticRegressionModel(重量、攔截、…)

分類模型的訓練使用多項/二元邏輯回歸。

LogisticRegressionWithSGD

訓練一個分類二元邏輯回歸模型使用隨機梯度下降法。

LogisticRegressionWithLBFGS

多項訓練分類模型/二元邏輯回歸使用內存有限撓撓。

SVMModel(重量、攔截)

支持向量機模型(svm)。

SVMWithSGD

訓練支持向量機(SVM)使用隨機梯度下降法。

NaiveBayesModel(標簽,π,θ)

樸素貝葉斯分類器的模型。

NaiveBayes

火車多項樸素貝葉斯模型。

StreamingLogisticRegressionWithSGD([…])

火車或預測流數據的邏輯回歸模型。

聚類

BisectingKMeansModel(java_model)

來源於平分k - means聚類模型方法。

BisectingKMeans

平分的k - means算法在紙上“比較文檔聚類技術”施泰因巴赫通過,Karypis,庫馬爾,修改以適應火花。

KMeansModel(中心)

源自於k - means聚類模型方法。

KMeans

k - means聚類。

GaussianMixtureModel(java_model)

集群模型來自高斯混合模型方法。

GaussianMixture

使用采用算法對高斯混合學習算法。

PowerIterationClusteringModel(java_model)

模型由PowerIterationClustering

PowerIterationClustering

迭代聚類(圖片),一個可伸縮的圖聚類算法。

StreamingKMeans([k decayFactor timeUnit])

提供方法來設置k、decayFactor timeUnit配置傳入dstreams KMeans算法擬合和預測。

StreamingKMeansModel(clusterCenters…)

聚類模型,可以執行在線更新的重心。

喬治。

培養潛在狄利克雷分配(LDA)模型。

LDAModel(java_model)

聚類模型來源於LDA方法。

評價

BinaryClassificationMetrics(scoreAndLabels)

評估者對二進製分類。

RegressionMetrics(predictionAndObservations)

評估者的回歸。

MulticlassMetrics(predictionAndLabels)

評估者對多類分類。

RankingMetrics(predictionAndLabels)

排名算法的評估者。

功能

標準化者([p])

可實現樣品單獨單元Lp規範

StandardScalerModel(java_model)

代表一個StandardScaler模型,可以改變向量。

StandardScaler([withMean withStd])

標準化特性通過刪除單元方差均值和擴展使用列彙總統計的樣本訓練集。

HashingTF([numFeatures])

一係列術語映射到他們的詞頻率使用哈希的訣竅。

IDFModel(java_model)

代表一個IDF模型,可以變換頻率向量。

以色列國防軍([minDocFreq])

逆文檔頻率(IDF)。

Word2Vec()

Word2Vec單詞在文本語料庫的創建矢量表示。

Word2VecModel(java_model)

類Word2Vec模型

ChiSqSelector([numTopFeatures,…)

創建一個ChiSquared功能選擇器。

ChiSqSelectorModel(java_model)

代表一個氣方選擇模型。

ElementwiseProduct(scalingVector)

尺度的每一列向量,與提供的權向量。

頻繁模式挖掘

FPGrowth

一個平行FP-growth算法挖掘頻繁項集。

FPGrowthModel(java_model)

FP-Growth模型使用並行FP-Growth挖掘頻繁項集的算法。

PrefixSpan

一個平行PrefixSpan算法挖掘頻繁序列模式。

PrefixSpanModel(java_model)

模型擬合的PrefixSpan

向量和矩陣

向量

DenseVector(ar)

密集的向量代表一個值數組。

SparseVector(大小、* args)

一個簡單的稀疏向量類MLlib傳遞數據。

向量

工廠方法來處理向量。

矩陣(numRows numCols [, isTransposed])

DenseMatrix(numCols numRows值[…])

列為主的密度矩陣。

SparseMatrix(numCols numRows colPtrs…)

稀疏矩陣存儲在CSC格式。

矩陣

QRDecomposition(Q, R)

代表QR因素。

分布式表示

BlockMatrix(塊,rowsPerBlock colsPerBlock)

代表了一種分布式矩陣在本地塊矩陣。

CoordinateMatrix(條目[,numRows, numCols])

代表一個矩陣坐標格式。

DistributedMatrix

代表了一種分布式存儲矩陣由一個或多個抽樣。

IndexedRow(索引向量)

IndexedRowMatrix代表一行。

IndexedRowMatrix(行[、numRows numCols])

代表一個row-oriented分布式索引行的矩陣。

MatrixEntry(i, j值)

CoordinateMatrix代表一個條目。

RowMatrix(行[、numRows numCols])

代表一個row-oriented分布式矩陣沒有有意義的行索引。

SingularValueDecomposition(java_model)

代表了奇異值分解)因素。

隨機

RandomRDDs

生成器創建我組成的抽樣方法。d一些樣本分布。

建議

MatrixFactorizationModel(java_model)

一個矩陣factorisation正規化交替最小二乘模型訓練。

肌萎縮性側索硬化症

交替最小二乘矩陣分解

評級

代表一個元組(用戶、產品、評級)。

回歸

LabeledPoint(標簽、功能)

類代表一個數據點的特性和標簽。

LinearModel(重量、攔截)

一個線性模型係數向量和一個攔截。

LinearRegressionModel(重量、攔截)

從最小二乘線性回歸模型派生。

LinearRegressionWithSGD

火車沒有正規化的線性回歸模型使用隨機梯度下降法。

RidgeRegressionModel(重量、攔截)

從最小二乘線性回歸模型推導出符合一個l2懲罰項。

RidgeRegressionWithSGD

火車L2-regularization使用隨機梯度下降法的回歸模型。

LassoModel(重量、攔截)

從最小二乘線性回歸模型推導出符合一個l1懲罰項。

LassoWithSGD

火車L1-regularization使用隨機梯度下降法的回歸模型。

IsotonicRegressionModel(邊界,…)

回歸模型的等張回歸。

IsotonicRegression

等張回歸。

StreamingLinearAlgorithm(模型)

基類必須繼承了任何StreamingLinearAlgorithm。

StreamingLinearRegressionWithSGD([stepSize,…)

火車或預測流數據的線性回歸模型。

統計數據

統計數據

MultivariateStatisticalSummary(java_model)

特征的多元統計彙總數據矩陣。

ChiSqTestResult(java_model)

包含卡方測試結果假設檢驗。

MultivariateGaussian

代表一個元組(μ、σ)

KernelDensity()

估計概率密度在需要點給定樣本人口的抽樣。

ChiSqTestResult(java_model)

包含卡方測試結果假設檢驗。

KolmogorovSmirnovTestResult(java_model)

包含Kolmogorov-Smirnov測試的測試結果。

DecisionTreeModel(java_model)

決策樹分類模型或回歸。

DecisionTree

學習算法分類決策樹模型或回歸。

RandomForestModel(java_model)

代表一個隨機森林模型。

RandomForest

學習算法的隨機森林模型分類或回歸。

GradientBoostedTreesModel(java_model)

代表一個gradient-boosted樹模型。

GradientBoostedTrees

為一個梯度學習算法提高了分類和回歸樹模型。

公用事業公司

JavaLoader

Mixin的類可以使用Scala實現加載保存模型。

JavaSaveable

混合模型,提供保存()通過Scala實現。

LinearDataGenerator

跑龍套生成線性數據。

加載程序

Mixin類可以從文件加載保存模型。

MLUtils

助手方法來加載、保存和預處理數據用於MLlib。

Saveable

混合模型和變形金剛可以保存為文件。