MLUtils

pyspark.mllib.util。 MLUtils

助手方法來加載、保存和預處理數據用於MLlib。

方法

appendBias(數據)

返回一個新的向量1.0(偏見)附加的輸入向量。

convertMatrixColumnsFromML(數據集,*峽路)

在一個輸入DataFrame轉換矩陣的列pyspark.mllib.linalg.Matrix類型的新pyspark.ml.linalg.Matrix類型下spark.ml包中。

convertMatrixColumnsToML(數據集,*峽路)

在輸入DataFrame轉換矩陣列pyspark.mllib.linalg.Matrix新類型pyspark.ml.linalg.Matrix類型下spark.ml包中。

convertVectorColumnsFromML(數據集,*峽路)

在一個輸入DataFrame轉換向量列pyspark.mllib.linalg.Vector類型的新pyspark.ml.linalg.Vector類型下spark.ml包中。

convertVectorColumnsToML(數據集,*峽路)

在輸入DataFrame轉換向量列pyspark.mllib.linalg.Vector新類型pyspark.ml.linalg.Vector類型下spark.ml包中。

loadLabeledPoints(sc、路徑[minPartitions])

使用RDD.saveAsTextFile加載標記點保存。

loadLibSVMFile(sc路徑(numFeatures,…))

LIBSVM格式標記數據裝入LabeledPoint的抽樣。

loadVectors(sc路徑)

負載向量保存使用抽樣(向量).saveAsTextFile使用默認的分區。

saveAsLibSVMFile(數據、dir)

以LIBSVM保存標記數據格式。

方法的文檔

靜態 appendBias ( 數據:pyspark.mllib.linalg.Vector )pyspark.mllib.linalg.Vector

返回一個新的向量1.0(偏見)附加的輸入向量。

靜態 convertMatrixColumnsFromML ( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame

在一個輸入DataFrame轉換矩陣的列pyspark.mllib.linalg.Matrix類型的新pyspark.ml.linalg.Matrix類型下spark.ml包中。

參數
數據集 pyspark.sql.DataFrame

輸入數據集

*關口 str

要轉換矩陣列。

老矩陣列將被忽略。如果未指定,所有新矩陣列將轉換除了嵌套的。

返回
pyspark.sql.DataFrame

輸入數據集的新矩陣列轉換為舊的矩陣類型

例子

> > >進口pyspark> > >pyspark.ml.linalg進口矩陣> > >pyspark.mllib.util進口MLUtils> > >df=火花createDataFrame(((0,矩陣稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),矩陣密集的(2,2,範圍(4))))(“id”,“x”,“y”])> > >r1=MLUtilsconvertMatrixColumnsFromML(df)第一個()> > >isinstance(r1x,pysparkmlliblinalgSparseMatrix)真正的> > >isinstance(r1y,pysparkmlliblinalgDenseMatrix)真正的> > >r2=MLUtilsconvertMatrixColumnsFromML(df,“x”)第一個()> > >isinstance(r2x,pysparkmlliblinalgSparseMatrix)真正的> > >isinstance(r2y,pyspark毫升linalgDenseMatrix)真正的
靜態 convertMatrixColumnsToML ( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame

在輸入DataFrame轉換矩陣列pyspark.mllib.linalg.Matrix新類型pyspark.ml.linalg.Matrix類型下spark.ml包中。

參數
數據集 pyspark.sql.DataFrame

輸入數據集

*關口 str

要轉換矩陣列。

新矩陣列將被忽略。如果未指定的,所有舊將轉換矩陣列除外嵌套的。

返回
pyspark.sql.DataFrame

輸入數據集用舊矩陣列轉換為新的矩陣類型

例子

> > >進口pyspark> > >pyspark.mllib.linalg進口矩陣> > >pyspark.mllib.util進口MLUtils> > >df=火花createDataFrame(((0,矩陣稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),矩陣密集的(2,2,範圍(4))))(“id”,“x”,“y”])> > >r1=MLUtilsconvertMatrixColumnsToML(df)第一個()> > >isinstance(r1x,pyspark毫升linalgSparseMatrix)真正的> > >isinstance(r1y,pyspark毫升linalgDenseMatrix)真正的> > >r2=MLUtilsconvertMatrixColumnsToML(df,“x”)第一個()> > >isinstance(r2x,pyspark毫升linalgSparseMatrix)真正的> > >isinstance(r2y,pysparkmlliblinalgDenseMatrix)真正的
靜態 convertVectorColumnsFromML ( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame

在一個輸入DataFrame轉換向量列pyspark.mllib.linalg.Vector類型的新pyspark.ml.linalg.Vector類型下spark.ml包中。

參數
數據集 pyspark.sql.DataFrame

輸入數據集

*關口 str

列向量轉換。

老向量列將被忽略。如果未指定,所有新的向量列將轉換除了嵌套的。

返回
pyspark.sql.DataFrame

輸入數據集與新的矢量列轉換為舊的類型

例子

> > >進口pyspark> > >pyspark.ml.linalg進口向量> > >pyspark.mllib.util進口MLUtils> > >df=火花createDataFrame(((0,向量稀疏的(2,(1),(1.0]),向量密集的(2.0,3.0))),(“id”,“x”,“y”])> > >r1=MLUtilsconvertVectorColumnsFromML(df)第一個()> > >isinstance(r1x,pysparkmlliblinalgSparseVector)真正的> > >isinstance(r1y,pysparkmlliblinalgDenseVector)真正的> > >r2=MLUtilsconvertVectorColumnsFromML(df,“x”)第一個()> > >isinstance(r2x,pysparkmlliblinalgSparseVector)真正的> > >isinstance(r2y,pyspark毫升linalgDenseVector)真正的
靜態 convertVectorColumnsToML ( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame

在輸入DataFrame轉換向量列pyspark.mllib.linalg.Vector新類型pyspark.ml.linalg.Vector類型下spark.ml包中。

參數
數據集 pyspark.sql.DataFrame

輸入數據集

*關口 str

列向量轉換。

新的向量列將被忽略。如果未指定,所有舊的向量列將轉換除外嵌套的。

返回
pyspark.sql.DataFrame

輸入數據集用舊列向量轉換為新的向量類型

例子

> > >進口pyspark> > >pyspark.mllib.linalg進口向量> > >pyspark.mllib.util進口MLUtils> > >df=火花createDataFrame(((0,向量稀疏的(2,(1),(1.0]),向量密集的(2.0,3.0))),(“id”,“x”,“y”])> > >r1=MLUtilsconvertVectorColumnsToML(df)第一個()> > >isinstance(r1x,pyspark毫升linalgSparseVector)真正的> > >isinstance(r1y,pyspark毫升linalgDenseVector)真正的> > >r2=MLUtilsconvertVectorColumnsToML(df,“x”)第一個()> > >isinstance(r2x,pyspark毫升linalgSparseVector)真正的> > >isinstance(r2y,pysparkmlliblinalgDenseVector)真正的
靜態 loadLabeledPoints ( sc:pyspark.context.SparkContext,路徑:str,minPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(LabeledPoint]

使用RDD.saveAsTextFile加載標記點保存。

參數
sc pyspark.SparkContext

火花上下文

路徑 str

文件係統文件或目錄路徑在任何Hadoop-supported URI

minPartitions int,可選

最小數量的分區

返回
pyspark.RDD

帶安全標簽的數據存儲為一個LabeledPoint抽樣

例子

> > >tempfile進口NamedTemporaryFile> > >pyspark.mllib.util進口MLUtils> > >pyspark.mllib.regression進口LabeledPoint> > >例子=(LabeledPoint(1.1,向量稀疏的(3,((0,- - - - - -1.23),(2,4.56 e -)))),LabeledPoint(0.0,向量密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile關閉()> > >sc並行化(例子,1)saveAsTextFile(tempFile的名字)> > >MLUtilsloadLabeledPoints(sc,tempFile的名字)收集()[LabeledPoint (1.1 (3 (0, 2) [-1.23, 4.56 e-07])), LabeledPoint (0.0 [1.01, 2.02, 3.03]))
靜態 loadLibSVMFile ( sc:pyspark.context.SparkContext,路徑:str,numFeatures:int=- 1,minPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(LabeledPoint]

LIBSVM格式標記數據裝入LabeledPoint的抽樣。LIBSVM格式LIBSVM和LIBLINEAR所使用的是一種基於文本的格式。每一行代表一個標記稀疏特征向量使用以下格式:

標簽index1: value1 index2: value2…

指數在哪裏集中和以升序排序。該方法解析每一行成一個LabeledPoint,特性指標轉換為從零開始的。

參數
sc pyspark.SparkContext

火花上下文

路徑 str

文件係統文件或目錄路徑在任何Hadoop-supported URI

numFeatures int,可選

的特性,將決定如果一個負的值從輸入數據。這是有用的數據集時已經分裂成多個文件,你想單獨加載它們,因為一些特性在某些文件可能不存在,從而導致不一致的特征維度。

minPartitions int,可選

最小數量的分區

返回
pyspark.RDD

帶安全標簽的數據存儲為一個LabeledPoint抽樣

例子

> > >tempfile進口NamedTemporaryFile> > >pyspark.mllib.util進口MLUtils> > >pyspark.mllib.regression進口LabeledPoint> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >_=tempFile(b“+ 1 1:1.0 3:2.0 5:3.0\ n1\ n1 2:4.0 4:5.0 6:6.0”)> > >tempFile衝洗()> > >例子=MLUtilsloadLibSVMFile(sc,tempFile的名字)收集()> > >tempFile關閉()> > >例子(0]LabeledPoint (1.0 (6 (0、2、4) (1.0, 2.0, 3.0)))> > >例子(1]LabeledPoint (-1.0, (6 [] []))> > >例子(2]LabeledPoint (-1.0 (6 (1、3、5) (4.0, 5.0, 6.0)))
靜態 loadVectors ( sc:pyspark.context.SparkContext,路徑:str )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

負載向量保存使用抽樣(向量).saveAsTextFile使用默認的分區。

靜態 saveAsLibSVMFile ( 數據:pyspark.rdd.RDD(LabeledPoint],dir:str )→沒有

以LIBSVM保存標記數據格式。

參數
數據 pyspark.RDD

一個抽樣LabeledPoint得救

dir str

目錄來保存數據

例子

> > >tempfile進口NamedTemporaryFile> > >fileinput進口輸入> > >pyspark.mllib.regression進口LabeledPoint> > >一團進口一團> > >pyspark.mllib.util進口MLUtils> > >例子=(LabeledPoint(1.1,向量稀疏的(3,((0,1.23),(2,4.56)))),LabeledPoint(0.0,向量密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile關閉()> > >MLUtilssaveAsLibSVMFile(sc並行化(例子),tempFile的名字)> > >加入(排序(輸入(一團(tempFile的名字+“/部分- 0000 *”))))“0.0 1:1.01 2:2.02 3:3.03 \ n1.1 1:1.23 3:4.56 \ n”