MLUtils¶
-
類
pyspark.mllib.util。
MLUtils
¶ -
助手方法來加載、保存和預處理數據用於MLlib。
方法
appendBias
(數據)返回一個新的向量1.0(偏見)附加的輸入向量。
convertMatrixColumnsFromML
(數據集,*峽路)在一個輸入DataFrame轉換矩陣的列
pyspark.mllib.linalg.Matrix
類型的新pyspark.ml.linalg.Matrix
類型下spark.ml包中。convertMatrixColumnsToML
(數據集,*峽路)在輸入DataFrame轉換矩陣列
pyspark.mllib.linalg.Matrix
新類型pyspark.ml.linalg.Matrix
類型下spark.ml包中。convertVectorColumnsFromML
(數據集,*峽路)在一個輸入DataFrame轉換向量列
pyspark.mllib.linalg.Vector
類型的新pyspark.ml.linalg.Vector
類型下spark.ml包中。convertVectorColumnsToML
(數據集,*峽路)在輸入DataFrame轉換向量列
pyspark.mllib.linalg.Vector
新類型pyspark.ml.linalg.Vector
類型下spark.ml包中。loadLabeledPoints
(sc、路徑[minPartitions])使用RDD.saveAsTextFile加載標記點保存。
loadLibSVMFile
(sc路徑(numFeatures,…))LIBSVM格式標記數據裝入LabeledPoint的抽樣。
loadVectors
(sc路徑)負載向量保存使用抽樣(向量).saveAsTextFile使用默認的分區。
saveAsLibSVMFile
(數據、dir)以LIBSVM保存標記數據格式。
方法的文檔
-
靜態
appendBias
( 數據:pyspark.mllib.linalg.Vector )→pyspark.mllib.linalg.Vector ¶ -
返回一個新的向量1.0(偏見)附加的輸入向量。
-
靜態
convertMatrixColumnsFromML
( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame¶ -
在一個輸入DataFrame轉換矩陣的列
pyspark.mllib.linalg.Matrix
類型的新pyspark.ml.linalg.Matrix
類型下spark.ml包中。- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集
- *關口 str
-
要轉換矩陣列。
老矩陣列將被忽略。如果未指定,所有新矩陣列將轉換除了嵌套的。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
輸入數據集的新矩陣列轉換為舊的矩陣類型
-
例子
> > >進口pyspark> > >從pyspark.ml.linalg進口矩陣> > >從pyspark.mllib.util進口MLUtils> > >df=火花。createDataFrame(…((0,矩陣。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩陣。密集的(2,2,範圍(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsFromML(df)。第一個()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsFromML(df,“x”)。第一個()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseMatrix)真正的
-
靜態
convertMatrixColumnsToML
( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame¶ -
在輸入DataFrame轉換矩陣列
pyspark.mllib.linalg.Matrix
新類型pyspark.ml.linalg.Matrix
類型下spark.ml包中。- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集
- *關口 str
-
要轉換矩陣列。
新矩陣列將被忽略。如果未指定的,所有舊將轉換矩陣列除外嵌套的。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
輸入數據集用舊矩陣列轉換為新的矩陣類型
-
例子
> > >進口pyspark> > >從pyspark.mllib.linalg進口矩陣> > >從pyspark.mllib.util進口MLUtils> > >df=火花。createDataFrame(…((0,矩陣。稀疏的(2,2,(0,2,3),(0,1,1),(2,3,4]),…矩陣。密集的(2,2,範圍(4))))(“id”,“x”,“y”])> > >r1=MLUtils。convertMatrixColumnsToML(df)。第一個()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseMatrix)真正的> > >r2=MLUtils。convertMatrixColumnsToML(df,“x”)。第一個()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseMatrix)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseMatrix)真正的
-
靜態
convertVectorColumnsFromML
( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame¶ -
在一個輸入DataFrame轉換向量列
pyspark.mllib.linalg.Vector
類型的新pyspark.ml.linalg.Vector
類型下spark.ml包中。- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集
- *關口 str
-
列向量轉換。
老向量列將被忽略。如果未指定,所有新的向量列將轉換除了嵌套的。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
輸入數據集與新的矢量列轉換為舊的類型
-
例子
> > >進口pyspark> > >從pyspark.ml.linalg進口向量> > >從pyspark.mllib.util進口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsFromML(df)。第一個()> > >isinstance(r1。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。mllib。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsFromML(df,“x”)。第一個()> > >isinstance(r2。x,pyspark。mllib。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。毫升。linalg。DenseVector)真正的
-
靜態
convertVectorColumnsToML
( 數據集:pyspark.sql.dataframe.DataFrame,*關口:str )→pyspark.sql.dataframe.DataFrame¶ -
在輸入DataFrame轉換向量列
pyspark.mllib.linalg.Vector
新類型pyspark.ml.linalg.Vector
類型下spark.ml包中。- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集
- *關口 str
-
列向量轉換。
新的向量列將被忽略。如果未指定,所有舊的向量列將轉換除外嵌套的。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
輸入數據集用舊列向量轉換為新的向量類型
-
例子
> > >進口pyspark> > >從pyspark.mllib.linalg進口向量> > >從pyspark.mllib.util進口MLUtils> > >df=火花。createDataFrame(…((0,向量。稀疏的(2,(1),(1.0]),向量。密集的(2.0,3.0))),…(“id”,“x”,“y”])> > >r1=MLUtils。convertVectorColumnsToML(df)。第一個()> > >isinstance(r1。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r1。y,pyspark。毫升。linalg。DenseVector)真正的> > >r2=MLUtils。convertVectorColumnsToML(df,“x”)。第一個()> > >isinstance(r2。x,pyspark。毫升。linalg。SparseVector)真正的> > >isinstance(r2。y,pyspark。mllib。linalg。DenseVector)真正的
-
靜態
loadLabeledPoints
( sc:pyspark.context.SparkContext,路徑:str,minPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(LabeledPoint] ¶ -
使用RDD.saveAsTextFile加載標記點保存。
- 參數
-
-
sc
pyspark.SparkContext
-
火花上下文
- 路徑 str
-
文件係統文件或目錄路徑在任何Hadoop-supported URI
- minPartitions int,可選
-
最小數量的分區
-
sc
- 返回
-
-
pyspark.RDD
-
帶安全標簽的數據存儲為一個LabeledPoint抽樣
-
例子
> > >從tempfile進口NamedTemporaryFile> > >從pyspark.mllib.util進口MLUtils> > >從pyspark.mllib.regression進口LabeledPoint> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,- - - - - -1.23),(2,4.56 e -)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile。關閉()> > >sc。並行化(例子,1)。saveAsTextFile(tempFile。的名字)> > >MLUtils。loadLabeledPoints(sc,tempFile。的名字)。收集()[LabeledPoint (1.1 (3 (0, 2) [-1.23, 4.56 e-07])), LabeledPoint (0.0 [1.01, 2.02, 3.03]))
-
靜態
loadLibSVMFile
( sc:pyspark.context.SparkContext,路徑:str,numFeatures:int=- 1,minPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(LabeledPoint] ¶ -
LIBSVM格式標記數據裝入LabeledPoint的抽樣。LIBSVM格式LIBSVM和LIBLINEAR所使用的是一種基於文本的格式。每一行代表一個標記稀疏特征向量使用以下格式:
標簽index1: value1 index2: value2…
指數在哪裏集中和以升序排序。該方法解析每一行成一個LabeledPoint,特性指標轉換為從零開始的。
- 參數
-
-
sc
pyspark.SparkContext
-
火花上下文
- 路徑 str
-
文件係統文件或目錄路徑在任何Hadoop-supported URI
- numFeatures int,可選
-
的特性,將決定如果一個負的值從輸入數據。這是有用的數據集時已經分裂成多個文件,你想單獨加載它們,因為一些特性在某些文件可能不存在,從而導致不一致的特征維度。
- minPartitions int,可選
-
最小數量的分區
-
sc
- 返回
-
-
pyspark.RDD
-
帶安全標簽的數據存儲為一個LabeledPoint抽樣
-
例子
> > >從tempfile進口NamedTemporaryFile> > >從pyspark.mllib.util進口MLUtils> > >從pyspark.mllib.regression進口LabeledPoint> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >_=tempFile。寫(b“+ 1 1:1.0 3:2.0 5:3.0\ n1\ n1 2:4.0 4:5.0 6:6.0”)> > >tempFile。衝洗()> > >例子=MLUtils。loadLibSVMFile(sc,tempFile。的名字)。收集()> > >tempFile。關閉()> > >例子(0]LabeledPoint (1.0 (6 (0、2、4) (1.0, 2.0, 3.0)))> > >例子(1]LabeledPoint (-1.0, (6 [] []))> > >例子(2]LabeledPoint (-1.0 (6 (1、3、5) (4.0, 5.0, 6.0)))
-
靜態
loadVectors
( sc:pyspark.context.SparkContext,路徑:str )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ] ¶ -
負載向量保存使用抽樣(向量).saveAsTextFile使用默認的分區。
-
靜態
saveAsLibSVMFile
( 數據:pyspark.rdd.RDD(LabeledPoint],dir:str )→沒有¶ -
以LIBSVM保存標記數據格式。
- 參數
-
-
數據
pyspark.RDD
-
一個抽樣LabeledPoint得救
- dir str
-
目錄來保存數據
-
數據
例子
> > >從tempfile進口NamedTemporaryFile> > >從fileinput進口輸入> > >從pyspark.mllib.regression進口LabeledPoint> > >從一團進口一團> > >從pyspark.mllib.util進口MLUtils> > >例子=(LabeledPoint(1.1,向量。稀疏的(3,((0,1.23),(2,4.56)))),…LabeledPoint(0.0,向量。密集的([1.01,2.02,3.03))))> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile。關閉()> > >MLUtils。saveAsLibSVMFile(sc。並行化(例子),tempFile。的名字)> > >”。加入(排序(輸入(一團(tempFile。的名字+“/部分- 0000 *”))))“0.0 1:1.01 2:2.02 3:3.03 \ n1.1 1:1.23 3:4.56 \ n”
-
靜態