Word2Vec¶
-
類
pyspark.ml.feature。
Word2Vec
( *,vectorSize:int=One hundred.,minCount:int=5,numPartitions:int=1,stepSize:浮動=0.025,麥克斯特:int=1,種子:可選(int]=沒有一個,inputCol:可選(str]=沒有一個,outputCol:可選(str]=沒有一個,windowSize:int=5,maxSentenceLength:int=1000年 ) ¶ -
Word2Vec火車的模型矢量地圖(字符串),也就是將一個單詞轉換成代碼進行進一步的自然語言處理和機器學習的過程。
例子
> > >發送=(“b”*One hundred.+“c”*10)。分裂(”“)> > >醫生=火花。createDataFrame(((發送),(發送),(“句子”])> > >word2Vec=Word2Vec(vectorSize=5,種子=42,inputCol=“句子”,outputCol=“模型”)> > >word2Vec。setMaxIter(10)Word2Vec……> > >word2Vec。getMaxIter()10> > >word2Vec。清晰的(word2Vec。麥克斯特)> > >模型=word2Vec。適合(醫生)> > >模型。getMinCount()5> > >模型。setInputCol(“句子”)Word2VecModel……> > >模型。getVectors()。顯示()+ - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | |這個詞向量+ - - - - - - - - - - - - - - - - - - - - - - - - - - - +| | (0.0951……| | b [-1.202……c | | [0.3015……+ - - - - - - - - - - - - - - - - - - - - - - - - - - - +…> > >模型。findSynonymsArray(“一個”,2)[(0.015859 b,…), (“c”, -0.568079…))> > >從pyspark.sql.functions進口format_number作為fmt> > >模型。findSynonyms(“一個”,2)。選擇(“單詞”,fmt(“相似”,5)。別名(“相似”))。顯示()+ - - - - - - - - - - - - - - - - +| | |相似+ - - - - - - - - - - - - - - - - +| | 0.01586 |c | | -0.56808 |+ - - - - - - - - - - - - - - - - +…> > >模型。變換(醫生)。頭()。模型DenseVector ([-0.4833, 0.1855, -0.273, -0.0509, -0.4769))> > >word2vecPath=temp_path+“/ word2vec”> > >word2Vec。保存(word2vecPath)> > >loadedWord2Vec=Word2Vec。負載(word2vecPath)> > >loadedWord2Vec。getVectorSize()= =word2Vec。getVectorSize()真正的> > >loadedWord2Vec。getNumPartitions()= =word2Vec。getNumPartitions()真正的> > >loadedWord2Vec。getMinCount()= =word2Vec。getMinCount()真正的> > >modelPath=temp_path+“/ word2vec-model”> > >模型。保存(modelPath)> > >loadedModel=Word2VecModel。負載(modelPath)> > >loadedModel。getVectors()。第一個()。詞= =模型。getVectors()。第一個()。詞真正的> > >loadedModel。getVectors()。第一個()。向量= =模型。getVectors()。第一個()。向量真正的> > >loadedModel。變換(醫生)。取(1)= =模型。變換(醫生)。取(1)真正的
方法
清晰的
(參數)清除參數映射的參數是否被顯式地設置。
複製
((額外的))創建這個實例的副本具有相同uid和一些額外的參數。
explainParam
(參數)解釋一個參數並返回它的名字,醫生,和可選的默認值,用戶提供的字符串值。
返回文檔的所有參數選擇默認值和用戶提供的值。
extractParamMap
((額外的))提取嵌入默認參數值和用戶提供的值,然後合並他們額外的值從輸入平麵參數映射,後者使用價值如果存在衝突,即。排序:默認參數值< <額外的用戶提供的值。
適合
(數據集[params))適合一個模型與可選參數的輸入數據集。
fitMultiple
(paramMaps數據集)適合一個模型為每個參數映射的輸入數據集paramMaps。
得到的價值inputCol或其默認值。
麥克斯特的價值或其默認值。
得到的價值maxSentenceLength或其默認值。
得到的價值minCount或其默認值。
得到的價值numPartitions或其默認值。
getOrDefault
(參數)得到參數的值在用戶提供的參數映射或其默認值。
得到的價值outputCol或其默認值。
getParam
(paramName)通過它的名稱參數。
getSeed
()種子的價值或其默認值。
得到的價值stepSize或其默認值。
得到的價值vectorSize或其默認值。
得到的價值windowSize或其默認值。
hasDefault
(參數)檢查是否一個參數有默認值。
hasParam
(paramName)測試這個實例包含一個參數是否與給定名稱(字符串)。
isDefined
(參數)檢查參數是否由用戶或顯式地設置一個默認值。
收取
(參數)檢查參數是否由用戶顯式地設置。
負載
(路徑)從輸入路徑,讀取一個毫升實例的快捷方式read () .load(路徑)。
讀
()返回一個MLReader這個類的實例。
保存
(路徑)這個毫升實例保存到給定的路徑,一個快捷方式的“寫().save(路徑)。
集
(參數值)設置一個參數嵌入參數映射。
setInputCol
(值)設置的值
inputCol
。setMaxIter
(值)設置的值
麥克斯特
。設置的值
maxSentenceLength
。setMinCount
(值)設置的值
minCount
。設置的值
numPartitions
。setOutputCol
(值)設置的值
outputCol
。setparam
(自我\ * (minCount,…))為這個Word2Vec設置參數。
setSeed
(值)設置的值
種子
。setStepSize
(值)設置的值
stepSize
。設置的值
vectorSize
。設置的值
windowSize
。寫
()返回一個MLWriter實例毫升實例。
屬性
返回所有參數命令的名字。
方法的文檔
-
清晰的
( 參數:pyspark.ml.param.Param )→沒有¶ -
清除參數映射的參數是否被顯式地設置。
-
複製
( 額外的:可選(ParamMap]=沒有一個 )→摩根大通¶ -
創建這個實例的副本具有相同uid和一些額外的參數。這個實現第一次調用參數。複製and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.
- 參數
-
- 額外的 東西,可選
-
額外參數複製到新實例
- 返回
-
-
JavaParams
-
這個實例的副本
-
-
explainParam
( 參數:聯盟(str,pyspark.ml.param.Param] )→str¶ -
解釋一個參數並返回它的名字,醫生,和可選的默認值,用戶提供的字符串值。
-
explainParams
( )→str¶ -
返回文檔的所有參數選擇默認值和用戶提供的值。
-
extractParamMap
( 額外的:可選(ParamMap]=沒有一個 )→ParamMap¶ -
提取嵌入默認參數值和用戶提供的值,然後合並他們額外的值從輸入平麵參數映射,後者使用價值如果存在衝突,即。排序:默認參數值< <額外的用戶提供的值。
- 參數
-
- 額外的 東西,可選
-
額外的參數值
- 返回
-
- dict
-
合並後的參數映射
-
適合
( 數據集:pyspark.sql.dataframe.DataFrame,參數個數:聯盟[ParamMap、列表(ParamMap)元組(ParamMap),沒有一個)=沒有一個 )→聯盟(米,列表(米] ] ¶ -
適合一個模型與可選參數的輸入數據集。
- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集。
- 參數個數 dict或列表或元組,可選的
-
一個可選的參數覆蓋嵌入參數的地圖。如果列表/元組的參數映射,這適用於每一個參數並返回一個列表的模型映射。
-
數據集
- 返回
-
-
變壓器
或者一個列表變壓器
-
擬合模型(年代)
-
-
fitMultiple
( 數據集:pyspark.sql.dataframe.DataFrame,paramMaps:序列(ParamMap] )→迭代器(元組(int,米] ] ¶ -
適合一個模型為每個參數映射的輸入數據集paramMaps。
- 參數
-
-
數據集
pyspark.sql.DataFrame
-
輸入數據集。
-
paramMaps
collections.abc.Sequence
-
一係列的參數映射。
-
數據集
- 返回
-
-
_FitMultipleIterator
-
一個線程安全的iterable包含為每個參數映射模型。每次調用下一個(modelIterator)將返回(指數模型)模型是適合使用在哪裏paramMaps(指數)。指數值可能不是連續的。
-
-
getInputCol
( )→str¶ -
得到的價值inputCol或其默認值。
-
getMaxIter
( )→int¶ -
麥克斯特的價值或其默認值。
-
getMaxSentenceLength
( )→int¶ -
得到的價值maxSentenceLength或其默認值。
-
getMinCount
( )→int¶ -
得到的價值minCount或其默認值。
-
getNumPartitions
( )→int¶ -
得到的價值numPartitions或其默認值。
-
getOrDefault
( 參數:聯盟(str,pyspark.ml.param.Param(T]] )→聯盟(任何,T] ¶ -
得到參數的值在用戶提供的參數映射或其默認值。如果沒有設置提出了一個錯誤。
-
getOutputCol
( )→str¶ -
得到的價值outputCol或其默認值。
-
getParam
( paramName:str )→pyspark.ml.param.Param ¶ -
通過它的名稱參數。
-
getSeed
( )→int¶ -
種子的價值或其默認值。
-
getStepSize
( )→浮動¶ -
得到的價值stepSize或其默認值。
-
getVectorSize
( )→int¶ -
得到的價值vectorSize或其默認值。
-
getWindowSize
( )→int¶ -
得到的價值windowSize或其默認值。
-
hasDefault
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查是否一個參數有默認值。
-
hasParam
( paramName:str )→bool¶ -
測試這個實例包含一個參數是否與給定名稱(字符串)。
-
isDefined
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查參數是否由用戶或顯式地設置一個默認值。
-
收取
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查參數是否由用戶顯式地設置。
-
classmethod
負載
( 路徑:str )→RL¶ -
從輸入路徑,讀取一個毫升實例的快捷方式read () .load(路徑)。
-
classmethod
讀
( )→pyspark.ml.util.JavaMLReader(RL] ¶ -
返回一個MLReader這個類的實例。
-
保存
( 路徑:str )→沒有¶ -
這個毫升實例保存到給定的路徑,一個快捷方式的“寫().save(路徑)。
-
集
( 參數:pyspark.ml.param.Param,價值:任何 )→沒有¶ -
設置一個參數嵌入參數映射。
-
setInputCol
( 價值:str )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
inputCol
。
-
setMaxIter
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
麥克斯特
。
-
setMaxSentenceLength
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
maxSentenceLength
。
-
setMinCount
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
minCount
。
-
setNumPartitions
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
numPartitions
。
-
setOutputCol
( 價值:str )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
outputCol
。
-
setparam
( 自我,\ *,minCount = 5,numPartitions = 1,stepSize = 0.025,麥克斯特= 1,種子=沒有,inputCol =沒有,outputCol =沒有,windowSize = 5,maxSentenceLength = 1000 ) ¶ -
為這個Word2Vec設置參數。
-
setSeed
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
種子
。
-
setStepSize
( 價值:浮動 )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
stepSize
。
-
setVectorSize
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
vectorSize
。
-
setWindowSize
( 價值:int )→pyspark.ml.feature.Word2Vec ¶ -
設置的值
windowSize
。
-
寫
( )→pyspark.ml.util.JavaMLWriter¶ -
返回一個MLWriter實例毫升實例。
屬性的文檔
-
inputCol
=參數(父母=‘定義’,name = ' inputCol ', doc =輸入列名稱。) ¶
-
麥克斯特
=參數(父母=‘定義’,name =“麥克斯特”,醫生=“馬克斯(> = 0)的迭代次數。) ¶
-
maxSentenceLength
=參數(父母=‘定義’,name = ' maxSentenceLength ', doc = '最大長度(詞)的每個句子輸入數據。任何句子超過這個閾值將被分為塊大小。”) ¶
-
minCount
=參數(父母=‘定義’,name = ' minCount ', doc =“最低的次數似乎令牌必須word2vec模型中包括的詞彙”) ¶
-
numPartitions
=參數(父母=‘定義’,name = ' numPartitions ', doc =單詞句子的分區數量) ¶
-
outputCol
=參數(父母=‘定義’,name = ' outputCol ', doc =輸出列名稱。) ¶
-
參數個數
¶ -
返回所有參數命令的名字。默認實現使用
dir ()
所有的屬性類型參數
。
-
種子
=參數(父母=‘定義’,name =“種子”,醫生=“隨機種子。”) ¶
-
stepSize
=參數(父母=‘定義’,name = ' stepSize ', doc =的每個迭代步長用於優化(> = 0)”。) ¶
-
vectorSize
=參數(父母=‘定義’,name = ' vectorSize ', doc =代碼改造後的尺寸從字的) ¶
-
windowSize
=參數(父母=‘定義’,name = ' windowSize ', doc = '窗口大小(上下文詞語從[窗口、窗口])。默認值是5 ') ¶
-