PrefixSpan¶
-
類
pyspark.mllib.fpm。
PrefixSpan
¶ -
一個平行PrefixSpan算法挖掘頻繁序列模式。PrefixSpan算法描述的劍裴et al (2001)[1]
- 1
-
劍裴et al .,“PrefixSpan:挖掘序列模式由前綴映射模式有效地增長,“訴訟17數據工程國際會議上,德國海德堡2001年,頁215 - 224,doi:https://doi.org/10.1109/ICDE.2001.914830
方法
火車
(數據、minSupport maxPatternLength…))發現頻繁序列模式的完整的輸入序列項集。
方法的文檔
-
classmethod
火車
( 數據:pyspark.rdd.RDD(列表(列表(T]]],minSupport:浮動=0.1,maxPatternLength:int=10,maxLocalProjDBSize:int=32000000 )→pyspark.mllib.fpm.PrefixSpanModel (T] ¶ -
發現頻繁序列模式的完整的輸入序列項集。
- 參數
-
-
數據
pyspark.RDD
-
輸入數據集,每個元素包含一個項集序列。
- minSupport 浮動,可選
-
最小的序列模式的支撐位,任何模式出現(minSupport * size-of-the-dataset)多次將輸出。(默認值:0.1)
- maxPatternLength int,可選
-
的最大長度序列模式,任何模式出現不到maxPatternLength將輸出。(默認值:10)
- maxLocalProjDBSize int,可選
-
條目的最大數量(包括分隔符用於內部存儲格式)允許在投影數據庫在本地處理。如果一個投影數據庫超過這個尺寸,另一個迭代運行分布式前綴的增長。(默認:32000000)
-
數據