PrefixSpan

pyspark.mllib.fpm。 PrefixSpan

一個平行PrefixSpan算法挖掘頻繁序列模式。PrefixSpan算法描述的劍裴et al (2001)[1]

1

劍裴et al .,“PrefixSpan:挖掘序列模式由前綴映射模式有效地增長,“訴訟17數據工程國際會議上,德國海德堡2001年,頁215 - 224,doi:https://doi.org/10.1109/ICDE.2001.914830

方法

火車(數據、minSupport maxPatternLength…))

發現頻繁序列模式的完整的輸入序列項集。

方法的文檔

classmethod 火車 ( 數據:pyspark.rdd.RDD(列表(列表(T]]],minSupport:浮動=0.1,maxPatternLength:int=10,maxLocalProjDBSize:int=32000000 )pyspark.mllib.fpm.PrefixSpanModel (T]

發現頻繁序列模式的完整的輸入序列項集。

參數
數據 pyspark.RDD

輸入數據集,每個元素包含一個項集序列。

minSupport 浮動,可選

最小的序列模式的支撐位,任何模式出現(minSupport * size-of-the-dataset)多次將輸出。(默認值:0.1)

maxPatternLength int,可選

的最大長度序列模式,任何模式出現不到maxPatternLength將輸出。(默認值:10)

maxLocalProjDBSize int,可選

條目的最大數量(包括分隔符用於內部存儲格式)允許在投影數據庫在本地處理。如果一個投影數據庫超過這個尺寸,另一個迭代運行分布式前綴的增長。(默認:32000000)