pyspark.RDD.sampleByKey

抽樣。 sampleByKey ( withReplacement:bool,分數:Dict(K,聯盟(浮動,int]],種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(元組(K,V] ]

返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。使用變量創建一個樣本抽樣的抽樣率不同的鍵指定的分數,采樣率的關鍵。

例子

> > >分數={“一個”:0.2,“b”:0.1}> > >抽樣=sc並行化(分數())笛卡兒(sc並行化(範圍(0,1000年)))> > >樣本=dict(抽樣sampleByKey(,分數,2)groupByKey()收集())> > >One hundred.<len(樣本(“一個”])<300年50<len(樣本(“b”])<150年真正的> > >馬克斯(樣本(“一個”])< =999年最小值(樣本(“一個”])> =0真正的> > >馬克斯(樣本(“b”])< =999年最小值(樣本(“b”])> =0真正的