pyspark.RDD.sampleByKey¶
-
抽樣。
sampleByKey
( withReplacement:bool,分數:Dict(K,聯盟(浮動,int]],種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(元組(K,V] ] ¶ -
返回一個子集的抽樣樣本的關鍵(通過分層抽樣)。使用變量創建一個樣本抽樣的抽樣率不同的鍵指定的分數,采樣率的關鍵。
例子
> > >分數={“一個”:0.2,“b”:0.1}> > >抽樣=sc。並行化(分數。鍵())。笛卡兒(sc。並行化(範圍(0,1000年)))> > >樣本=dict(抽樣。sampleByKey(假,分數,2)。groupByKey()。收集())> > >One hundred.<len(樣本(“一個”])<300年和50<len(樣本(“b”])<150年真正的> > >馬克斯(樣本(“一個”])< =999年和最小值(樣本(“一個”])> =0真正的> > >馬克斯(樣本(“b”])< =999年和最小值(樣本(“b”])> =0真正的