pyspark.RDD.histogram

抽樣。 柱狀圖 ( :聯盟[int、列表[S]元組[,…]] )→元組(序列(年代] ,列表(int] ]

使用提供的桶計算直方圖。右邊的桶都是開放除了最後關閉。如(1、10、20、50)意味著桶(10)(10、20)(20、50),這意味著1 < = x < 10、10 < = x < 20日20 < = x < = 50。和1的輸入和50我們會有一個柱狀圖1,0,1。

如果你的直方圖均勻間隔的(如[0,10年,20年,30]),這可以切換從一個O (log n)插入到O(1)每個元素(其中n是桶的數量)。

桶必須進行排序,不包含任何副本,至少有兩個元素。

如果是一個數字,它將生成桶是均勻間隔的最小值和最大值之間的抽樣。例如,如果最小值為0,最大是100,2,由此產生的桶將[0,50)[50100]。必須至少1。會拋出一個異常如果抽樣包含無窮。如果抽樣中的元素沒有變化(max = = min),將使用一個桶。

返回值是一個元組的水桶,直方圖。

例子

> > >抽樣=sc並行化(範圍(51))> > >抽樣柱狀圖(2)([0、25、50],[25,26])> > >抽樣柱狀圖([0,5,25,50])([0、5、25、50],[26]5,20日)> > >抽樣柱狀圖([0,15,30.,45,60])#等間距的桶45([0,15日,30日,60],[6]15日,15日,15日)> > >抽樣=sc並行化([“ab”,“交流”,“b”,“bd”,“英孚”])> > >抽樣柱狀圖((“一個”,“b”,“c”))((a, b, c), (2, 2))