pyspark.RDD.sortByKey

抽樣。 sortByKey ( 提升:可選(bool) = True, numPartitions:可選(int) = None, keyfunc:可調用的[[所有],任何]= <函數抽樣。<λ> > )→pyspark.rdd.RDD(元組(K,V] ]

假定分類抽樣,由(鍵值)對。

例子

> > >tmp=((“一個”,1),(“b”,2),(' 1 ',3),(' d ',4),(' 2 ',5)]> > >sc並行化(tmp)sortByKey()第一個()(' 1 ',3)> > >sc並行化(tmp)sortByKey(真正的,1)收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >sc並行化(tmp)sortByKey(真正的,2)收集()(' 1 ',3),(' 2 ',5),(' a ', 1), (' b ', 2), (' d ', 4)]> > >tmp2=((“瑪麗”,1),(“有”,2),(“一個”,3),(“小”,4),(“羔羊”,5)]> > >tmp2擴展(((“的”,6),(“羊毛”,7),(“是”,8),(“白色”,9)))> > >sc並行化(tmp2)sortByKey(真正的,3,keyfunc=λk:k較低的())收集()[(a, 3),(“羊毛”,7),(‘有’,2),(“羔羊”,5),…(9)“白”(“的”,6)]