pyspark.pandas.Series.compare

係列。 比較 ( 其他:pyspark.pandas.series.Series,keep_shape:bool=,keep_equal:bool= )→pyspark.pandas.frame.DataFrame

與另一個係列,顯示差異。

請注意

這個API略不同於前兩個係列的熊貓當索引並不相同,配置的計算。eager_check”是錯誤的。熊貓引發一個異常;然而,pandas-on-Spark隻是被忽略不匹配收益並執行。

> > >psser1=ps係列([1,2,3,4,5),指數=pd指數([1,2,3,4,5)))> > >psser2=ps係列([1,2,3,4,5),指數=pd指數([1,2,4,3,6)))> > >psser1比較(psser2)ValueError:隻能比較identically-labeled係列對象
> > >psoption_context(“compute.eager_check”,):psser1比較(psser2)自其他3 3.0 - 4.04 4.0 - 3.05 5.0南6南5.0
參數
其他 係列

比較的對象。

keep_shape bool,默認的錯誤

如果這是真的,所有的行和列。否則,隻有那些不同的值。

keep_equal bool,默認的錯誤

如果這是真的,結果使值是相等的。否則,等於值顯示為nan。

返回
DataFrame

筆記

匹配nan不會出現差異。

例子

> > >pyspark.pandas.config進口set_option,reset_option> > >set_option(“compute.ops_on_diff_frames”,真正的)> > >s1=ps係列([“一個”,“b”,“c”,“d”,“e”])> > >s2=ps係列([“一個”,“一個”,“c”,“b”,“e”])

對齊列上的差異

> > >s1比較(s2)sort_index()自其他1 b3 d b

保留所有原始行

> > >s1比較(s2,keep_shape=真正的)sort_index()自其他0沒有沒有1 b2個都沒有3 d b4都沒有

保留所有原始也行和所有原始值

> > >s1比較(s2,keep_shape=真正的,keep_equal=真正的)sort_index()自其他0一個1 b2 c c3 d b4 e e
> > >reset_option(“compute.ops_on_diff_frames”)