pyspark.sql.Observation

pyspark.sql。 觀察 ( 的名字:可選(str]=沒有一個 )

類來觀察(命名)指標DataFrame

指標聚合表達式,應用於DataFrame雖然正在處理一個動作。

指標有以下保證:

  • 它將計算定義的聚合(指標)的所有數據,在數據集內的流動在行動。

  • 它將報告的價值定義聚合列一旦我們到達的最後行動。

指標列必須包含一個文本(如點燃(42)),或者應該包含一個或多個聚合函數(例如sum (a)或(a + b) +和avg (c) -點燃(1))。表達式包含輸入數據集引用的列必須包裝在一個聚合函數。

觀察實例收集度量標準,而第一個行動是執行。後續行動不要修改返回的指標Observation.get。檢索度規的通過Observation.get塊直到第一次行動已經完成和指標可用。

筆記

這個類不支持流媒體數據集。

例子

> > >pyspark.sql.functions進口上校,,點燃,馬克斯> > >pyspark.sql進口觀察> > >df=火花createDataFrame([[“愛麗絲”,2),(“Bob”,5]],(“名稱”,“年齡”])> > >觀察=觀察(“我的指標”)> > >observed_df=df觀察(觀察,(點燃(1))別名(“數”),馬克斯(上校(“年齡”)))> > >observed_df()2> > >觀察得到{“計數”:2,“馬克斯(年齡)”:5}

屬性

得到

觀察指標。