pyspark.pandas.DataFrame.kde

DataFrame。 kde ( bw_method=沒有一個,印第安納州=沒有一個,* *kwds )

使用高斯內核生成核密度估計的陰謀。

參數
bw_method 標量

方法用於計算估計帶寬。有關更多信息,請參見在PySpark KernelDensity。

印第安納州 NumPy數組或整數,可選的

評估點估計的PDF。如果沒有(默認),使用1000等距的點。如果印第安納州NumPy數組,KDE是評估點通過。如果印第安納州是一個整數,印第安納州使用數量的等距的點。

* * kwargs 可選

關鍵字參數傳遞pandas-on-Spark.Series.plot ()

返回
plotly.graph_objs.Figure

當返回一個自定義對象後端! =情節。返回一個ndarray當次要情節= True(matplotlib-only)。

例子

一個標量帶寬應該指定。使用一個小的帶寬值會導致過度學習,在使用大的帶寬值可能導致under-fitting:

> > >年代=ps係列([1,2,2.5,3,3.5,4,5])> > >年代情節kde(bw_method=0.3)
> > >年代=ps係列([1,2,2.5,3,3.5,4,5])> > >年代情節kde(bw_method=3)

印第安納州參數確定的評估點估計KDF的情節:

> > >年代=ps係列([1,2,2.5,3,3.5,4,5])> > >年代情節kde(印第安納州=(1,2,3,4,5),bw_method=0.3)

對於DataFrame,它和係列:以同樣的方式工作

> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情節kde(bw_method=0.3)
> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情節kde(bw_method=3)
> > >df=psDataFrame({“x”:(1,2,2.5,3,3.5,4,5),“y”:(4,4,4.5,5,5.5,6,6),})> > >df情節kde(印第安納州=(1,2,3,4,5,6),bw_method=0.3)