pyspark.pandas.DataFrame.kde¶

DataFrame。 kde ( bw_method=沒有一個,印第安納州=沒有一個,* *kwds ) ¶

使用高斯內核生成核密度估計的陰謀。

參數

bw_method 標量: 方法用於計算估計帶寬。有關更多信息,請參見在PySpark KernelDensity。
印第安納州 NumPy數組或整數,可選的: 評估點估計的PDF。如果沒有(默認),使用1000等距的點。如果印第安納州NumPy數組,KDE是評估點通過。如果印第安納州是一個整數,印第安納州使用數量的等距的點。
* * kwargs 可選: 關鍵字參數傳遞pandas-on-Spark.Series.plot ()。

返回

plotly.graph_objs.Figure: 當返回一個自定義對象後端! =情節。返回一個ndarray當次要情節= True(matplotlib-only)。

例子

一個標量帶寬應該指定。使用一個小的帶寬值會導致過度學習,在使用大的帶寬值可能導致under-fitting:

           > > >年代=ps。係列([1,2,2.5,3,3.5,4,5])> > >年代。情節。kde(bw_method=0.3)
          

           > > >年代=ps。係列([1,2,2.5,3,3.5,4,5])> > >年代。情節。kde(bw_method=3)
          

的印第安納州參數確定的評估點估計KDF的情節:

           > > >年代=ps。係列([1,2,2.5,3,3.5,4,5])> > >年代。情節。kde(印第安納州=(1,2,3,4,5),bw_method=0.3)
          

對於DataFrame,它和係列:以同樣的方式工作

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情節。kde(bw_method=0.3)
          

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情節。kde(bw_method=3)
          

           > > >df=ps。DataFrame({…“x”:(1,2,2.5,3,3.5,4,5),…“y”:(4,4,4.5,5,5.5,6,6),…})> > >df。情節。kde(印第安納州=(1,2,3,4,5,6),bw_method=0.3)
          

以前的

pyspark.pandas.DataFrame.boxplot

下一個

pyspark.pandas.DataFrame.pandas_on_spark.apply_batch