pyspark.sql.functions.regexp_extract

pyspark.sql.functions。 regexp_extract ( str:ColumnOrName,模式:str,idx:int )→pyspark.sql.column.Column

提取一個特定群體由一個Java正則表達式匹配,從指定字符串列。如果正則表達式不匹配,或指定的組不匹配,返回一個空字符串。

例子

> > >df=火花createDataFrame(((“100 - 200”),(str的])> > >df選擇(regexp_extract(str的,r”(\ d +) - (\ d +) ',1)別名(' d '))收集()(行(d = ' 100 '))> > >df=火花createDataFrame(((“foo”),(str的])> > >df選擇(regexp_extract(str的,r“(\ d +)”,1)別名(' d '))收集()(行(d = "))> > >df=火花createDataFrame(((“aaaac”),(str的])> > >df選擇(regexp_extract(str的,“(+)(b) ? (c)的,2)別名(' d '))收集()(行(d = "))