pyspark.pandas.Series.str.split

str。 分裂 ( 帕特:可選(str]=沒有一個,n:int=- 1,擴大:bool= )→聯盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame]

分割字符串在給定分離器/分隔符。

分割的字符串係列從一開始,在指定的分隔符字符串。相當於str.split ()

參數
帕特 str,可選

字符串或正則表達式分裂。如果不指定,在空格分割。

n int,默認1(全部)

限製輸出的分裂。沒有,0和1將被解釋為返回所有分裂。

擴大 bool,默認的錯誤

擴大容量字符串到單獨的列中。

  • 如果真正的,n必須是一個正整數,返回DataFrame擴展維度。

  • 如果,返回係列,包含字符串的列表。

返回
係列,DataFrame

類型匹配調用者,除非擴大= True(見注釋)。

另請參閱

str.rsplit

分割字符串在給定分離器/分隔符,從右邊。

str.join

加入列表包含元素係列/索引通過分隔符。

筆記

的處理n關鍵字的數量取決於發現分裂:

  • 如果發現分裂>n,使第一n分裂隻

  • 如果發現分裂< =n,讓所有分裂

  • 如果對於某一行發現分裂的數量<n,附加沒有一個為填充n如果擴大= True

如果使用擴大= True係列,調用者返回DataFrame對象n + 1列。

請注意

即使n遠遠大於分歧,列數不縮水不像熊貓。

例子

> > >年代=ps係列([“這是一個通常的句子”,“https://docs.python.org/3/tutorial/index.html”,np])

在默認設置中,字符串是由空格分割。

> > >年代str分裂()0(,,,定期,句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象

沒有參數n, rsplit和分裂的輸出是相同的。

> > >年代strrsplit()0(,,,定期,句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象

n參數可以用來限製分裂的數量在分隔符。分裂的輸出和rsplit是不同的。

> > >年代str分裂(n=2)0(是,這普通的句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象
> > >年代strrsplit(n=2)0(正常,這是一個句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象

帕特參數可用於其他字符分割了。

> > >年代str分裂(帕特=“/”)0(這是一個常規的句子)1 (https: docs.python.org 3教程,指數……2沒有dtype:對象

當使用擴大= True,分裂元素將擴大到單獨的列。如果南存在,傳播在整個列在分裂。

> > >年代str分裂(n=4,擴大=真正的)0 1 2 3 40這是一個普通的句子1 https://docs.python.org/3/tutorial/index.html沒有沒有沒有沒有2沒有沒有沒有沒有沒有

等稍微複雜的用例將html文檔的名字從一個url,可以使用參數設置的組合。

> > >年代strrsplit(“/”,n=1,擴大=真正的)0 10這是一個常規的句子1 https://docs.python.org/3/tutorial index . html2個都沒有

記得轉義特殊字符時顯式地使用正則表達式。

> > >年代=ps係列([“1 + 1 = 2”])> > >年代str分裂(r“\ + | = ",n=2,擴大=真正的)0 1 20 1 1 2