pyspark.pandas.Series.str.split¶
-
str。
分裂
( 帕特:可選(str]=沒有一個,n:int=- 1,擴大:bool=假 )→聯盟(pyspark.pandas.series.Series,pyspark.pandas.frame.DataFrame] ¶ -
分割字符串在給定分離器/分隔符。
分割的字符串係列從一開始,在指定的分隔符字符串。相當於
str.split ()
。- 參數
-
- 帕特 str,可選
-
字符串或正則表達式分裂。如果不指定,在空格分割。
- n int,默認1(全部)
-
限製輸出的分裂。沒有,0和1將被解釋為返回所有分裂。
- 擴大 bool,默認的錯誤
-
擴大容量字符串到單獨的列中。
如果
真正的
,n必須是一個正整數,返回DataFrame擴展維度。如果
假
,返回係列,包含字符串的列表。
- 返回
-
- 係列,DataFrame
-
類型匹配調用者,除非擴大= True(見注釋)。
另請參閱
-
str.rsplit
-
分割字符串在給定分離器/分隔符,從右邊。
-
str.join
-
加入列表包含元素係列/索引通過分隔符。
筆記
的處理n關鍵字的數量取決於發現分裂:
如果發現分裂>n,使第一n分裂隻
如果發現分裂< =n,讓所有分裂
如果對於某一行發現分裂的數量<n,附加沒有一個為填充n如果
擴大= True
如果使用
擴大= True
係列,調用者返回DataFrame對象n + 1列。請注意
即使n遠遠大於分歧,列數不縮水不像熊貓。
例子
> > >年代=ps。係列([“這是一個通常的句子”,…“https://docs.python.org/3/tutorial/index.html”,…np。南])
在默認設置中,字符串是由空格分割。
> > >年代。str。分裂()0(,,,定期,句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象
沒有參數n, rsplit和分裂的輸出是相同的。
> > >年代。str。rsplit()0(,,,定期,句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象
n參數可以用來限製分裂的數量在分隔符。分裂的輸出和rsplit是不同的。
> > >年代。str。分裂(n=2)0(是,這普通的句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象
> > >年代。str。rsplit(n=2)0(正常,這是一個句子)1 [https://docs.python.org/3/tutorial/index.html]2沒有dtype:對象
帕特參數可用於其他字符分割了。
> > >年代。str。分裂(帕特=“/”)0(這是一個常規的句子)1 (https: docs.python.org 3教程,指數……2沒有dtype:對象
當使用
擴大= True
,分裂元素將擴大到單獨的列。如果南存在,傳播在整個列在分裂。> > >年代。str。分裂(n=4,擴大=真正的)0 1 2 3 40這是一個普通的句子1 https://docs.python.org/3/tutorial/index.html沒有沒有沒有沒有2沒有沒有沒有沒有沒有
等稍微複雜的用例將html文檔的名字從一個url,可以使用參數設置的組合。
> > >年代。str。rsplit(“/”,n=1,擴大=真正的)0 10這是一個常規的句子1 https://docs.python.org/3/tutorial index . html2個都沒有
記得轉義特殊字符時顯式地使用正則表達式。
> > >年代=ps。係列([“1 + 1 = 2”])> > >年代。str。分裂(r“\ + | = ",n=2,擴大=真正的)0 1 20 1 1 2