派松學習記錄26 正則表示式

正則表示式是一種用來匹配字串的強有力的武器。它的設計思想是用一種描述性的語言來給字串定義一個規則，凡是符合規則的字串，我們就認為它“匹配”了，否則，該字串就是不合法的。

首先了解如何用字元來描述字元。

在正則表示式中，如果直接給出字元，就是精確匹配。

用\d可以匹配一個數字，\w可以匹配一個字母或數字

，所以：

‘00\d’

可以匹配

‘007’

，但無法匹配

‘00A’

；

‘\d\d\d’

可以匹配

‘010’

；

‘\w\w\d’

可以匹配

‘py3’

；

2。

.可以匹配任意字元

，所以：

‘py。’

可以匹配

‘pyc’

、

‘pyo’

、

‘py！’

等等。

3。

要匹配變長的字元，在正則表示式中，用*表示任意個字元（包括0個），用+表示至少一個字元，用{n}表示n個字元，用{n,m}表示n-m個字元。

4。大多數字符（例如 abc123）可以直接使用在正則表示式中。

然而，\.*?+[{|()^$ 這些字元則必須在其前面加上反斜線來進行匹配。

例如\。表示一個原義的句點而 \\ 表示一個原義的反斜線，\，表示一個逗號

?匹配前面的子表示式零次或一次。例如，“do(es)?”可以匹配“does”或“does”中的“do”，?等價於{0,1}。

來看一個複雜的例子：

\d{3}\s+\d{3，8}

：

\d{3}

表示匹配3個數字，例如

‘010’

；

可以匹配一個空格（也包括Tab等空白符），所以

\s+

表示至少有一個空格，例如匹配

‘ ’

，

‘ ’

等；

\d{3，8}

表示3-8個數字，例如

‘1234567’

。

用

［］

限定包含的字元種類和範圍

［0-9a-zA-Z\_］

可以匹配

一個

數字、大小寫字母或者下劃線；

［0-9a-zA-Z\_］+

可以匹配至少由一個數字、字母或者下劃線組成的字串，比如

‘a100’

，

‘0_Z’

，

‘Py3000’

等等；

［a-zA-Z\_］［0-9a-zA-Z\_］*

可以匹配由字母或下劃線開頭，後接任意個由一個數字、字母或者下劃線組成的字串，也就是Python合法的變數；

［a-zA-Z\_］［0-9a-zA-Z\_］{0， 19}

更精確地限制了變數的長度是1-20個字元

（前面1個字元+後面最多19個字元）

。

A|B可以匹配A或B

，所以

（P|p）ython

可以匹配

‘Python’

或者

‘python’

。

^表示行的開頭，^\d表示必須以數字開頭。

$表示行的結束，\d$表示必須以數字結束。

也可以匹配

‘python’

，但是加上

^py$

就變成了整行匹配，就只能匹配

‘py’

了。

re模組

有了準備知識就可以在Python中使用正則表示式了。Python提供

模組，包含所有正則表示式的功能。由於Python的字串本身也用

轉義，所以要特別注意：

s = ‘ABC\\-001’ # Python的字串

# 對應的正則表示式字串變成：

# ‘ABC\-001’#注意這要作為正則表示式使用而不是一般字串

因此要求使用Python的r字首，就不用考慮轉義的問題了

：

‘ABC\-001’

# Python的字串

# 對應的正則表示式字串不變：

# ‘ABC\-001’#注意這要作為正則表示式使用而不是一般字串

先看看如何判斷正則表示式是否匹配：

>>>

import

>>>

。

match

（

‘^\d{3}\-\d{3，8}$’

，

‘010-12345’

）

_sre

。

SRE_Match

object

；

span

（

，

），

match

‘010-12345’

>>>

。

match

（

‘^\d{3}\-\d{3，8}$’

，

‘010 12345’

）

match（）

方法判斷是否匹配，

如果匹配成功，返回一個Match物件，否則返回None

。常見的判斷方法就是：

test

‘使用者輸入的字串’

。

match

（

‘正則表示式’

，

test

）：

（

‘ok’

）

else

：

（

‘failed’

）

切分字串

用正則表示式切分字串比用固定的字元更靈活，請看正常的切分程式碼：

>>>

‘a b c’

。

split

（

‘ ’

）

［

‘a’

，

‘b’

，

‘’

，

‘’

，

‘c’

］

無法識別連續的空格，用正則表示式：

>>>

。

split

（

‘\s+’

，

‘a b c’

）

［

‘a’

，

‘b’

，

‘c’

］

無論多少個空格都可以正常分割。加入

，

試試：

>>>

。

split

（

‘［\s\，］+’

，

‘a，b， c d’

）

［

‘a’

，

‘b’

，

‘c’

，

‘d’

］

再加入

；

試試：

>>>

。

split

（

‘［\s\，\；］+’

，

‘a，b；； c d’

）

#特殊符號都需要用\轉義，［］前面雖然有r，但是這是對判斷物件中

#的\作用！不是對［］這個表示識別範圍的括號內部的內容作用！切記！

［

‘a’

，

‘b’

，

‘c’

，

‘d’

］

特殊符號都需要用\轉義，[]前面雖然有r，但是這是對判斷物件中的\作用！不是對[]這個表示識別範圍的括號內部的內容作用！切記！

分組

除了簡單地判斷是否匹配之外，正則表示式還有提取子串的強大功能。用

（）

表示的就是要提取的分組（Group）。比如：

^（\d{3}）-（\d{3，8}）$

分別定義了兩個組，可以直接從匹配的字串中提取出區號和本地號碼：

>>>

。

match

（

‘^（\d{3}）-（\d{3，8}）$’

，

‘010-12345’

）

>>>

_sre

。

SRE_Match

object

；

span

（

，

），

match

‘010-12345’

>>>

。

group

（

）

‘010-12345’

>>>

。

group

（

）

‘010’

>>>

。

group

（

）

‘12345’

如果正則表示式中定義了組，就可以在

Match

物件上用

group（）

方法提取出子串來。

注意到

group（0）

永遠是原始字串，

group（1）

、

group（2）

……表示第1、2、……個子串。

提取子串非常有用：

>>>

‘19：05：30’

>>>

。

match

（

‘^（0［0-9］|1［0-9］|2［0-3］|［0-9］）\：（0［0-9］|1［0-9］|2［0-9］|3［0-9］|4［0-9］|5［0-9］|［0-9］）\：（0［0-9］|1［0-9］|2［0-9］|3［0-9］|4［0-9］|5［0-9］|［0-9］）$’

，

）

>>>

。

groups

（）

（

‘19’

，

‘05’

，

‘30’

）

這個正則表示式可以直接識別合法的時間。但是有些時候，用正則表示式也無法做到完全驗證，比如識別日期：

‘^（0［1-9］|1［0-2］|［0-9］）-（0［1-9］|1［0-9］|2［0-9］|3［0-1］|［0-9］）$’

對於

‘2-30’

，

‘4-31’

這樣的非法日期，用正則還是識別不了，或者說寫出來非常困難，這時就需要程式配合識別了。

貪婪匹配

最後需要特別指出的是，正則匹配預設是貪婪匹配，也就是匹配儘可能多的字元。舉例如下，匹配出數字後面的

：

>>>

。

match

（

‘^（\d+）（0*）$’

，

‘102300’

）

。

groups

（）

（

‘102300’

，

‘’

）

由於

\d+

採用貪婪匹配，直接把後面的

全部匹配了，結果

只能匹配空字串了。

必須讓

\d+

採用非貪婪匹配（也就是儘可能少匹配），才能把後面的

匹配出來，加個

？

就可以讓

\d+

採用非貪婪匹配：（？等價於{0，1}）

>>>

。

match

（

‘^（\d+？）（0*）$’

，

‘102300’

）

。

groups

（）

（

‘1023’

，

‘00’

）

在已知字串會以若干個0結尾的情況下使用了？這個字元，否則如果結尾是另外若干數字，這裡使用？是不會得到想要的結果的。

編譯

當我們在Python中使用正則表示式時，re模組內部會幹兩件事情：

編譯正則表示式，如果正則表示式的字串本身不合法，會報錯；

用編譯後的正則表示式去匹配字串。

如果一個正則表示式要重複使用幾千次，出於效率的考慮，我們可以預編譯該正則表示式，接下來重複使用時就不需要編譯這個步驟了，直接匹配：

>>>

import

# 編譯：

>>>

re_telephone

。

compile

（

‘^（\d{3}）-（\d{3，8}）$’

）

# 使用：

>>>

re_telephone

。

match

（

‘010-12345’

）

。

groups

（）

（

‘010’

，

‘12345’

）

>>>

re_telephone

。

match

（

‘010-8086’

）

。

groups

（）

（

‘010’

，

‘8086’

）

編譯後生成Regular Expression物件，由於該物件自己包含了正則表示式，所以呼叫對應的方法時不用給出正則字串。

如果經常遇到正則表示式的問題，可能需要一本正則表示式的參考書。

正則表示式小結 - 菜問 - 部落格園

練習可以提取出帶名字的Email地址：正則表示式版本二可以提取出帶名字的Email地址：

tom@voyager。org => Tom Paris

bob@example。com => bob

# -*- coding： utf-8 -*-

import re

def name_of_email（addr）：

re1 = re。compile（r‘^<？（［\w\s。］+）>？\s？\w*@\w+。\w+$’）

m = re1。match（addr）

if m：

return m。group（1）

else：

return False

# 測試：

assert name_of_email（‘ tom@voyager。org’） == ‘Tom Paris’

assert name_of_email（‘tom@voyager。org’） == ‘tom’

print（‘ok’）

注意：

？

當該字元緊跟在任何一個其他限制符（*，+，？，{

}，{

，}，{

，

}）後面時，匹配模式是非貪婪的。非貪婪模式儘可能少的匹配所搜尋的字串，而預設的貪婪模式則儘可能多的匹配所搜尋的字串。例如，對於字串“

oooo

”，“

o+？

”將匹配單個“

”，而“

”將匹配所有“

”。

派松學習記錄26 正則表示式

牆上有煙燻的黃垢，如何清洗？

【MATLAB機器學習】用於感測器資料分析的訊號處理和機器學習技術-上手實戰

隨便看看

送你原唱？

什麼是海亮課堂？

建築安全等級重要房屋一般房屋次要房屋怎麼區分？

鯊魚為什麼不傷害人？

派松學習記錄26 正則表示式

牆上有煙燻的黃垢，如何清洗？

【MATLAB機器學習】用於感測器資料分析的訊號處理和機器學習技術-上手實戰

猜你喜歡

iwatchs8連線不了藍芽耳機？

js 有沒有像 like 的函式

Pattern的意思是什麼？

隨便看看

送你原唱？

什麼是海亮課堂？

建築安全等級重要房屋一般房屋次要房屋怎麼區分？

鯊魚為什麼不傷害人？