Python（三）提取資訊必學—

正則表示式並不是Python的一部分。正則表示式是用於處理字串的強大工具，擁有自己獨特的語法以及一個獨立的處理引擎，效率上可能不如str自帶的方法，但功能十分強大。得益於這一點，在提供了正則表示式的語言裡，正則表示式的語法都是一樣的，區別只在於不同的程式語言實現支援的語法數量不同；但不用擔心，不被支援的語法通常是不常用的部分。

轉載自Python正則表示式例項詳解_程式設計師阿城的部落格-CSDN部落格_python正則表示式詳解

閱讀一字元解釋、二語法解釋、三習題部分即可，需要文字詳細解釋的請直接進入第四部分正文循序漸進喲。

一、字元含義總結如下：

二、語法：

match（）和search（）都只匹配出一個符合條件的字串，若想要所有，可以使用re。findall（）

三、仔細研讀上面的表格後，實戰/習題部分：

# 用[]{}判斷密碼是否符合要求

：密碼是由數字和字母組成，並且位數是6-16位

re_str = r‘［\da-zA-Z］{6，16}’

##用split按-或者空白格分割欄位

str1 = ‘ahsb1sssa8-jjhd7nhs+90nsjhf3-4hh h7+8kjj-sfav’

print（re。split（r‘［-+\s］’， str1））

結果：［‘ahsb1sssa8’， ‘jjhd7nhs’， ‘90nsjhf3’， ‘4hh’， ‘h7’， ‘8kjj’， ‘sfav’］

#用sub替換符合條件的關鍵詞，

試試馬賽克髒話（想起農藥不能痛罵隊友的憤怒）

str1 = ‘智障沙雕，你在幹嘛？逼，後視鏡，媽的加扣扣上’

print（ re。sub（r‘傻\s*叉|逼|沙雕|fuck|媽的|智\s*障’， ‘*’， str1））

## 結果：**，你在幹嘛？*，後視鏡，*加扣扣上

##練練轉義

re_str = r‘\d{2}\=\d{2}’

print（re。fullmatch（re_str， ‘12=34’））

## findall返回符合表示式的子串

re_str = r‘\d+k［a-d］+’

str1 = ‘abc34kshd8923kabcshd9lkkk890kaa’

result = re。findall（re_str， str1）

print（result） # ［‘8923kabc’， ‘890kaa’］

## 結果：［‘8923kabc’， ‘890kaa’］

四、詳細正文-----------

一、正則表示式語法

正則表示式是用匹配或者描述字串的工具。

用處：

a。判斷字串是否滿足某個條件——-判斷輸入的字串是否是郵箱/手機號碼。是否是ip地址

b。提取滿足條件的字串

c。字串替換

Python中透過re模組中相應的方法來支援正則表示式的匹配、查詢和替換等功能

from

import

fullmatch

fullmatch（正則表示式字串，字串） ——-> 判斷正則表示式和字串是否完全匹配

正則表示式字串：就是一個字串，字串中是正則表示式語法。r‘正則表示式’

正則表示式中包含兩個部分，一個是正則語法對應的字元，二個是普通字元

1 。（點）（匹配任意字元）

一個。只匹配一個任意字元

# 匹配一個長度是3的字串，第一個字元是‘a’，第二個字元是任意字元，最後一個字元是b

re_str = r‘a。b’

result = fullmatch（re_str， ‘a|b’）

print（result）

# 匹配一個長度是4，第一個字元和最後一個字元分別是a和b，中間兩個字元是任意字元的字串

re_str = r‘a。。b’

result = fullmatch（re_str， r‘a\nb’）

print（result）

2 \w（匹配字母數字下劃線）

一個\w匹配一個字元

# 匹配一個第一個字元是數字字母或者下劃線，後面三個字元是任意字元的字串

re_str = r‘\w。。。’

result = fullmatch（re_str， ‘o8js’）

print（result）

3 \s（匹配任意空白字元）

空白字元：空格、製表符（\t）、回車（換行\n）等，都輸入空白字元

一個\s匹配一個空白字元

# 匹配一個第一個字元是a，第二個字元是空白，最後一個字元b的字串

re_str = r‘a\sb’

result = fullmatch（re_str， ‘a\nb’）

print（result）

4 \d（匹配數字字元）

re_str = r‘\d\d\d’

result = fullmatch（re_str， ‘282’）

print（result）

5 \b（檢測邊界）

一個\b不會去匹配一個字元，而是單純的檢測\b出現的位置是否是單詞邊界

單詞邊界：字串開始和結尾、空格、換行、標點符號等，可以將兩個單詞隔開的字元都單詞邊界

re_str = r‘\babc’

re_str = r‘abc\b\saaa’ # 匹配一個字串前三位是abc，第四位是空白字元，後面是aaa。並且要求c後面是單詞邊界

result = fullmatch（re_str， ‘abc aaa’）

print（result）

6 ^（檢測是否是字串開頭）

re_str = r‘^\d\d\d’ # 判斷一個字串是否是三個數字開頭

result = fullmatch（re_str， ‘123’）

print（result）

7 $（檢測是否是字串結尾）

re_str = r‘abc$’

result = fullmatch（re_str， ‘abc’）

print（result）

8 \W（匹配非字母、數字下劃線）

re_str = r‘\Wabc’

result = fullmatch（re_str， ‘#abc’）

print（result）

9 \S（匹配非空白字元）

re_str = r‘\S。。。’

result = fullmatch（re_str， ‘2jkh’）

print（result）

10 \D（匹配非數字字元）

re_str = r‘\D\w\w\w’

result = fullmatch（re_str， ‘#h7_’）

print（result）

11 \B（檢測是否不是單詞邊界）

re_str = r‘and\BYou’

result = fullmatch（re_str， ‘andYou’）

print（result）

12 ［］（匹配中括號中出現的任意一個字元）

一個［］匹配一個字元

［字符集］ ——> 匹配一個字元，這字元是字符集中的任意一個字元

例如：［abc］，［\d+］

［字元1-字元2］ ——> 匹配一個字元，這個字元是Unicode編碼值在字元1到字元2中的任意一個字元；要求字元1的編碼值要小於字元2

例如：［1-9］ ——> 數字1到9 ［a-z］ ——> 小寫字母［A-Z］ ——> 大寫字母

［\u0031-\u0039］ ——> 數字1到9

［\u4E00-\u9fa5］ ——> 匹配所有的漢字

注意：-在中括號中，如果放在兩個字元之間表示範圍。

“”“匹配一個字串第一個字元是a或者b或c，後邊三個a”“”

re_str = r‘［abc］aaa’

result = fullmatch（re_str， ‘caaa’）

print（result）

re_str = r‘［1-4］\d\d\d’

result = fullmatch（re_str， ‘1989’）

print（result）

re_str = r‘［\u0031-\u0039］［a-z］’

result = fullmatch（re_str， ‘1h’）

print（result）

re_str = r‘［\u4E00-\u9fa5］［\u4E00-\u9fa5］［\u4E00-\u9fa5］’

result = fullmatch（re_str， ‘就深刻’）

print（result）

re_str = r‘［91-］’

result = fullmatch（re_str， ‘-’）

print（result）

# 匹配一個字元，是字母數字下劃線或者是空白

re_str = r‘［\w\s］’

result = fullmatch（re_str， ‘u’）

print（result）

13 ［^字符集］（匹配一個不在字符集中的任意字元）

注意：^必須放在中括號中的最前面才有效

“”“匹配一個四位的字串，第一位不是abc中的任意一個，後面三位是任意字元”“”

re_str = r‘［^abc］。。。’

re_str = r‘［^1-9］。。。’

result = fullmatch（re_str， ‘898i’）

print（result）

二、正則表示式次數相關符號

from re import fullmatch

1。 *（匹配0次或者多次）

字元* ——> 字元出現0次或者多次

# 匹配0位或者多位的數字字串

re_str = r‘\d*’

print（fullmatch（re_str， ‘123’））

# 用一個正則表示式來檢測一個識別符號是否符合要求：數字字母下劃線組成，數字不開頭（位數至少1位）

re_str = r‘［a-zA-Z_］\w*’

print（fullmatch（re_str， ‘A’））

2。 +（匹配一次或者多次）

匹配abc前面有一個或者多個數字的字串

re_str = r‘\d+abc’

print（fullmatch（re_str， ‘9abc’））

3。？（匹配0次或者1一次）

re_str = r‘a？123’

print（fullmatch（re_str， ‘a123’））

練習：寫一個正則表示式，匹配所有的整數（123， -2334， +9。。。可以匹配的，012， -023，+0122不能匹配）

re_str = r‘［-+］？［1-9］\d*’

print（fullmatch（re_str， ‘1234’））

4。 {}（指定次數）

{N} ——> 匹配N次

{M，N} ——> 匹配M到N次

{M，} ——> 至少匹配M次

{，N} ——> 最多匹配N次

re_str = r‘\d{3}’

print（fullmatch（re_str， ‘123’））

re_str = r‘\d{3，}’

print（fullmatch（re_str， ‘1234’））

re_str = r‘\d{，3}’

print（fullmatch（re_str， ‘23’））

re_str = r‘［a-z］{2，5}’

print（fullmatch（re_str， ‘aajk’））

# 判斷密碼是否符合要求：密碼是由數字和字母組成，並且位數是6-16位

re_str = r‘［\da-zA-Z］{6，16}’

三、分之和分組

import re

1。 |（分之）

條件1|條件2 ——> 先用條件1去匹配，如果匹配成功就匹配成功。如果條件1匹配失敗，用條件2去匹配。

注意：如果條件1匹配成功就不會用條件2再去匹配

re_str = r‘［a-z］{3}|［A-Z］{3}’

print（re。fullmatch（re_str， ‘AHD’））

能匹配成功時abc，d和aaa

re_str = r‘abc|d|aaa’

print（re。fullmatch（re_str， ‘aaa’））

‘abc’+W/H/Y

re_str = r‘abc（W|H|Y）’

print（re。fullmatch（re_str， ‘abcY’））

2。（）（分組）

a。組合（將括號中的內容作為一個整體進行操作）

b。捕獲 —— 使用帶括號的正則表示式匹配成功後，只獲取括號中的內容

c。重複 —— 在正則表示式中可以透過\數字來重複前面（）中匹配到的結果。數字代表前第幾個分組

a。組合

匹配一個字串，以數字字母的組合出現3次

re_str = r‘（\d［a-zA-Z］）{3}’

print（re。fullmatch（re_str， ‘2h8h7j’））

b。捕獲

re_str = r‘（\d{3}）abc’

print（re。fullmatch（re_str， ‘773abc’））

print（re。findall（re_str， ‘euhasdhf873abcssjsja235abcu-03s834432abcjjsks’））

c。重複

re_str = r‘（［a-z］{3}）-（\d{2}）\2’

print（re。fullmatch（re_str， ‘hsn-2323’））

3。轉義符號

正則表示式中可以透過在特殊的符號前加\，來讓特殊的符號沒有意義

。 ——> 任意字元。 ——> 字元。

——> 匹配一次或者多次 + ——> 字元+

注意：在中括號有特殊功能的符號，只代表符號本身

\不管在哪兒都需要轉義

-在［］外面沒有特殊功能，在［］中要表示-本身，就不要放在兩個字元之間

（）需要轉義

re_str = r‘\d{2}\。\d{2}’

print（re。fullmatch（re_str， ‘12=34’））

re_str = r‘\d\+\d’

print（re。fullmatch（re_str， ‘3+7’））

re_str = r‘\（\\’

print（re。fullmatch（re_str， ‘（\\’））

re_str = r‘（\d{3}）\1（［a-z］{2}）\2\1’

print（re。fullmatch（re_str， ‘123123bbbb123’））

四、re模組中的函式

import re

1。 compile

compile（正則表示式字串） ——> 將正則表示式字串轉換成正則表示式物件

re_objct = re。compile（r‘\d+’）

print（re_objct）

print（re_objct。fullmatch（‘23738’））

2。 fullmatch和match

fullmatch（正則表示式字串，字串）

——> 用正則表示式去完全匹配字串（匹配整個字串），返回匹配物件（SRE_Match）或者None

match（正則表示式字串，字串）

——> 匹配字串開頭，返回匹配物件或者None

result = re。fullmatch（r‘\d（［a-zA-Z］+）123’， ‘2hjdh123’）

print（result）

1。span（group=0） ——> 獲取匹配成功的區間（左閉右開區間）

print（result。span（0））

print（result。start（1）） # 獲取匹配到的開始下標

print（result。end（1）） # 獲取匹配到的結束下標後的下標

2。group（group = 0） ——> 獲取匹配結果

group（）/group（0） ——> 獲取正則表示式完全匹配的結果

group（index>0） ——> 獲取正則表示式中第group個分組匹配到的結果

print（‘0：’，result。group（））

print（‘1：’，result。group（1））

3。string ——> 獲取被匹配的原字串

print（result。string）

result = re。match（r‘\d（［a-zA-Z］+）123’， ‘2hjdh123ABC’）

print（‘match：’，result）

3。search

search（正則表示式，字串）

——> 查詢字串中滿足正則表示式的第一個字串。返回值是匹配物件或者None

result = re。search（r‘（\d）［a-zA-Z］+’， ‘uhsh2hdje+984nf’）

print（result。group（0））

print（result。group（1））

print（result。string）

練習：使用search匹配出一個字串中所有的數字字串‘abc34jshd8923jkshd9lkkk890k’ ——> 34，8923，9，890

re_str = r‘\d+’

str1 = ‘abc34jshd8923jkshd9lkkk890k’

result = re。search（re_str， str1）

while result：

print（result）

str1 = str1［result。end（）：］

result = re。search（re_str， str1）

4。findall

findall（正則表示式，字串） ——> 獲取字串中滿足正則表示式的所有的子串，返回一個列表

注意：如果正在表示式中有分組，取值的時候只取分組中匹配到的結果；

如果有多個分組，會將每個分組匹配到的結果作為一個元祖的元素

re_str = r‘（\d+）k（［a-d］+）’

str1 = ‘abc34kshd8923kabcshd9lkkk890kaa’

result = re。findall（re_str， str1）

print（result） # ［（‘8923’， ‘abc’），（‘890’， ‘aa’）］

re_str = r‘（\d+）k［a-d］+’

str1 = ‘abc34kshd8923kabcshd9lkkk890kaa’

result = re。findall（re_str， str1）

print（result） # ［‘8923’， ‘890’］

re_str = r‘\d+k［a-d］+’

str1 = ‘abc34kshd8923kabcshd9lkkk890kaa’

result = re。findall（re_str， str1）

print（result） # ［‘8923kabc’， ‘890kaa’］

5。finditer

finditer（正則表示式，字串）

——> 查詢所有滿足正則條件的子串，返回值是迭代器，迭代器中的元素是匹配物件

re_str = r‘\d+’

str1 = ‘abc34kshd8923kabcshd9lkkk890kaa’

result = re。finditer（re_str， str1）

print（result）

for item in result：

print（item）

6。 split

split（正則表示式，字串） ——> 將字串按照滿足正則表示式條件的子串進行分割

“”“

str1 = ‘ahsb1sssa8-jjhd7nhs+90nsjhf3-4hhh7+8kjj-’

result = re。split（r‘［-+］’， str1）

print（result）

7。sub

sub（正則表示式，repl，字串） ——> 將字串中滿足正則表示式條件的子串替換成repl。返回替換後的字串

str1 = ‘hsj8jskfh98ssjj8hshh’

result = re。sub（r‘\d+’，‘*’， str1）

print（result）

str1 = ‘智障，你在幹嘛？逼，後視鏡，媽的加扣扣上’

result = re。sub（r‘傻\s*叉|逼|fuck|媽的|智\s*障’， ‘*’， str1）

print（result）

with open（‘。/data’， ‘r’， encoding=‘utf-8’） as f：

content = f。read（）

# ”name“： ”搞笑精選匯“

result = re。findall（r‘”name“：”（。+？）“’， content）

print（result）

作業

1。寫一個正則表示式判斷一個字串是否是ip地址

規則：一個ip地址由4個數字組成，每個數字之間用。連線。每個數字的大小是0-255 例如：255。189。10。37 正確 256。189。89。9 錯誤

import re

re_str = r‘（（\d|［1-9］\d|1\d{2}|2［0-4］\d|25［0-5］）\。）{3}（\d|［1-9］\d|1\d{2}|2［0-4］\d|25［0-5］）’

result = re。fullmatch（re_str，‘255。183。10。37’）

print（result）

2。計算一個字串中所有的數字的和

例如：字串是：‘hello90abc 78sjh12。5’ 結果是90+78+12。5 = 180。5

str1 = ‘hello90abc 78sjh12。5’

result = re。findall（r‘［^a-z］+’，str1）

print（result）

sum1 = 0

for item in result：

sum1 += float（item）

print（sum1）

3。驗證輸入的內容只能是漢字

re_str = r‘［\u4E00-\u9fa5］+’

result = re。fullmatch（re_str，‘你好’）

print（result）

4。電話號碼的驗證

re_str = r‘（13\d|150［0-3］|15［5-9］|17［6-8］|18［0-9］）\d{8}’

result= re。fullmatch（re_str，‘15589154445’）

print（result）

5。簡單的身份證號的驗證

re_str=r‘^［1-9］\d{5}（18|19|（［23］\d））\d{2}（（0［1-9］）|（10|11|12））（（［0-2］［1-9］）|10|20|30|31）\d{3}［0-9Xx］$’

result = re。fullmatch（re_str，‘510211199505181572’）

print（result）

二、不定項選擇題

能夠完全匹配字串“（010）-62661617”和字串“01062661617”的正則表示式包括（ A B D ）

A。 “（？\d{3}）？-？\d{8}”

B。 “［0-9（）-］+”

C。 “［0-9（-）］

”

D。 “［（］？\d

［）-］

\d*”

能夠完全匹配字串“c：\rapidminer\lib\plugs”的正則表示式包括（ B C ）

A。 “c：\rapidminer\lib\plugs”

B。 “c：\rapidminer\lib\plugs”

C。 “（？i）C：\RapidMiner\Lib\Plugs” ？i：將後面的內容的大寫變成小寫

D。 “（？s）C：\RapidMiner\Lib\Plugs” ？s：單行匹配

能夠完全匹配字串“back”和“back-end”的正則表示式包括（ A B D ）

A。 “\w{4}-\w{3}|\w{4}” match->back，back-end fullmatch-> back，back-end

B。 “\w{4}|\w{4}-\w{3}” match-> back， back fullmatch-> back，back-end

C。 “\S+-\S+|\S+”

D。 “\w

\b-\b\w

|\w*”

能夠完全匹配字串“go go”和“kitty kitty”，但不能完全匹配“go kitty”的正則表示式包括（A D）

：\1就是重複前面第一個（）/組合裡面的內容

：\2就是重複前面第二個（）/組合裡面的內容

A。 “\b（\w+）\b\s+\1\b”

B。 “\w{2，5}\s*\1”

C。 “（\S+） \s+\1”

D。 “（\S{2，5}）\s{1，}\1”

能夠在字串中匹配“aab”，而不能匹配“aaab”和“aaaab”的正則表示式包括（ B C ）

A。 “a*？b”

B。 “a{，2}b”

C。 “aa？？b”

D。 “aaa？？b

Python（三）提取資訊必學——正則表示式

給我《我的天空》南征北戰他們分別唱哪句

青蛙除了能保護莊稼還有什麼本領

隨便看看

21款卡羅拉自動啟停怎麼永久關閉？

工地材料封樣流程由誰負責？

黑龍江磨盤山水庫多大？

腦出血、腦梗死的病因是一樣的嗎？

Python（三）提取資訊必學——正則表示式

給我《我的天空》南征北戰 他們分別唱哪句

青蛙除了能保護莊稼還有什麼本領

猜你喜歡

vivo手機連線不上榮耀手錶？

數碼遙控器怎麼連線？

機器學習--手寫識別（k-NearestNeighbor）

隨便看看

21款卡羅拉自動啟停怎麼永久關閉？

工地材料封樣流程由誰負責？

黑龍江磨盤山水庫多大？

腦出血、腦梗死的病因是一樣的嗎？

給我《我的天空》南征北戰他們分別唱哪句