首頁手記 Python正則表達式語法補充

Python正則表達式語法補充

標簽：

Python 大數據機器學習

基于上次写的博客:http://www.xianlaiwan.cn/search/article?words=迷之语法
补充两个初学时容易遗漏，但是对于实际应用Regex特别重要的知识点。

.* ：匹配任意字符的任意次(可用于过滤掉无关的文字)

？:非贪婪匹配

下面看几个Demo：

import re
line = "boooooobby123"
regex_str = ".*(b.*b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(0))
	print (match_obj.group(1))

结果:
boooooobbbby123
bb



import re
line = "boooooobby123"
regex_str = ".*?(b.*b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(0))
	print (match_obj.group(1))

结果:
boooooobby123
boooooobb



line = "booooooby123"
regex_str = ".*?(b.*b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(0))
	print (match_obj.group(1))

结果:
boooooobby123
boooooob
结果和贪婪算法有关，贪婪算法同时从两个方向(左，右)看匹配结果

取消贪婪的方式，匹配到第一个b就返回:

import re
line = "boooooobbbby123"
regex_str = ".*?(b.*?b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(0))
	print (match_obj.group(1))

结果：
boooooobbbby123
boooooob



import re
line = "boooooobbbby123"
regex_str = ".*?(b.*b)?.*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(0))
	print (match_obj.group(1))

结果:
boooooobbbby123
boooooobbbb

import re
line = "boooooobbbby123"
regex_str = ".*?(b.*b?).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(1))

结果：boooooobbbby123

贪婪的思想：把满足匹配条件的字符串逐个都匹配一遍，返回最后一次匹配的结果

举例:

import re
line = "boooooobbbby123"
regex_str = ".*(b.+b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(1))

结果:bbb （因为最后一个满足条件的字符串是bbb）

import re
line = "boooooobbbbbaby123"
regex_str = ".*(b.+b).*"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(1))

结果:bab （因为最后一个满足条件的字符串是bab,前一个满足条件的字符串是bbb）

中括号[ ]三大用途:

1.表示’或’关系，满足其中条件之一就能匹配成功
2.定义区间[0-9] ,{ }:定义出现次数，比如：\d{1,2} 出现1~2个数字,可以匹配日期中的月份,如’06’和’6’
3.取消特殊含义的字符(小数点等)代表的意义,比如[. ]中的小数点，不再代表"匹配任意字符，除了换行符",
而代表单纯的小数点(可以用代码验证一下)

提取汉字:[\u4E00-\u9FA5]

import re
line = "study in 南京大学"
regex_str = ".*([\u4E00-\u9FA5]+大学)"
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(1))

结果:京大学
出现上面结果的原因：受到了贪婪匹配的影响，匹配的第一个结果是"南"，第二个结果是"京"，
返回最后一个结果"京"，在条件的前面加一个"?"，取消贪婪

import re
line = "study in 南京大学"
regex_str = ".*?([\u4E00-\u9FA5]+大学)"
#.*的作用:忽视掉前面的字符
match_obj = re.match(regex_str,line)
if match_obj:
	print (match_obj.group(1))

结果:南京大学

参考教程：https://coding.imooc.com/lesson/92.html#mid=2844

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

Coder_zheng

算法工程師

手記
篇

粉絲

23

獲贊與收藏

46

關注作者，訂閱最新文章

閱讀免費教程

Python 辦公自動化教程

17個小節 27011 912

Python 算法入門教程

15個小節 29454 1133

Python 進階應用教程

38個小節 71075 1109

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python正則表達式語法補充

.* ：匹配任意字符的任意次(可用于过滤掉无关的文字)

？:非贪婪匹配

贪婪的思想：把满足匹配条件的字符串逐个都匹配一遍，返回最后一次匹配的结果

中括号[ ]三大用途:

閱讀免費教程