亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python正則表達式分組查找器

Python正則表達式分組查找器

富國滬深 2023-10-26 17:00:00
輸入:146.204.224.152 - feest6811 [21/Jun/2019:15:45:24 -0700] "POST /incentivize HTTP/1.1" 302 4622預期輸出:example_dict = {"host":"146.204.224.152", "user_name":"feest6811","time":"21/Jun/2019:15:45:24 -0700","request":"POST /incentivize HTTP/1.1"}我的代碼適用于單獨分組,例如:for item in re.finditer('(?P<host>\d*\.\d*\.\d*.\d*)',logdata):        print(item.groupdict())Output: {'host': '146.204.224.152'}但我沒有通過組合每個組來獲得輸出。下面是我的代碼:for item in re.finditer('(?P<host>\d*\.\d*\.\d*.\d*)(?P<user_name>(?<=-\s)[\w]+\d)(?P<time>(?<=\[).+(?=]))(?P<request>(?<=").+(?="))',logdata):           print(item.groupdict())
查看完整描述

2 回答

?
收到一只叮咚

TA貢獻1821條經驗 獲得超5個贊

如果您連續粘貼兩個正則表達式,它們將僅連續匹配文本。例如,如果組合a和b,則正則表達式ab將匹配文本ab,但不匹配acb。


您的組合正則表達式遇到了這個問題;您已將正則表達式融合在一起,這些正則表達式顯然可以單獨工作,但它們與直接相鄰的字符串不匹配,因此您必須添加一些填充來覆蓋輸入中的中間子字符串。


這是一個稍微重構的版本,其中添加了填充,并且還進行了一些常規修復,以避免常見的正則表達式初學者錯誤。


for item in re.finditer(r'''

        (?P<host>\d+\.\d+\.\d+.\d+)

        (?:[-\s]+)

        (?P<user_name>\w+\d)

        (?:[^[]+\[)

        (?P<time>[^]]+)

        (?:\][^]"]+")

        (?P<request>[^"]+)''',

        logdata, re.VERBOSE):

    print(item.groupdict())

演示: https: //ideone.com/BsNLG7


查看完整回答
反對 回復 2023-10-26
?
溫溫醬

TA貢獻1752條經驗 獲得超4個贊

我可能會簡化您的正則表達式模式并僅re.findall在此處使用:


inp = '146.204.224.152 - feest6811 [21/Jun/2019:15:45:24 -0700] "POST /incentivize HTTP/1.1" 302 4622'

matches = re.findall(r'(\d+\.\d+\.\d+\.\d+) - (\S+) \[(.*?)\] "(.*?)"', inp)

print(matches)

這將生成一個元組列表,其中包含您想要的四個捕獲術語:


[('146.204.224.152', 'feest6811', '21/Jun/2019:15:45:24 -0700', 'POST /incentivize HTTP/1.1')]



查看完整回答
反對 回復 2023-10-26
  • 2 回答
  • 0 關注
  • 156 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號