2 回答

TA貢獻1821條經驗 獲得超5個贊
如果您連續粘貼兩個正則表達式,它們將僅連續匹配文本。例如,如果組合a和b,則正則表達式ab將匹配文本ab,但不匹配acb。
您的組合正則表達式遇到了這個問題;您已將正則表達式融合在一起,這些正則表達式顯然可以單獨工作,但它們與直接相鄰的字符串不匹配,因此您必須添加一些填充來覆蓋輸入中的中間子字符串。
這是一個稍微重構的版本,其中添加了填充,并且還進行了一些常規修復,以避免常見的正則表達式初學者錯誤。
for item in re.finditer(r'''
(?P<host>\d+\.\d+\.\d+.\d+)
(?:[-\s]+)
(?P<user_name>\w+\d)
(?:[^[]+\[)
(?P<time>[^]]+)
(?:\][^]"]+")
(?P<request>[^"]+)''',
logdata, re.VERBOSE):
print(item.groupdict())
演示: https: //ideone.com/BsNLG7

TA貢獻1752條經驗 獲得超4個贊
我可能會簡化您的正則表達式模式并僅re.findall在此處使用:
inp = '146.204.224.152 - feest6811 [21/Jun/2019:15:45:24 -0700] "POST /incentivize HTTP/1.1" 302 4622'
matches = re.findall(r'(\d+\.\d+\.\d+\.\d+) - (\S+) \[(.*?)\] "(.*?)"', inp)
print(matches)
這將生成一個元組列表,其中包含您想要的四個捕獲術語:
[('146.204.224.152', 'feest6811', '21/Jun/2019:15:45:24 -0700', 'POST /incentivize HTTP/1.1')]
添加回答
舉報