首頁猿問在不區分大小寫的搜索期間提取與模式...

在不區分大小寫的搜索期間提取與模式中使用的原始大小寫的匹配項

Python

ITMISS 2022-08-25 15:22:59

在執行正則表達式模式匹配時，我們得到的是匹配的內容。如果我想要在內容中找到的模式怎么辦？請參閱以下示例：>>> import re>>> r = re.compile('ERP|Gap', re.I)>>> string = 'ERP is integral part of GAP, so erp can never be ignored, ErP!'>>> r.findall(string)['ERP', 'GAP', 'erp', 'ErP']但我希望輸出看起來像這樣：['ERP', 'Gap', 'ERP', 'ERP']因為如果我對原始輸出進行分組和求和，我會得到以下輸出作為數據幀：ERP 1erp 1ErP 1GAP 1gap 1但是，如果我希望輸出看起來像這樣怎么辦ERP 3Gap 2與我正在搜索的關鍵字相提并論？更多背景信息我有一個這樣的關鍵字列表：.我有一個這樣的字符串：['ERP', 'Gap']"ERP, erp, ErP, GAP, gap"我想計算每個關鍵字在字符串中出現的次數?，F在，如果我進行模式匹配，我將得到以下輸出：.[ERP, erp, ErP, GAP, gap]現在，如果我想聚合并進行計數，我將獲得以下數據幀：ERP 1erp 1ErP 1GAP 1gap 1雖然我希望輸出如下所示：ERP 3Gap 2

查看完整描述

2 回答

UYOU

TA貢獻1878條經驗獲得超4個贊

您可以動態構建模式，以在組名稱中包含您搜索的單詞的索引，然后獲取與以下各項匹配的模式部分：

import re

words = ["ERP", "Gap"]

words_dict = { f'g{i}':item for i,item in enumerate(words) }

rx = rf"\b(?:{'|'.join([ rf'(?P<g{i}>{item})' for i,item in enumerate(words) ])})\b"

text = 'ERP is integral part of GAP, so erp can never be ignored, ErP!'

results = []

for match in re.finditer(rx, text, flags=re.IGNORECASE):

results.append( [words_dict.get(key) for key,value in match.groupdict().items() if value][0] )

print(results) # => ['ERP', 'Gap', 'ERP', 'ERP']

在線觀看 Python 演示

該模式將如下所示：\b(?:(?P<g0>ERP)|(?P<g1>Gap))\b

\b- 一個單詞邊界
(?:- 非捕獲組封裝圖案部件的開始：

(?P<g0>ERP)- 組“g0”：ERP
|- 或
(?P<g1>Gap)- 組“g1”：Gap

)- 組的結束
\b- 一個單詞邊界。

請參閱正則表達式演示。

注意 with 將適用于所有情況，因為當有匹配項時，只有一個組匹配。[0][words_dict.get(key) for key,value in match.groupdict().items() if value][0]

反對回復 2022-08-25

海綿寶寶撒

TA貢獻1809條經驗獲得超8個贊

請參閱上面的評論。嘗試：

>>> [x.upper() for x in r.findall(string)]
['ERP', 'GAP', 'ERP', 'ERP']
>>>

或

>>> map(lambda x: x.upper(), r.findall(string))
['ERP', 'GAP', 'ERP', 'ERP']>>>

反對回復 2022-08-25

2 回答
0 關注
119 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

在不區分大小寫的搜索期間提取與模式中使用的原始大小寫的匹配項

在不區分大小寫的搜索期間提取與模式中使用的原始大小寫的匹配項

2 回答

添加回答