亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在不區分大小寫的搜索期間提取與模式中使用的原始大小寫的匹配項

在不區分大小寫的搜索期間提取與模式中使用的原始大小寫的匹配項

ITMISS 2022-08-25 15:22:59
在執行正則表達式模式匹配時,我們得到的是匹配的內容。如果我想要在內容中找到的模式怎么辦?請參閱以下示例:>>> import re>>> r = re.compile('ERP|Gap', re.I)>>> string = 'ERP is integral part of GAP, so erp can never be ignored, ErP!'>>> r.findall(string)['ERP', 'GAP', 'erp', 'ErP']但我希望輸出看起來像這樣:['ERP', 'Gap', 'ERP', 'ERP']因為如果我對原始輸出進行分組和求和,我會得到以下輸出作為數據幀:ERP 1erp 1ErP 1GAP 1gap 1但是,如果我希望輸出看起來像這樣怎么辦ERP 3Gap 2與我正在搜索的關鍵字相提并論?更多背景信息我有一個這樣的關鍵字列表:.我有一個這樣的字符串:['ERP', 'Gap']"ERP, erp, ErP, GAP, gap"我想計算每個關鍵字在字符串中出現的次數?,F在,如果我進行模式匹配,我將得到以下輸出:.[ERP, erp, ErP, GAP, gap]現在,如果我想聚合并進行計數,我將獲得以下數據幀:ERP 1erp 1ErP 1GAP 1gap 1雖然我希望輸出如下所示:ERP 3Gap 2
查看完整描述

2 回答

?
UYOU

TA貢獻1878條經驗 獲得超4個贊

您可以動態構建模式,以在組名稱中包含您搜索的單詞的索引,然后獲取與以下各項匹配的模式部分:


import re


words = ["ERP", "Gap"]

words_dict = { f'g{i}':item for i,item in enumerate(words) } 


rx = rf"\b(?:{'|'.join([ rf'(?P<g{i}>{item})' for i,item in enumerate(words) ])})\b"


text = 'ERP is integral part of GAP, so erp can never be ignored, ErP!'


results = []

for match in re.finditer(rx, text, flags=re.IGNORECASE):

    results.append( [words_dict.get(key) for key,value in match.groupdict().items() if value][0] )


print(results) # => ['ERP', 'Gap', 'ERP', 'ERP']

在線觀看 Python 演示

該模式將如下所示:\b(?:(?P<g0>ERP)|(?P<g1>Gap))\b

  • \b- 一個單詞邊界

  • (?:- 非捕獲組封裝圖案部件的開始:

    • (?P<g0>ERP)- 組“g0”:ERP

    • |- 或

    • (?P<g1>Gap)- 組“g1”:Gap

  • )- 組的結束

  • \b- 一個單詞邊界。

請參閱正則表達式演示。

注意 with 將適用于所有情況,因為當有匹配項時,只有一個組匹配。[0][words_dict.get(key) for key,value in match.groupdict().items() if value][0]


查看完整回答
反對 回復 2022-08-25
?
海綿寶寶撒

TA貢獻1809條經驗 獲得超8個贊

請參閱上面的評論。嘗試:

>>> [x.upper() for x in r.findall(string)]
['ERP', 'GAP', 'ERP', 'ERP']
>>>

>>> map(lambda x: x.upper(), r.findall(string))
['ERP', 'GAP', 'ERP', 'ERP']>>>


查看完整回答
反對 回復 2022-08-25
  • 2 回答
  • 0 關注
  • 119 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號