我的編寫的是
body = """234234<div class="con news_content">解決什么問題?解決人的思考?還是解決人的預測
還是解決現象?人工智能它的機理是什么,簡單來講至少大數據可以在人工智能做預測決策的范疇起到促進作用。</p>
<p class="copyright"</p>
</div></div>34234""" #字符串是這個
bodyPattern = r’<div class="con news_content">[^}]*</div>‘
我用 ([^}]|})* 怎么不行呢?
3 回答

MMTTMM
TA貢獻1869條經驗 獲得超4個贊
我想你應該讀一下這個問題下面的回答:RegEx match open tags except XHTML self-contained tags
簡單概括就是:不要用正則表達式解析HTML!說了多少遍了不要這樣做,可還是有人問個不停。
原文作者已經出離憤怒了。

開心每一天1111
TA貢獻1836條經驗 獲得超13個贊
如果基于標簽提取,建議使用類似jsoup這樣的工具。
如果只是提取一個div文本,當然用正則可以。如果多個div,那正則去match多個group,然后一個個打印出來。
添加回答
舉報
0/150
提交
取消