亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何在 Python 中使用正則表達式從文件底部讀取 HTML 標簽?

如何在 Python 中使用正則表達式從文件底部讀取 HTML 標簽?

滄海一幻覺 2023-09-19 14:55:53
我有一個 HTML 響應,我需要獲取<title>頁面上最后一個標簽之間的數據,有沒有辦法可以使用 Python 中的正則表達式或使用 Python 中的其他工具來完成此操作?例如。<title>abc</title><title>def</title>應該返回 def。
查看完整描述

2 回答

?
Smart貓小萌

TA貢獻1911條經驗 獲得超7個贊

您不應該使用正則表達式來解析 HTML,因為大多數情況下效率低下且難以閱讀。如果您沒有任何其他選擇,正則表達式應該是最后的選擇。

值得慶幸的是,有很多適用于 Python 的 HTML 解析器,例如BeautifulSoup。

使用 BeautifulSoup 你可以獲得最后一個標題標簽:

last_title?=?soup.find_all('title')[-1].text.replace('\n',?'')


查看完整回答
反對 回復 2023-09-19
?
收到一只叮咚

TA貢獻1821條經驗 獲得超5個贊

用作<title>\s*([\s\S]+?)\s*</title>正則表達式(從標題中去除前導和尾隨空格)并findall獲取最后一次出現的位置:

正則表達式演示

import re


text = """abc

<title>abc

</title>

def

ghi

<title>def

</title>

jkl

"""


tags = re.findall(r'<title>\s*([\s\S]+?)\s*</title>', text)

print(tags[-1]) # the last one

印刷:


def


查看完整回答
反對 回復 2023-09-19
  • 2 回答
  • 0 關注
  • 158 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號