已解決430363個問題，去搜搜看，總會有你想問的

如何在 Python 中使用正則表達式從文件底部讀取 HTML 標簽？

首頁猿問如何在 Python...

Python

滄海一幻覺 2023-09-19 14:55:53

我有一個 HTML 響應，我需要獲取<title>頁面上最后一個標簽之間的數據，有沒有辦法可以使用 Python 中的正則表達式或使用 Python 中的其他工具來完成此操作？例如。<title>abc</title><title>def</title>應該返回 def。

查看完整描述

2 回答

Smart貓小萌

TA貢獻1911條經驗獲得超7個贊

您不應該使用正則表達式來解析 HTML，因為大多數情況下效率低下且難以閱讀。如果您沒有任何其他選擇，正則表達式應該是最后的選擇。

值得慶幸的是，有很多適用于 Python 的 HTML 解析器，例如BeautifulSoup。

使用 BeautifulSoup 你可以獲得最后一個標題標簽：

last_title?=?soup.find_all('title')[-1].text.replace('\n',?'')

反對回復 2023-09-19

收到一只叮咚

TA貢獻1821條經驗獲得超5個贊

用作<title>\s*([\s\S]+?)\s*</title>正則表達式（從標題中去除前導和尾隨空格）并findall獲取最后一次出現的位置：

import re

text = """abc

<title>abc

</title>

def

ghi

<title>def

</title>

jkl

"""

tags = re.findall(r'<title>\s*([\s\S]+?)\s*</title>', text)

print(tags[-1]) # the last one

印刷：

def

反對回復 2023-09-19

關注

舉報

0/150

提交

取消