亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在python中解析帶有強調標簽的xml文件

在python中解析帶有強調標簽的xml文件

慕娘9325324 2022-10-05 16:37:15
我目前正在編寫一個 python 腳本,可以提取 xml 文件中的所有文本。我正在使用元素樹庫來解釋數據,但是我遇到了這個問題,但是當數據的結構如下時......<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">   But I bet it's a good <Pause/> superset of it.   </Segment>當我試圖讀出文本時,我在暫停標記之前得到了段的前半部分(“好吧。所以我們有什么”)。我想弄清楚是否有辦法忽略數據段中的標簽并打印出所有文本。
查看完整描述

2 回答

?
守著星空守著你

TA貢獻1799條經驗 獲得超8個贊

另一種解決方案。


from simplified_scrapy import SimplifiedDoc,req,utils

html = '''<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">

  But I bet it's a good <Pause/> superset of it.

</Segment>'''

doc = SimplifiedDoc(html)

print(doc.Segment)

print(doc.Segment.text)

結果:


{'StartTime': '639.752', 'EndTime': '642.270', 'Participant': 'fe016', 'tag': 'Segment', 'html': "\n  But I bet it's a good <Pause /> superset of it.\n"}

But I bet it's a good superset of it.

這里有更多例子。https://github.com/yiyedata/simplified-scrapy-demo/blob/master/doc_examples


查看完整回答
反對 回復 2022-10-05
?
蕭十郎

TA貢獻1815條經驗 獲得超13個贊

xml = '''<Segment StartTime="639.752" EndTime="642.270" Participant="fe016">

  But I bet it's a good <Pause/> superset of it.

</Segment>'''


# solution using ETree

from xml.etree import ElementTree as ET


root = ET.fromstring(xml)

pause = root.find('./Pause')

print(root.text + pause.tail)


查看完整回答
反對 回復 2022-10-05
  • 2 回答
  • 0 關注
  • 119 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號