從Python中的字符串中剝離HTMLfrom mechanize import Browserbr = Browser()br.open('http://somewebpage')html = br.response().readlines()for line in html:
print line在HTML文件中打印一行時,我試圖找到一種方法只顯示每個HTML元素的內容,而不是格式本身。如果它發現'<a href="whatever.com">some text</a>',它只會打印“一些文本”,'<b>hello</b>'打印“你好”等等。你會怎么做呢?
5 回答

手掌心
TA貢獻1942條經驗 獲得超3個贊
from HTMLParser import HTMLParserclass MLStripper(HTMLParser): def __init__(self): self.reset() self.fed = [] def handle_data(self, d): self.fed.append(d) def get_data(self): return ''.join(self.fed)def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
from html.parser import HTMLParserclass MLStripper(HTMLParser): def __init__(self): self.reset() self.strict = False self.convert_charrefs= True self.fed = [] def handle_data(self, d): self.fed.append(d) def get_data(self): return ''.join(self.fed)def strip_tags(html): s = MLStripper() s.feed(html) return s.get_data()
注

動漫人物
TA貢獻1815條經驗 獲得超10個贊
re.sub('<[^<]+?>', '', text)
<...>
+
<
?
<p>Hello</p>
<'p>
</p>
?
<..Hello..>
.
<
2 < 3
&...
^<
添加回答
舉報
0/150
提交
取消