亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

美麗湯抓取可見網頁文本

美麗湯抓取可見網頁文本

HUWWW 2019-07-15 10:02:06
美麗湯抓取可見網頁文本基本上,我想用美麗的湯嚴格地抓住可見文本在網頁上。例如,本網頁是我的測試用例。我主要想要的是正文(文章),甚至還有幾個標簽名。我已經嘗試過這方面的建議了。所以問題返回大量的<script>標簽和html注釋,我不想要。我不知道函數需要什么參數findAll()為了在網頁上看到可見的文本。那么,我應該如何找到所有可見的文本,不包括腳本,評論,CSS等?
查看完整描述

3 回答

?
qq_遁去的一_1

TA貢獻1725條經驗 獲得超8個贊

批準的答案對我不起作用。str()函數調用引發異常,因為它不能對BeautifulSoup元素中的非ascii字符進行編碼。下面是一種將示例網頁過濾為可見文本的更簡潔的方法。

html = open('21storm.html').read()soup = BeautifulSoup(html)[s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])]
visible_text = soup.getText()


查看完整回答
反對 回復 2019-07-15
  • 3 回答
  • 0 關注
  • 585 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號