美麗湯抓取可見網頁文本基本上,我想用美麗的湯嚴格地抓住可見文本在網頁上。例如,本網頁是我的測試用例。我主要想要的是正文(文章),甚至還有幾個標簽名。我已經嘗試過這方面的建議了。所以問題返回大量的<script>標簽和html注釋,我不想要。我不知道函數需要什么參數findAll()為了在網頁上看到可見的文本。那么,我應該如何找到所有可見的文本,不包括腳本,評論,CSS等?
3 回答

qq_遁去的一_1
TA貢獻1725條經驗 獲得超8個贊
html = open('21storm.html').read()soup = BeautifulSoup(html)[s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])] visible_text = soup.getText()
添加回答
舉報
0/150
提交
取消