亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

HTML抓取選項?

HTML抓取選項?

慕碼人2483693 2019-06-23 15:02:04
HTML抓取選項?我在考慮嘗試美湯,一個用于HTML抓取的Python包。還有其他HTML抓取包我應該看看嗎?Python不是必需的,我也對其他語言感興趣。到目前為止的故事:Python美湯lxmlHTQL刮痕機械化紅寶石諾科吉里杏子機械化ScrAPI斯克魯比!袋熊瓦蒂爾.netHTML敏捷包瓦廷Perlwww:機械化刮網機爪哇標簽湯HtmlUnit網絡收獲jARVEST湯汁Jericho HTML解析器JavaScript請求拜拜阿爾托節騎兵幻影PHP古特htmlSQLPHP簡單HTML DOM解析器PHP卷曲抓取斯卡萊特他們中的大多數刮板機
查看完整描述

3 回答

?
動漫人物

TA貢獻1815條經驗 獲得超10個贊

紅寶石世界相當于美麗的湯是為什么_幸運_剛性的杏子.


查看完整回答
反對 回復 2019-06-23
?
開心每一天1111

TA貢獻1836條經驗 獲得超13個贊

BeautifulSoup是HTML抓取的好方法。我以前的工作讓我干了很多苦差事,我希望在我開始工作的時候,我就知道“美麗湯”的事了。它就像DOM,有很多有用的選項,而且更多的是pythonic。如果你想嘗試Ruby,他們會移植BeautifulSoup,稱之為RubyfulSoup,但它已經有一段時間沒有更新了。

其他有用的工具是HTMLParser或sgmllib.SGMLParser,它們是標準Python庫的一部分。每次您輸入/退出標記并遇到html文本時,都會調用方法來完成這些工作。如果你熟悉的話他們就像Expat。如果要解析非常大的文件,并且創建DOM樹需要花費很長時間,那么這些庫尤其有用。

正則表達式并不是非常必要的。BeautifulSoup處理正則表達式,因此如果您需要它們的功能,您可以在那里使用它。我說去吧,除非你需要速度和更小的內存足跡。如果您在Python上找到了更好的HTML解析器,請告訴我。


查看完整回答
反對 回復 2019-06-23
  • 3 回答
  • 0 關注
  • 697 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號