通過urllib將網頁內容抓取下來,然后用正則表達式re模塊將標題匹配出來,但是發現部分標題會出現問題,比如下面抓Apple的代碼運行結果是App,測試發現匹配結果m是沒有問題的,問題出現在了strip()這里。#-*-coding:utf-8-*-importurllibimportreurl='http://apple.com'html=urllib.urlopen(url).read()#printhtmlm=re.search(".*",html)printm.group()#這里輸出結果Appleprintm.group().strip("")#問題應該出現在這個正則
python如何正確抓取網頁標題
LEATH
2019-04-23 15:17:57