i = 0
for line in url_list:
i += 1
with open(str(i)+".jpg","wb") as f:
try:
re = urllib.request.urlopen('https:'+line)
buf = re.read()
f.write(buf)
except urllib.request.URLError as e:
print(e.reason)
for line in url_list:
i += 1
with open(str(i)+".jpg","wb") as f:
try:
re = urllib.request.urlopen('https:'+line)
buf = re.read()
f.write(buf)
except urllib.request.URLError as e:
print(e.reason)
2017-06-08
剛爬了淘女郎第一頁,很是激動:
url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
content = urllib.request.urlopen(url) .read().decode('gbk')
url_buf = re.findall(r'"//.*?"',C_html)
url_list = [re.search(r'//.*?\.(jpg|png)',line).group() for line in url_buf]
url = 'https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8'
content = urllib.request.urlopen(url) .read().decode('gbk')
url_buf = re.findall(r'"//.*?"',C_html)
url_list = [re.search(r'//.*?\.(jpg|png)',line).group() for line in url_buf]
2017-06-08
聽到第二課就放棄了。??谝?邏輯 IDE都是硬傷= =
本來好激動,因為網上更多的是java的正則表達式,看到這個非常激動,以為有個系統的課程可以學python的正則表達式。。沒想到是這個結果
還是聽java的然后再在實驗中找差別,慢慢積累吧
大家加油
本來好激動,因為網上更多的是java的正則表達式,看到這個非常激動,以為有個系統的課程可以學python的正則表達式。。沒想到是這個結果
還是聽java的然后再在實驗中找差別,慢慢積累吧
大家加油
2017-05-22
最贊回答 / Sprint_RS
爬數據需要分析網頁源碼,你可以看看京東的圖片到底是以什么形式寫在網頁里的,我敢肯定必然不是"http://.+\.jpg"這種形式。不一定是"http"打頭,不一定是jpg格式,可能由js生成,各種情況都存在,你用這種方法抓不到圖片很正常
2017-05-14