亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

我的圖片抓取后每張圖片都有兩張是怎么回事?。縰rlist里面也是重復的

https://img1.sycdn.imooc.com//5b45a64a0001d20b09860555.jpg

['img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg'?'img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg']

正在回答

3 回答

#listurl = re.findall(r'//img.+?\.jpg', buf)? ? ? 這樣的貪婪模式下會下載兩次一樣的圖片,改成下方那種

listurl = re.findall(r'src=".+?\.jpg', buf)?


#前面沒有了http:,手動加上

for index,app_id in enumerate(listurl):

? ? listurl[index] = str(app_id).replace('src="', 'http:')

? ? print(index, listurl[index])

? ? print(listurl)


0 回復 有任何疑惑可以回復我~
#1

qq_慕的地9559444

+?不是懶惰匹配么,只匹配1次
2018-12-17 回復 有任何疑惑可以回復我~

https://img1.sycdn.imooc.com//5b5d1e140001dba704810072.jpg從你的正則表達式可以看出你可以將data_original和src里邊的都可以匹配到,而這兩個是一樣的,所以你就會重復

0 回復 有任何疑惑可以回復我~

可能就是你爬取到的網站本來就有兩個重復的圖片地址鏈接,你可以使用去重的方法set()或者使用一個判斷,判斷是否已經存在,若不存在就將他添加到一個列表中。

0 回復 有任何疑惑可以回復我~

舉報

0/150
提交
取消

我的圖片抓取后每張圖片都有兩張是怎么回事?。縰rlist里面也是重復的

我要回答 關注問題
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號