import urllib2
url='http://www.baidu.com/s?wd=cloga'content=urllib2.urlopen(url).read()import re
urls_pat=re.compile(r'<span class="g">(.*?)</span>')
siteUrls=re.findall(results_pat,content)
strip_tag_pat=re.compile(r'<.*?>')
file=open('results000.csv','w')for i in results:
i0=re.sub(strip_tag_pat,'',i)
i0=i0.strip()
i1=i0.split(' ')
date=i1[-1]
siteUrl=''.join(i1[:-1])
rank+=1
file.write(date+','+siteUrl+','+str(rank)+'\n')
file.close()
1 回答

LEATH
TA貢獻1936條經驗 獲得超7個贊
顯而易見,該代碼是無法正常運行的。第一個問題是第六行中results_pat應該改成urls_pat;第二個問題,第九行results更改為siteUrls;第三個問題,第九行前加入rank = 0
;
其實該代碼的目的是提取出指定百度搜索頁面的所有鏈接以及日期,至于rank,我的猜測是順序,不知是否正確。
添加回答
舉報
0/150
提交
取消