import urllib2,reurl = '貼不了鏈接,請看圖片'html = urllib2.urlopen(url).read()regex = re.compile(r'g_page_config = (.*?)g_srp_loadCss',re.DOTALL).findall(html)print regex這段代碼采集不到內容,幫忙看下問題出在哪里
1 回答

泛舟湖上清波郎朗
TA貢獻1818條經驗 獲得超3個贊
淘寶的結果都在js里面異步加載,直接urlopen是得不到結果的,所以無法正則匹配內容,你可以把urlopen得到的html結果打印出來看看就知道了。
目前對于這種js異步加載的抓取,一般都會先用瀏覽器模擬加載完后再抓取,具體方法我也還沒開始研究。
追問
可以抓取到的,淘寶的結果就是一個json,這里的正則就是匹配json的,我的匹配不出來,我的正則太弱 <?php $file = file_Get_contents($url); preg_match("/g_page_config = (.*?)g_srp_loadCss/iUs",$file,$match); print_r($match[1]); ?> php完全可以匹配出來,然后解析json就行
追答
我的錯,試了下你圖片中的代碼,可以抓取到結果啊
添加回答
舉報
0/150
提交
取消