像百度蜘蛛那樣的程序,是怎么判斷抓取了重復頁面的呢?比如說一個登陸頁面,可能有N個頁面有這個鏈接,該怎么判斷呢? 一定要判斷的話“登錄”頁面的鏈接,勉強還算可以寫出個判斷語句來的,但要是再復雜的鏈接,又該怎么判斷呢??麻煩高手指點下?。。?! 查看完整描述