講師回答 / Peter
后面加/user/login是因為這個地址是登錄的地址,我們發送登錄請求是發送到這個地址的。POST數據只能通過讀取網頁中附帶的JS代碼得到,因為已經超出本課程的范圍,所以沒有展開。
2014-08-09
講師回答 / Peter
一次只能下載一個文件,但是可以通過代碼的方式下載一整個目錄,帶上發送下載指令還是一個文件一個文件下的。比如,我們知道有一個目錄,里面有N個文件,那么用PHP可以寫一個循環把這N個文件下載下來。
2014-08-09
講師回答 / Peter
您指的是哪些數據呢?只要下載下來的網頁看到了必須登錄才能看到的數據,那么可以肯定登錄下載都是正確的。如果有一些數據沒有下載到,可以看看是什么數據。實質上我們下載的是html的代碼,但是如果有一些數據是通過JS動態載入的,那么curl對于這些動態載入的資源是無法下載到的。
2014-08-09
已采納回答 / Peter
爬蟲的的目的就在于可以通過一定的方式把目標網站里面的數據都抓取下來,然后想怎么用都行。
對于一個網站來說,很多數據是有數據權限控制的,也就是需要登錄或者甚至授權的方式才能夠訪問到這些敏感數據。因此,從外部(也就是我們的爬蟲程序)來說,最直接的方式就是模擬已經有權限的用戶去登錄系統,然后訪問這些敏感數。
我們常說,人的安全是最難控制的,家賊難防這個道理也是一樣的。我們的爬蟲就假裝是一個正常的用戶去訪問網站,然后順便把所有感興趣的數據都抓取下來。這就是爬蟲的核心思想。
當然,也可以沒有賬號密碼,你把自己修煉稱...
2014-07-22