需要抓取的是博客標題,博客時間,博客作者等等內容。這個正則該怎么寫?博客搜索頁面里有很多條新聞,難道針對標題寫一個,博客時間寫一個,作者等等其他的各寫一個正則么?然后把抓取到的東西分別放到各個數組。這樣怎么把抓取到的各個相對應上,如果某條博客沒有寫發布時間,這樣標題的數組長度和博客時間的長度不就不一樣長了么,這就跑偏了,現在就是怎么能把一條的內容給提取出來。不跑偏,就是如果網頁里有19條博客列表,就算有一條沒有發布時間,也能完整的把這19條博客所要提取的東西提取出來。哪位大牛能給個思路。我正則剛入門,我想這個問題應該是正則能解決的。只是自己沒想到。公司讓做一個多論壇抓取的工具,還牽扯到多線程。。唉。。都生的很。誰有過類似的小項目,學習學習。。
- 1 回答
- 0 關注
- 563 瀏覽
添加回答
舉報
0/150
提交
取消
