已解決430363個問題，去搜搜看，總會有你想問的

JSOUP 僅抓取子頁面/無外部鏈接

首頁猿問 JSOUP 僅抓取子頁面/無外部鏈接

JSOUP 僅抓取子頁面/無外部鏈接

Java

慕的地6264312 2021-09-29 13:48:45

我有以下代碼，我正在嘗試抓取一個網站 - 但只有子頁面（或相關鏈接）。我不想抓取導致外部網站的鏈接。我正在使用 Java 和 jsoup。public void scrape(String url) { String docUrl = url; try { Document document = Jsoup.connect(docUrl).get(); Elements foundUrls = document.select("a[href]"); System.out.printf("Found %d links. %n", foundUrls.size()); for (Element foundUrl : foundUrls) { String nextUrl = foundUrl.attr("href"); if (visitedLinks.contains(nextUrl)) { System.out.println("Link already visited. Skipping URL."); } else { System.out.println("Scraping: "+ nextUrl); visitedLinks.add(nextUrl); scrape(nextUrl); } } } catch (Exception ex) { System.out.printf("Could not read %s.%n", url); }}有人能告訴我如何只抓取頁面的子頁面 - 所以沒有外部鏈接嗎？

查看完整描述

1 回答

楊__羊羊

TA貢獻1943條經驗獲得超7個贊

您需要修改代碼，以便檢查不僅要查看在抓取之前是否已訪問該鏈接，還要查看該鏈接是否為站內鏈接。所以if語句應該改為：

if (visitedLinks.contains(nextUrl) || !isInSiteLink(nextUrl) {

// don't scrape

} else {

// your scraping method here

}

然后你必須實現該方法。它可能看起來像

boolean isInSiteLink(String url) {

return (url.starts with(baseUrl) || url.startsWith("/") || url.starts with("./") || url.starts with("../"));

}

baseUrl站點的基本 URL在哪里。

反對回復 2021-09-29

1 回答
0 關注
190 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

JSOUP 僅抓取子頁面/無外部鏈接

JSOUP 僅抓取子頁面/無外部鏈接

1 回答

添加回答