我有以下代碼,我正在嘗試抓取一個網站 - 但只有子頁面(或相關鏈接)。我不想抓取導致外部網站的鏈接。我正在使用 Java 和 jsoup。public void scrape(String url) { String docUrl = url; try { Document document = Jsoup.connect(docUrl).get(); Elements foundUrls = document.select("a[href]"); System.out.printf("Found %d links. %n", foundUrls.size()); for (Element foundUrl : foundUrls) { String nextUrl = foundUrl.attr("href"); if (visitedLinks.contains(nextUrl)) { System.out.println("Link already visited. Skipping URL."); } else { System.out.println("Scraping: "+ nextUrl); visitedLinks.add(nextUrl); scrape(nextUrl); } } } catch (Exception ex) { System.out.printf("Could not read %s.%n", url); }}有人能告訴我如何只抓取頁面的子頁面 - 所以沒有外部鏈接嗎?
JSOUP 僅抓取子頁面/無外部鏈接
慕的地6264312
2021-09-29 13:48:45
