已解決430363個問題，去搜搜看，總會有你想問的

抓取兩種類型的 URL

首頁猿問抓取兩種類型的 URL

抓取兩種類型的 URL

Python

收到一只叮咚 2021-08-11 19:41:19

在此頁面中，在“依賴項”列表下有兩種類型的 url。其中一個來自官方軟件包站點（“ https://archlinux.org/packages/ ”），另一個來自用戶軟件包網站（“ https://aur.archlinux.org/packages/ ”）。我想將它們提取為一個單獨的列表。根據這個 BeautifulSoup 的文檔，到目前為止我想出了這樣的東西：sauce = urllib.request.urlopen("https://aur.archlinux.org/packages/blockify/").read()soup = bs.BeautifulSoup(sauce, 'lxml')official_dependencies = []aur_dependencies = []for h3 in soup.find_all('h3'): if "Dependencies" in h3.text: for url in h3.find_all_next('a', attrs={'href': re.compile("^https://www.archlinux.org/packages/")}): official_dependencies.append(url.get('href'))這對我的第一個目標很有效。但我不確定我應該如何提取黃色葡萄球菌的依賴，因為他們href是一樣的東西/packages/package_name/，而不是https://aur.archlinux.org/packages/package_name/。而且，在官方包名稱旁邊的括號中還寫了一些 aur 依賴項。例如，alsa-utils (alsa-utils-transparent)。我想避免刮掉那些替代的 aur 包。我對 bs4 比較陌生，不知道正則表達式，所以我對如何解決這個問題有點困惑。如果有人能告訴我解決這個問題的方法，我會很高興。謝謝

查看完整描述

1 回答

1 回答
0 關注
109 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

抓取兩種類型的 URL

抓取兩種類型的 URL

1 回答

添加回答