我需要從這個網站上刮下唯一的桌子:https ://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu我用了漂亮的湯和請求,但沒有成功。你們能建議我哪里出錯了嗎?mandal_url = "https://core.ap.gov.in/CMDashBoard/UserInterface/eAgriculture/eAgricultureVillagewise.aspx?mandal=Agali&district=Anantapuramu"r = requests.get(mandal_url, verify=False).contentsoup = bs4.BeautifulSoup(r, 'lxml')df = pd.read_html(str(soup.find('table',{"id":"gvAgricultureVillage"})))我在數據框中看到“找不到頁面”。我不知道我哪里錯了!
3 回答
眼眸繁星
TA貢獻1873條經驗 獲得超9個贊
嘗試單擊您嘗試從無效鏈接中抓取的鏈接。當我單擊您提供的鏈接或您存儲的鏈接時mandal_url,都返回“找不到頁面”頁面。因此,您以正確的方式進行抓取,但是您提供給抓取工具的 url無效/不再可用。
ABOUTYOU
TA貢獻1812條經驗 獲得超5個贊
我無法訪問該網站。但是您可以通過以下方式直接閱讀網頁上的表格:
dfs = pd.read_html(your_url, header=0)
如果 url 需要身份驗證,您可以通過以下方式獲取表單:
r = requests.get(url_need_authentivation, auth=('myuser', 'mypasswd'))
pd.read_html(r.text, header=0)[1]這將簡化您的代碼。希望能幫助到你!
添加回答
舉報
0/150
提交
取消

