亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Python HTML 解析器(未命名級別)

Python HTML 解析器(未命名級別)

阿波羅的戰車 2023-08-08 17:37:25
我正在開發一個屏幕抓取工具,以從www.pro-football-reference.com中提取足球統計數據。我目前正在從主要玩家的統計數據頁面中進行抓取,然后深入到他們的個人頁面,其中包含按年份統計的數據。我能夠與我的第一批球員(四分衛,使用傳球臺)成功地實施這個過程。但是,當我嘗試重新創建進程以獲取運行數據時,我在數據框中收到了一個附加列,其值為“未命名:x_level_0”。這是我第一次使用 HTML 數據,所以我不確定我錯過了哪一部分,我只是假設它與四分衛的代碼相同。以下是 QB 代碼示例和正確的數據框:import requestsimport urllib.requestimport timefrom bs4 import BeautifulSoupimport pandas as pdfrom pandas import DataFrameimport lxmlimport reimport csvp = 1url = 'https://www.pro-football-reference.com'year = 2020maxp = 300#Passing Datar = requests.get(url+ '/years/' + str(year) + '/passing.htm')soup = BeautifulSoup(r.content, 'html.parser')parsed_table = soup.find_all('table')[0]results = soup.find(id='div_passing')job_elems = results.find_all('tr')df = []LastNameList = []FirstNameList = []for i,row in enumerate(parsed_table.find_all('tr')[2:]):        dat = row.find('td', attrs={'data-stat': 'player'})        if dat != None:            name = dat.a.get_text()            print(name)            stub = dat.a.get('href')                        #pos = row.find('td', attrs={'data-stat': 'fantasy_pos'}).get_text()            #print(pos)            # grab this players stats            tdf = pd.read_html(url + stub)[1]            for k,v in tdf.iterrows():                #Scrape 2020 stats, if no 2020 stats move on                try:                    FindYear=re.search(".*2020.*",v['Year'])                    if FindYear:                        #If Year for stats is current year append data to dataframe提取此數據的示例 URL 為: https: //www.pro-football-reference.com/players/J/JacoJo01.htm它正在拉動沖刺和接收。在解析 HTML 時,我還需要注意什么嗎?我嘗試將 index_col = 1 添加到我的 tdf = pd.read_html(url + Stub)[1] 中。然而,這只是將兩個值分組到一列中。對此的任何意見將不勝感激。如果我可以提供任何進一步的信息,請告訴我。
查看完整描述

目前暫無任何回答

  • 0 回答
  • 0 關注
  • 169 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號