html解析cricinfo記分卡目標我希望從Cricinfo網站上獲取 20/20板球記分卡數據,理想情況下將其轉換為CSV格式,以便在Excel中進行數據分析例如,目前的澳大利亞Big Bash 2011/12記分卡可以從游戲1:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524915.html上一場比賽:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524935.html背景我精通使用VBA(自動化IE或使用XMLHTTP然后使用正則表達式)從網站上抓取數據,即 從HTML TD和Tr中提取值在同一個問題中,發表了一條評論,建議使用html解析 - 我之前沒有遇到過 - 所以我看了一些問題,比如除了XHTML自包含標簽之外的RegEx匹配開放標簽詢問雖然我可以編寫一個正則表達式來解析下面的板球數據,但我想知道如何通過html解析有效地檢索這些結果。請記住,我的偏好是可重復的CSV格式,包含:比賽的日期/名稱第1組的名字輸出最多可以轉移到第1組的11條記錄(玩家沒有擊球的空白記錄,即“沒有擊球”)第2組的名字輸出最多可以轉移到第2組的11條記錄(玩家沒有擊球的空白記錄)Nirvana對我來說是一個可以使用VBA或VBscript部署的解決方案,所以我可以完全自動化我的分析,但我認為我將不得不使用一個單獨的工具來進行HTML解析。示例站點鏈接和要提取的數據
3 回答

斯蒂芬大帝
TA貢獻1827條經驗 獲得超8個贊
RegEx不是解析HTML的完整解決方案,因為它不能保證是常規的。
您應該使用HtmlAgilityPack來查詢HTML。這將允許您使用CSS選擇器查詢HTML,類似于使用jQuery執行此操作的方式。
- 3 回答
- 0 關注
- 967 瀏覽
相關問題推薦
添加回答
舉報
0/150
提交
取消