什么是Xpath及其用法
2 回答

飲歌長嘯
TA貢獻1951條經驗 獲得超3個贊
在進行網頁抓取的時候,分析定位html節點是獲取抓取信息的關鍵,目前我用的是lxml模塊(用來分析XML文檔結構的,當然也能分析html結構), 利用其lxml.html的xpath對html進行分析,獲取抓取信息;以下是關于xpath的一些基本用法:
在介紹XPath的匹配規則之前,我們先來看一些有關XPath的基本概念。首先要說的是XPath數據類型。XPath可分為四種數據類型:
節點集(node-set)
節點集是通過路徑匹配返回的符合條件的一組節點的集合。其它類型的數據不能轉換為節點集。
布爾值(boolean)
由函數或布爾表達式返回的條件匹配值,與一般語言中的布爾值相同,有true和false兩個值。布爾值可以和數值類型、字符串類型相互轉換。
字符串(string)
字符串即包含一系列字符的集合,XPath中提供了一系列的字符串函數。字符串可與數值類型、布爾值類型的數據相互轉換。
數值(number)
在XPath中數值為浮點數,可以是雙精度64位浮點數。另外包括一些數值的特殊描述,如非數值NaN(Not-a-Number)、正無窮大 infinity、負無窮大-infinity、正負0等等。number的整數值可以通過函數取得,另外,數值也可以和布爾類型、字符串類型相互轉換。
- 2 回答
- 0 關注
- 827 瀏覽
添加回答
舉報
0/150
提交
取消