如果選擇器是 div.aaron input[name=ttt],div p
,之前通過詞法解析出來的的七類型:
TAG、>、TAG、CLASS、"空格"、"TAG"、ATTR
如下面的結構所示:
type: "TAG" value: "div" matches .... type: ">" value: " > " type: "TAG" value: "p" matches ....
除去關系選擇器,其余的有語意的標簽都對應這分析出matches。
tokenize最后一個屬性選擇器分支單元結構。
"[input[name=ttt]]" matches = [ 0: "type" 1: "=" 2: "ttt" ] type: "ATTR" value: [name=ttt]"
那么我們從右到左邊開始匹配最終合集單元。
從左邊開始很明顯是屬性選擇器:
input[name=ttt]
但是這個東東原生的API是不認識的,所以我們只能再往前找input的合集:
type: "TAG" value: "input"
這種標簽Expr.find能匹配到了,所以直接調用:
Expr.find["TAG"] = support.getElementsByTagName ? function(tag, context) { if (typeof context.getElementsByTagName !== strundefined) { return context.getElementsByTagName(tag); } } :
但是getElementsByTagName方法返回的是一個合集。
這里引入了seed - 種子合集(搜索器搜到符合條件的標簽),放入到這個初始集合seed中。這種我們找到了最終的一個合集,那么我們需要的就是根據剩余的條件篩選出真正的選擇器就OK了,這里暫停了,不再往下匹配了,如果再用這樣的方式往下匹配效率就慢了。
開始整理
重組一下選擇器,剔掉已經在用于處理的tag標簽,input,所以選擇器變成了:
selector:"div > div.aaron [name=ttt]"
這里可以優化下,如果直接剔除后,為空了,就證明滿足了匹配要求,直接返回結果了。
到這一步為止,我們能夠使用的東東:
1、seed合集
2、通過tokenize分析解析規則組成match合集,本來是7個規則快,因為匹配input,所以要對應的也要踢掉一個所以就是6個了。
3、選擇器語句,對應的踢掉了input。
selector:"div > div.aaron [name=ttt]"
此時send目標合集有2個最終元素了,那么如何用最簡單,最有效率的方式從2個條件中找到目標呢?
這個問題后面小節將給你們揭曉。
請驗證,完成請求
由于請求次數過多,請先驗證,完成再次請求
打開微信掃碼自動綁定
綁定后可得到
使用 Ctrl+D 可將課程添加到書簽
舉報