1 回答

TA貢獻1815條經驗 獲得超13個贊
<prelogin-cookie>找不到,因為它在 HTML 注釋中。
您的評論實際上是一系列 XML 或 HTML 標簽,如果您將其用作輸入文檔,它可能會被處理為 HTML。
警告。只有下面的第一個解決方案可以正確處理“所有”HTML 文檔。其他解決方案更簡單,也可以很好地處理您的情況,但它們可能無法處理某些極端情況。確定它們是否值得為您使用。
1.通過搜索HTML節點樹
查找和提取注釋的一種方法是遍歷 HTML 節點樹并查找類型為 的節點html.CommentNode。
為此,我們將使用遞歸輔助函數來遍歷節點樹:
func findComment(n *html.Node) *html.Node {
if n == nil {
return nil
}
if n.Type == html.CommentNode {
return n
}
if res := findComment(n.FirstChild); res != nil {
return res
}
if res := findComment(n.NextSibling); res != nil {
return res
}
return nil
}
并使用它:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))
if err != nil {
panic(err)
}
var comment *html.Node
for _, node := range doc.Nodes {
if comment = findComment(node); comment != nil {
break
}
}
if comment == nil {
fmt.Println("no comment")
return
}
doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
這將打?。ㄔ贕o Playground上嘗試):
4242424242424242
2. 有strings
如果您只需要處理“手頭的文檔”,一個更簡單的解決方案可能是只使用strings包來查找評論的開始和結束索引:
start := strings.Index(someHtml, "<!--")
if start < 0 {
panic("no comment")
}
end := strings.Index(someHtml[start:], "-->")
if end < 0 {
panic("no comment")
}
并將其用作輸入:
doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))
if err != nil {
panic(err)
}
sel := doc.Find("prelogin-cookie")
fmt.Println(sel.Text())
這將輸出相同的內容。在Go Playground上試一試)。
3.使用regexp
先前解決方案的一個更簡單(但效率較低)的替代方案是使用正則表達式從原始文檔中獲取注釋:
comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)
if len(comments) == 0 {
fmt.Println("no comment")
return
}
doc, err := goquery.NewDocumentFromReader(strings.NewReader(
comments[0][4 : len(comments[0])-3]))
在Go Playground上試試這個。
- 1 回答
- 0 關注
- 256 瀏覽
添加回答
舉報