首頁猿問如何使用 goquery...

如何使用 goquery 提取自定義 html 標簽的文本？

LEATH 2022-04-26 14:34:41

我正在嘗試將文本提取為自定義 html 標記（<prelogin-cookie>）：someHtml := `<html><body>Login Successful!</body></html>`query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))sel:= query.Find("prelogin-cookie")println(sel.Text())但它不返回任何東西，只是一個空字符串，我怎樣才能得到那個 html 標簽的實際文本，又名4242424242424242？

查看完整描述

1 回答

蕭十郎

TA貢獻1815條經驗獲得超13個贊

<prelogin-cookie>找不到，因為它在 HTML 注釋中。

您的評論實際上是一系列 XML 或 HTML 標簽，如果您將其用作輸入文檔，它可能會被處理為 HTML。

警告。只有下面的第一個解決方案可以正確處理“所有”HTML 文檔。其他解決方案更簡單，也可以很好地處理您的情況，但它們可能無法處理某些極端情況。確定它們是否值得為您使用。

1.通過搜索HTML節點樹

查找和提取注釋的一種方法是遍歷 HTML 節點樹并查找類型為的節點html.CommentNode。

為此，我們將使用遞歸輔助函數來遍歷節點樹：

func findComment(n *html.Node) *html.Node {

if n == nil {

return nil

}

if n.Type == html.CommentNode {

return n

}

if res := findComment(n.FirstChild); res != nil {

return res

}

if res := findComment(n.NextSibling); res != nil {

return res

}

return nil

}

并使用它：

doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))

if err != nil {

panic(err)

}

var comment *html.Node

for _, node := range doc.Nodes {

if comment = findComment(node); comment != nil {

break

}

if comment == nil {

fmt.Println("no comment")

return

}

doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))

if err != nil {

panic(err)

}

sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

這將打?。ㄔ贕o Playground上嘗試）：

4242424242424242

2. 有strings

如果您只需要處理“手頭的文檔”，一個更簡單的解決方案可能是只使用strings包來查找評論的開始和結束索引：

start := strings.Index(someHtml, "<!--")

if start < 0 {

panic("no comment")

}

end := strings.Index(someHtml[start:], "-->")

if end < 0 {

panic("no comment")

}

并將其用作輸入：

doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))

if err != nil {

panic(err)

}

sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

這將輸出相同的內容。在Go Playground上試一試）。

3.使用regexp

先前解決方案的一個更簡單（但效率較低）的替代方案是使用正則表達式從原始文檔中獲取注釋：

comments := regexp.MustCompile(``).FindAllString(someHtml, -1)

if len(comments) == 0 {

fmt.Println("no comment")

return

}

doc, err := goquery.NewDocumentFromReader(strings.NewReader(

comments[0][4 : len(comments[0])-3]))

在Go Playground上試試這個。

反對回復 2022-04-26

1 回答
0 關注
256 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何使用 goquery 提取自定義 html 標簽的文本？

如何使用 goquery 提取自定義 html 標簽的文本？

1 回答

添加回答

如何使用 goquery 提取自定義 html 標簽的文本？

如何使用 goquery 提取自定義 html 標簽的文本？