亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何使用 goquery 提取自定義 html 標簽的文本?

如何使用 goquery 提取自定義 html 標簽的文本?

Go
LEATH 2022-04-26 14:34:41
我正在嘗試將文本提取為自定義 html 標記(<prelogin-cookie>):someHtml := `<html><body>Login Successful!</body><!-- <saml-auth-status>1</saml-auth-status><prelogin-cookie>4242424242424242</prelogin-cookie><saml-username>my-username</saml-username><saml-slo>no</saml-slo> --></html>`query, _ := goquery.NewDocumentFromReader(strings.NewReader(someHtml))sel:= query.Find("prelogin-cookie")println(sel.Text())但它不返回任何東西,只是一個空字符串,我怎樣才能得到那個 html 標簽的實際文本,又名4242424242424242?
查看完整描述

1 回答

?
蕭十郎

TA貢獻1815條經驗 獲得超13個贊

<prelogin-cookie>找不到,因為它在 HTML 注釋中。


您的評論實際上是一系列 XML 或 HTML 標簽,如果您將其用作輸入文檔,它可能會被處理為 HTML。


警告。只有下面的第一個解決方案可以正確處理“所有”HTML 文檔。其他解決方案更簡單,也可以很好地處理您的情況,但它們可能無法處理某些極端情況。確定它們是否值得為您使用。


1.通過搜索HTML節點樹

查找和提取注釋的一種方法是遍歷 HTML 節點樹并查找類型為 的節點html.CommentNode。


為此,我們將使用遞歸輔助函數來遍歷節點樹:


func findComment(n *html.Node) *html.Node {

    if n == nil {

        return nil

    }

    if n.Type == html.CommentNode {

        return n

    }

    if res := findComment(n.FirstChild); res != nil {

        return res

    }

    if res := findComment(n.NextSibling); res != nil {

        return res

    }

    return nil

}

并使用它:


doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml))

if err != nil {

    panic(err)

}


var comment *html.Node

for _, node := range doc.Nodes {

    if comment = findComment(node); comment != nil {

        break

    }

}

if comment == nil {

    fmt.Println("no comment")

    return

}


doc, err = goquery.NewDocumentFromReader(strings.NewReader(comment.Data))

if err != nil {

    panic(err)

}


sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

這將打?。ㄔ贕o Playground上嘗試):


4242424242424242

2. 有strings

如果您只需要處理“手頭的文檔”,一個更簡單的解決方案可能是只使用strings包來查找評論的開始和結束索引:


start := strings.Index(someHtml, "<!--")

if start < 0 {

    panic("no comment")

}

end := strings.Index(someHtml[start:], "-->")

if end < 0 {

    panic("no comment")

}

并將其用作輸入:


doc, err := goquery.NewDocumentFromReader(strings.NewReader(someHtml[start+4 : end]))

if err != nil {

    panic(err)

}


sel := doc.Find("prelogin-cookie")

fmt.Println(sel.Text())

這將輸出相同的內容。在Go Playground上試一試)。


3.使用regexp

先前解決方案的一個更簡單(但效率較低)的替代方案是使用正則表達式從原始文檔中獲取注釋:


comments := regexp.MustCompile(`<!--(.*?)-->`).FindAllString(someHtml, -1)

if len(comments) == 0 {

    fmt.Println("no comment")

    return

}


doc, err := goquery.NewDocumentFromReader(strings.NewReader(

    comments[0][4 : len(comments[0])-3]))

在Go Playground上試試這個。


查看完整回答
反對 回復 2022-04-26
  • 1 回答
  • 0 關注
  • 256 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號