使用正則表達式解析HTML:為什么不呢?使用正則表達式從HTML中獲取一些信息將不可避免地有一個“答案”,表示不使用正則表達式來解析HTML。為什么不?我知道那里有引用 - 不引用“真正的”HTML解析器,比如Beautiful Soup,我相信它們是強大而有用的,但是如果你只是做一些簡單,快速或骯臟的事情,那么為什么當一些正則表達式語句運行得很好時,麻煩使用如此復雜的東西?此外,是否有一些基本的東西,我不了解正則表達式,這使得它們一般是解析的錯誤選擇?
4 回答

有只小跳蛙
TA貢獻1824條經驗 獲得超8個贊
對于quick'n'dirty regexp會很好。但要知道的根本事情是,構建一個正確解析HTML 的正則表達式是不可能的。
原因是regexp無法處理任意嵌套表達式。請參閱可以使用正則表達式來匹配嵌套模式嗎?

湖上湖
TA貢獻2003條經驗 獲得超2個贊
兩個快速的原因:
編寫一個可以抵御惡意輸入的正則表達式很難; 比使用預建工具更難
寫一個可以使用你將不可避免地被困的荒謬標記的正則表達式很難; 比使用預建工具更難
關于正則表達式一般用于解析的適用性:它們不適合。您是否見過解析大多數語言所需的各種正則表達式?
- 4 回答
- 0 關注
- 1476 瀏覽
相關問題推薦
添加回答
舉報
0/150
提交
取消