我知道以前有人問過類似的問題,但到目前為止我無法解決我的問題,所以提前道歉。我有一個帶有文本的 json 文件('test.json')。文本顯示如下:"... >>\r\n>> This is a test.>\r\n> \r\n-- \r\nMit freundlichen Grüssen\r\n\r\nMike Klence ..."整體輸出應該是純文本:"... This is a test. Mit freundlichen Grüssen Mike Klence ..."使用 beautifulsoup,我必須刪除那些 html 標簽。但是那些 >、\r、\n- - 仍然保留在文本中。所以我嘗試了以下代碼:import codecsfrom bs4 import BeautifulSoupwith codecs.open('test.json', encoding = 'utf-8') as f: soup = BeautifulSoup(f, 'lxml') invalid_tags = ['\r', '\n', '<', '>'] for tag in invalid_tags: for match in soup.find_all(tag): match.replace_with()print(soup.get_text())但它對文件中的文本沒有任何作用。我嘗試了不同的變化,但似乎沒有任何改變。我怎樣才能讓我的代碼正常工作?或者,如果有另一種更簡單或更快的方法,我也會很感激閱讀這些方法。順便說一句,我在 anaconda 上使用 python 3.6。
從json文件中的字符串中刪除標簽(\r、\n、<、>)
慕尼黑5688855
2021-09-02 14:53:53
