已解決430363個問題，去搜搜看，總會有你想問的

Python 'latin-1' 編解碼器無法編碼字符 - 如何忽略字符？

首頁猿問 Python...

Python 'latin-1' 編解碼器無法編碼字符 - 如何忽略字符？

Python

函數式編程 2021-11-09 20:33:22

這是我的代碼的要點。它試圖從舊網站獲取一些文本。這不是我的，所以我不能改變來源。from bs4 import BeautifulSoupimport requestsresponse = requests.get("https://mattgemmell.com/network-link-conditioner-in-lion/")data = response.textsoup = BeautifulSoup(data, 'lxml')article = soup.find_all('article')[0]text = article.find_all('p')[1].text print(text)給出了這個：“如果你——x80\x99 是使用網絡的 Mac 或 iOS 應用程序的開發人員，那么——x80\x99s Mac OS X 10.7 的開發人員工具中的一項新功能——x80\x9cLion——x80\x9d（閱讀我對它在衛報）這對你有用。這篇簡短的文章描述了它是如何工作的。我可以用它來轉換像 a\x80\x99 這樣的部分：converted_text = bytes(text, 'latin-1').decode('utf-8')實際上有效。但是如果你得到文本的不同部分：text = article.find_all('p')[8].text 給我：'\n← 在 Lion 上的文本中查找模式\n在 OS X Lion 上使用 Spaces →\n'使用bytes(text, 'latin-1')給了我：'latin-1' 編解碼器無法在位置 1 中對字符 '\u2190' 進行編碼：序號不在范圍內 (256)我猜是箭頭？我怎樣才能讓它自動忽略和丟棄所有非拉丁字符。任何想法都會最有幫助！

查看完整描述

2 回答

慕桂英546537

TA貢獻1848條經驗獲得超10個贊

您不想忽略這些字符。它們表示您收到的數據已使用錯誤的字符編碼進行解碼。在您的情況下requests，錯誤地猜測編碼是latin-1. 真正的編碼是在 HTML 響應utf-8的<meta>標簽中指定的。requests是一個用于處理 HTTP 的庫，它不了解 HTML。由于Content-Type標頭未指定編碼，因此requests只能猜測編碼。BeautifulSoup但是，它是一個用于處理 HTML 的庫，它非常擅長檢測編碼。因此，您希望從響應中獲取原始字節并將其傳遞給BeautifulSoup. IE。

from bs4 import BeautifulSoup

import requests

response = requests.get("https://mattgemmell.com/network-link-conditioner-in-lion/")

data = response.content # we now get `content` rather than `text`

assert type(data) is bytes

soup = BeautifulSoup(data, 'lxml')

article = soup.find_all('article')[0]

text = article.find_all('p')[1].text

print(text)

assert type(text) is str

assert 'Mac OS X 10.7 “Lion”' in text

反對回復 2021-11-09

qq_笑_17

TA貢獻1818條經驗獲得超7個贊

使用第三個參數來bytes告訴它如何處理錯誤：

converted_text = bytes(text, 'latin-1', 'ignore')

^^^^^^

你會丟失箭頭，但其他一切都完好無損：

>>> text = '\n← Find Patterns in text on Lion\nUsing Spaces on OS X Lion →\n'

>>> converted_text = bytes(text, 'latin-1', 'ignore')

>>> converted_text

'\n Find Patterns in text on Lion\nUsing Spaces on OS X Lion \n'

以下是有關文檔中參數的更多信息 - https://docs.python.org/3.3/howto/unicode.html：

errors 參數指定無法根據編碼規則轉換輸入字符串時的響應。此參數的合法值為“strict”（引發 UnicodeDecodeError 異常）、“replace”（使用 U+FFFD、REPLACEMENT CHARACTER）或“ignore”（僅將字符排除在 Unicode 結果之外）。

反對回復 2021-11-09

2 回答
0 關注
532 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python 'latin-1' 編解碼器無法編碼字符 - 如何忽略字符？

Python 'latin-1' 編解碼器無法編碼字符 - 如何忽略字符？

2 回答

添加回答

Python 'latin-1' 編解碼器無法編碼字符 - 如何忽略字符？