已解決430363個問題，去搜搜看，總會有你想問的

在 Python 中將十六進制 NCR 文本表示轉換為 Unicode

首頁猿問在 Python 中將十六進制...

在 Python 中將十六進制 NCR 文本表示轉換為 Unicode

Python

Helenr 2021-11-09 15:14:53

我有一個從中文網頁解析出來的字符串：若き葉末には風が立ち森は翡翠の息を返す雲の切れ間から注ぐ光に君を見初めん碧き瞳のほほえむときそは鐘のひびき胸に打つさしのべた腕に絡む蔦の葉に君を逃す殘る　香り水面をかけゆく戀の舟つかの間の波に　揺られやさしき幻影　心に映るその姿よ永遠なる君に　想いを捧げん若き葉末には風は眠り森は密やかに息を止む抱きしめた腕のなかで靜かに君は消えゆく月は　満ちて黃金の羽根が舞いおちる我はただひとり森に祈りたまえや我想將此字符串轉換為其適當的 unicode 格式。從我的研究中，我已經能夠收集到例如一映射到 unicode string b'\\u4e00'。這可以通過在字符串的開頭剝離&#x和添加前綴 a\\u以及將整個內容小寫并通過b在字符串前添加 a 轉換為字節串來手動完成。這是在這個repo 中完成的，但是通過代碼使用低效的 eval 函數，例如eval("b'\\u4e00").[編輯：上面的段落是不正確的。它不是字節串，而是 python2 中存在的 unicode 字符串。正確的映射是一-> u'\u4e00']有一個更好的方法嗎？

查看完整描述

1 回答

慕村225694

TA貢獻1880條經驗獲得超4個贊

看看html標準庫中的模塊：

>>> import html

>>> html.unescape('Je me levais tôt')

'Je me levais t?t'

>>> html.unescape('若き葉末には')

'若き葉末には'

結果是一個 Unicode 字符串（str在 Python 3 中輸入）。請注意，該b'...'符號用于字節字符串。b'\\u4e00'您示例中的文字沒有多大意義，因為它是一個包含 6 個字符（\、u、4、e、0、0）的字節字符串。您可能指的是'\u4e00'（或u'\u4e00'在 Python 2 中），它是一個單字符 Unicode 字符串。

反對回復 2021-11-09

1 回答
0 關注
381 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

在 Python 中將十六進制 NCR 文本表示轉換為 Unicode

在 Python 中將十六進制 NCR 文本表示轉換為 Unicode

1 回答

添加回答