我有一個從中文網頁解析出來的字符串:若き葉末には風が立ち 森は翡翠の息を返す 雲の切れ間から注ぐ 光に君を見初めん碧き瞳のほほえむとき そは鐘のひびき胸に打つ さしのべた腕に絡む 蔦の葉に君を逃す殘る 香り 水面をかけゆく戀の舟 つかの間の波に 揺られやさしき幻影 心に映るその姿よ 永遠なる君に 想いを捧げん若き葉末には風は眠り 森は密やかに息を止む 抱きしめた腕のなかで 靜かに君は消えゆく月は 満ちて 黃金の羽根が舞いおちる 我はただひとり森に祈りたまえや我想將此字符串轉換為其適當的 unicode 格式。從我的研究中,我已經能夠收集到例如一映射到 unicode string b'\\u4e00'。這可以通過在字符串的開頭剝離&#x和添加前綴 a\\u以及將整個內容小寫并通過b在字符串前添加 a 轉換為字節串來手動完成。這是在這個repo 中完成的,但是通過代碼使用低效的 eval 函數,例如eval("b'\\u4e00").[編輯:上面的段落是不正確的。它不是字節串,而是 python2 中存在的 unicode 字符串。正確的映射是一-> u'\u4e00']有一個更好的方法嗎?
1 回答

慕村225694
TA貢獻1880條經驗 獲得超4個贊
看看html標準庫中的模塊:
>>> import html
>>> html.unescape('Je me levais tôt')
'Je me levais t?t'
>>> html.unescape('若き葉末には')
'若き葉末には'
結果是一個 Unicode 字符串(str在 Python 3 中輸入)。請注意,該b'...'符號用于字節字符串。b'\\u4e00'您示例中的文字沒有多大意義,因為它是一個包含 6 個字符(\、u、4、e、0、0)的字節字符串。您可能指的是'\u4e00'(或u'\u4e00'在 Python 2 中),它是一個單字符 Unicode 字符串。
添加回答
舉報
0/150
提交
取消