亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用python如何得到此種編碼测试所對應的中文呢

使用python如何得到此種編碼测试所對應的中文呢

白豬掌柜的 2019-04-09 20:24:32
整理了以下幾種編碼:編碼1:测试編碼2:\u6d4b\u8bd5編碼3:测试編碼4:%e6%b5%8b%e8%af%95在編程過程中,經常會碰到很多的編碼格式的數據,現在自己對于N多的編碼格式還是一頭霧水。不知道大家是怎么準確識別各種編碼的呢?另外:使用python如何得到此種編碼测试所對應的中文呢?
查看完整描述

2 回答

?
慕森王

TA貢獻1777條經驗 獲得超3個贊

余興節目。
前三個都是Unicode原始值,最后一個是UTF-8。簡單的用Python說明一下:
>>>s=b'\xe6\xb5\x8b\xe8\xaf\x95'
>>>print(s.decode('utf-8'))
測試
>>>u=u'\u6d4b\u8bd5'
>>>print(u)
測試
每個Unicode字符的編碼只有一個,表示為一個或長或短的十六進制數。但把一串Unicode轉換成真正用于存儲和傳輸的字節序列,辦法很多。UTF-8就是使用最廣泛(絕大多數情況下也應該使用)的一種Unicode編碼方法。
至于格式的不同,只是用的地方不一樣,用不同的格式封一下。我記得編碼1和3是HTML實體,2是Python的Unicode字符表示法,4是URL中不能直寫字符的轉義表示法。
                            
查看完整回答
反對 回復 2019-04-09
?
暮色呼如

TA貢獻1853條經驗 獲得超9個贊

1和3是HTML實體,可以通過標準庫HTMLParser來解析:
#coding=utf8
importHTMLParser
parser=HTMLParser.HTMLParser()
s1=parser.unescape('测试')
prints1
#output:測試
s2=parser.unescape('测试')
prints2
#output:測試
2是unicode字面值,要想獲得真正的unicode,可以這樣做:
In[1]:u=unicode('\u6d4b\u8bd5','unicode_escape')
In[2]:u
Out[2]:u'\u6d4b\u8bd5'
In[3]:printu
測試
                            
查看完整回答
反對 回復 2019-04-09
  • 2 回答
  • 0 關注
  • 260 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號