我需要在標準 WinForms 文本框中迭代可能的 Unicode。例如,一個包含這個詞的文件:“likable”在十六進制查看器(如 XVI32)中查看時:但是,當它在文本框中時,我嘗試一次訪問一個字節,而不是第一個字節是 0xE2,我得到 0x1C。由于文本框支持各種編碼,我也想這樣做,但這似乎不起作用。對于初學者,我想創建一個 byte[] 數組,將這些字節存儲到該數組中并將它們寫出來(然后從那里繼續)。如果可能的話,我希望代碼與編碼無關。我想到了。" 符號是 0x201C,這說明了一切。謝謝!
1 回答

飲歌長嘯
TA貢獻1951條經驗 獲得超3個贊
您正在正確訪問字符串的字節,您不能忽略使用字符串進行編碼。
您的示例文件以 UTF-8 編碼,因此“是 3 個字節0xE2 0x80 0x9C
。您的字符串TextBox
將是一個以 UTF-16 編碼的System.String,因此“用作 16 位字” 0x201C
。在 x86 上,單詞以little endian存儲,因此它將以0x1C 0x20
. 這正是您所看到的。
從TextBox
(或任何字符串)中的字符串讀取字節時,在 .Net 中將始終為 UTF-16。從磁盤讀取文件(或從剪貼板復制文件)時,.Net 會將 UTF-8 字節轉換為 UTF-16 System.String
。
如果要將 a 的字節System.String
作為 UTF-8 字節訪問,請使用System.Text.Encoding.UTF8.GetBytes()
.
- 1 回答
- 0 關注
- 213 瀏覽
添加回答
舉報
0/150
提交
取消