1 回答

TA貢獻1852條經驗 獲得超7個贊
正如評論中已經提到的, 組合字符、修改符文和其他多符文 “字符” 可能會造成困難。
任何對 Go 中的 Unicode 處理感興趣的人都應該閱讀 Go 博客文章“ Go 中的 字符串、字節、符文和字符” 和“Go 中的文本規范化”。特別是,后者討論了golang.org/x/text/unicode/norm
可以幫助處理其中一些問題的包。
您可以考慮從字符串中吐出第一個(或最后一個)“n 個字符”的幾個級別越來越準確(或越來越多的 Unicode 感知)。
只需使用 n 個字節。這可能會在符文的中間分裂,但它是 O(1),非常簡單,并且在許多情況下,您知道輸入僅由單字節符文組成。例如
str[:n]
。在 n 個符文后分裂。這可能會在字符的中間分裂。這可以輕松完成,但代價是僅使用
string([]rune(str)[:n])
. 您可以通過使用unicode/utf8
包的DecodeRuneInString
(andDecodeLastRuneInString
) 函數依次獲取前 n 個符文中的每個符文的長度,然后返回str[:sum]
(O(n),無分配)來避免轉換和復制。在第 n 個“邊界”之后拆分。一種方法是
norm.NFC.FirstBoundaryInString(str)
重復使用 或norm.Iter
找到要拆分的字節位置,然后返回str[:pos]
。
考慮顯示的字符串“cafés”,它可以在 Go 代碼中表示為:“cafés”、“caf\u00E9s”或“caf\xc3\xa9s”,它們都產生相同的六個字節?;蛘撸梢员硎緸椤癱afe\u0301s”或“cafe\xcc\x81s”,它們都產生相同的七個字節。
上面的第一個“方法”可能會將它們拆分為“caf\xc3”+“\xa9s”和cafe\xcc“+”\x81s”。
第二個可能將它們拆分為“caf\u00E9”+“s”(“cafe”+“s”)和“cafe”+“\u0301s”(“cafe”+“?s”)。
第三個應該將它們分成“caf\u00E9”+“s”和“cafe\u0301”+“s”(都顯示為“café”+“s”)。
- 1 回答
- 0 關注
- 211 瀏覽
添加回答
舉報