2 回答

TA貢獻1828條經驗 獲得超13個贊
不確定該庫是否提供了您想要的確切解決方案,但我編寫了一個名為 MgntUtils 的庫并將其作為開源發布,可作為 Maven 中心(見此處)以及github上的 Maven 工件那里有一個實用程序可以轉換任何字符串到 unicode 序列,反之亦然。您所要做的就是:
String codes = StringUnicodeEncoderDecoder.encodeStringToUnicodeSequence("Hello world");
它會返回字符串"\u0048\u0065\u006c\u006c\u006f\u0020\u0057\u006f\u0072\u006c\u0064"
這同樣適用于任何語言的任何字符串,包括特殊字符。有一種方法可以進行解碼:
decodeUnicodeSequenceToString(String unicodeSequence)
這是javadoc鏈接。您可以輕松地將 unicode 序列字符串分解為單個 unicode 并像這樣存儲它們,甚至將它們轉換回單獨的字符串并獲取您的字符。這是文章Open Source Java library with stack trace filtering、Silent String parsing Unicode converter 和 Version comparison文章的鏈接,它解釋了該庫

TA貢獻1847條經驗 獲得超7個贊
我編寫了一個小 Python 函數來將Gujarati單詞轉換為Syllables. 我的代碼受到這個 Github repo libindic/syllabalizer的啟發。
代碼:
def syllabify_gu(text):
signs = [u'\u0abe',
u'\u0abf',
u'\u0ac0',
u'\u0ac1',
u'\u0ac2',
u'\u0ac3',
u'\u0ac4',
u'\u0ac5',
u'\u0ac7',
u'\u0ac8',
u'\u0ac9',
u'\u0acb',
u'\u0acc',
u'\u0a81',
u'\u0a82',
u'\u0a83',
u'\u0acd']
limiters = ['\"', '\'', '`', '!', ';', ', ', '?', '.']
lst_chars = []
for char in text:
if char in limiters:
lst_chars.append(char)
elif char in signs:
lst_chars[-1] = lst_chars[-1] + char
else:
try:
if char == u'\u0ab0' and len(lst_chars) > 0 and lst_chars[-1][-1] == u'\u0acd' and lst_chars[-1][-2] == u'\u0aa4':
lst_chars[-1] = lst_chars[-1] + char
else:
lst_chars.append(char)
except IndexError:
lst_chars.append(char)
return lst_chars
syllabify_gu("????? ? ???? ?????? ????? ??, ????? ????? ??????? ??????? ??? ????? ??? ??.")
輸出:
['??',
'??',
'?',
' ',
'?',
' ',
'?',
'???',
' ',
'?',
'??',
'???',
' ',
'?',
'?',
'???',
' ',
'??',
',',
' ',
'??',
'???',
' ',
'?',
'??',
'??',
' ',
'?',
'??',
'??',
'??',
' ',
'??',
'?',
'?',
'???',
' ',
'??',
'?',
' ',
'?',
'?',
'?',
'??',
' ',
'?',
'??',
' ',
'??',
'.']
在此處查找古吉拉特語字符的 Unicode 。
添加回答
舉報