亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何在python中分離混合詞(波斯語和英語)

如何在python中分離混合詞(波斯語和英語)

皈依舞 2021-11-02 10:13:36
我有一個字符串數據集,有些字符串包含混合詞,如下所示:    ????12World    ??????digital    ???2012good...我想要的輸出是:   12 ???? world   ?????? digital   2012 ??? good這是我的代碼: def spliteKeyWord(str):     regex = r"[\u200b-\u200c]|[0-9]+|[a-zA-Z]+\'*[a-z]*"     matches = re.findall(regex, str, re.UNICODE)     return matches但這段代碼沒有顯示我想要的輸出。有可能得到類似的輸出嗎?
查看完整描述

2 回答

?
一只甜甜圈

TA貢獻1836條經驗 獲得超5個贊

您可以使用re.findall交替模式:

def spliteKeyWord(s):
    return re.findall(r'[\dA-Za-z]+|[^\dA-Za-z\W]+', s, re.UNICODE)


查看完整回答
反對 回復 2021-11-02
?
白衣非少年

TA貢獻1155條經驗 獲得超0個贊

參考這個問題,你可以使用這個正則表達式來解析非 ascii 字符:


words = ['12????World','??????digital','2012???good']


for w in words:

    re.split(r'([^\x00-\x7F]+)', w)



# ['12', '????', 'World']

# ['', '??????', 'digital']

# ['2012', '???', 'good']

這將拆分非 ascii 單詞之間的所有內容。


查看完整回答
反對 回復 2021-11-02
  • 2 回答
  • 0 關注
  • 182 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號