熊貓快速移除標點符號這是一個自我回復的帖子。下面,我概述了NLP領域的一個常見問題,并提出了一些解決該問題的性能方法。經常需要移除標點符號在文本清理和預處理過程中。標點符號定義為string.punctuation:>>> import string
string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'這是一個很常見的問題,在令人作嘔之前就已經被問到了。最地道的解決辦法是用熊貓str.replace..但是,對于涉及羅得對于文本,可能需要考慮一種更具表現力的解決方案。什么是好的、有表現力的替代方案?str.replace在處理成千上萬的記錄時?
3 回答

尚方寶劍之說
TA貢獻1788條經驗 獲得超4個贊
str.translate()
:
def pd_translate(df): return df.assign(text=df['text'].str.translate(transtab))
添加回答
舉報
0/150
提交
取消