只是一個簡單的數據表 包括兩個字段 關鍵字 和 關鍵字的描述數據表只有幾千條數據 字符串是一句話,包含中文和英文字符,為的是提高查詢效率
2 回答

一只萌萌小番薯
TA貢獻1795條經驗 獲得超7個贊
省事點用 sqlite fts4 全文索引好了,這樣可以一條字段存入多條關鍵字,
查詢時給句子拆分下加入 OR 語法,select 用下 snippet 函數得到匹配的關鍵字。
把數據存到 sqlite fts4 全文索引表(sqlite 有在 python 標準庫里不需要其他依賴,可以用內存數據庫),fts4 默認會按標點和空格分詞,所以處理中文時預先插入空格就沒問題(插入 \r 之類也行)。
如果要求判斷子字符串而不是按單詞判斷,存入數據時先用空格把字母和字符逐個隔開,查詢時也逐個隔開并加上適當引號和 * 號,
而如果是想分詞卻擔心有黃詞漏網的話,存入數據和查詢句子都用二元分詞就可以了。
添加回答
舉報
0/150
提交
取消