我正在嘗試解析和匹配大量法律文本,將其全部拆分成單獨的句子。我有以下正則表達式,它只適用于幾行簡單的文本:[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)!和 ?或在這里非常無關緊要但是。和 ;?因為分隔符在我嘗試處理的文本中很常見。問題是上面的正則表達式只是找到那些后跟空格字符的定界符。例如,以下文本將無法正確匹配:成員國法律或根據與衛生專業人員簽訂的合同并遵守第 3 段中提到的條件和保障措施;出于公共衛生領域的公共利益考慮,處理是必要的,例如防止嚴重的跨境健康威脅或確保高標準比較工具 https://ec.europa.eu/ploteus/en/compare 已?采用7可比較的程序(例如認證/審計),并按照成員國的要求進行注冊。基于歐盟或成員國法律的醫療保健和醫藥產品或醫療器械的質量和安全,該法律規定了適當和具體的措施來保護數據主體的權利和自由,特別是職業保密;處理是...以下整個部分:出于公共衛生領域的公共利益考慮,處理是必要的,例如防止嚴重的跨境健康威脅或確保根本不會匹配。任何有助于改進上述正則表達式的幫助將不勝感激!
添加回答
舉報
0/150
提交
取消