我通過變壓器模型生成文本,并且正在尋找一種測量語法文本質量的方法。就像文字:"Today is a good day. I slept well and got up good in the morning." 應該評級高于:"Yesterday I went into bed and. got Breakfast son."是否有任何模型可以完成我之前沒有找到的這項工作,或者是否有其他方法來衡量文本語法輸出的質量?我發現,spacy可以選擇顯示文本是否有語法錯誤,但我更感興趣的是包含文本長度和錯誤數量的分數。我還研究了 NLTK 的可讀性,但這旨在于文本的理解程度,這不僅僅取決于語法。謝謝你!
1 回答

嗶嗶one
TA貢獻1854條經驗 獲得超8個贊
所以我找到了我想要的東西:在這篇論文中,研究人員測試了不同的衡量標準,以衡量他們在沒有參考文獻的情況下檢查文本語法錯誤的能力(GLEU-Score 的用途)。他們還測試了python-language-tool,該工具也用于開放式辦公室中的拼寫檢查。該工具能夠測量文本中語法錯誤的數量。出于我的目的,我將錯誤量除以文本中的字數,這給了我一個錯誤度量。
也許這對有同樣問題的人有幫助。這里是基于 pypi 的示例代碼:
import language_tool_python
tool = language_tool_python.LanguageTool('en-US')
text = "this is a test tsentence, to check if all erors are found"
matches = tool.check(text)
len(matches)
>>>3
添加回答
舉報
0/150
提交
取消