亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

圖像處理,以提高tesseract OCR的準確性

圖像處理,以提高tesseract OCR的準確性

梵蒂岡之花 2019-09-18 14:35:37
我一直在使用tesseract將文檔轉換為文本。文檔的質量范圍非常廣泛,我正在尋找有關哪種圖像處理可能會改善結果的提示。我注意到高度像素化的文本 - 例如由傳真機生成的文本 - 對于tesseract來說特別難以處理 - 可能是角色的所有鋸齒狀邊緣都會混淆形狀識別算法。什么樣的圖像處理技術可以提高準確度?我一直在使用高斯模糊來平滑像素化圖像并看到一些小的改進,但我希望有一種更具體的技術可以產生更好的結果。假設一個過濾器被調整為黑白圖像,這將平滑不規則的邊緣,然后是一個過濾器,它會增加對比度,使角色更加清晰。對于圖像處理新手的任何一般提示?
查看完整描述

3 回答

?
慕的地10843

TA貢獻1785條經驗 獲得超8個贊

我絕不是OCR專家。但本周我需要將文本轉換為jpg。

我開始使用彩色RGB 445x747像素jpg。我立即嘗試了tesseract,程序幾乎沒有轉換。然后我進入GIMP并做了以下事情。圖像>模式>灰度圖像>比例圖像> 1191x2000像素濾鏡>增強>非銳化蒙版,其值為半徑= 6.8,量= 2.69,閾值= 0然后我以100%質量保存為新的jpg。

然后,Tesseract能夠將所有文本提取到.txt文件中

Gimp是你的朋友。


查看完整回答
反對 回復 2019-09-18
  • 3 回答
  • 0 關注
  • 1146 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號