亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

pytesseract庫的安裝和使用

標簽:
Python

在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR

1. 安装pytesseract

  pip insatll pytesseract

2. 安装pillow

  pip install pillow

3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract)

4. 安装完后将Tesseract-OCR的安装路径添加到环境变量中PATH和Path中都要添加

例如:

https://img1.sycdn.imooc.com//5b93f0c5000169cd04050189.jpg

 

5. 在python的安装路径下的修改安装的pytesseract库里面的pytesseract.py,将默认的改成Tesseract-OCR的安装路径

https://img1.sycdn.imooc.com//5b93f13c0001595e07740454.jpg

7. 配置完了开始撸代码吧

https://img1.sycdn.imooc.com//5b93f1450001973607020221.jpg

运行后发现会报错

https://img1.sycdn.imooc.com//5b93f14e0001f94e12080593.jpg

用Google查了一下,发现是因为验证码的图片模式为RGBA,是无法分配调色盘给透明通道的。更换为RGB模式则不会出现该问题。

对原先的代码修改一下,变为:

https://img1.sycdn.imooc.com//5b93f15500016c9e07560265.jpg

修改后就能正常使用了。

原文出处:https://www.cnblogs.com/Lvg3687/p/9611104.html

點擊查看更多內容
1人點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消