亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Python自定義豆瓣電影種類,排行,點評的爬取與存儲(初級)

標簽:
Python

thon 2.7
IDE Pycharm 5.0.3

具体Selenium和PhantomJS配置及使用请看

上面的代码是可以实现的,但需要Firefox的配合,因为我其中一个引擎调用了Firefox,另一个抓评论的用了PhantomJS。


实现效果

这里直接上传打包成exe后的形式,如何打包exe请看将python打包成exe

https://img1.sycdn.imooc.com//5d31b3af0001aa8607180568.jpg

打包后实现形式

存入的txt文件


https://img1.sycdn.imooc.com//5d31b3b30001d80207310529.jpg

存入txt样式

因为打包成exe必须是中文的键入,所以没办法,我改成英文来着,不然会出现这种情况。。。


https://img1.sycdn.imooc.com//5d31b3b80001cad207230516.jpg

中文乱码

输出内容是没有问题的。。。。。。


问题及解决方案

1.使用PhantomJS和Firefox出现不同效果的问题,第21个回到起点。
1.解决方案,暂且我也没有找到,只有调用Firefox然后完事后再关闭,分析请见伪解决Selenium中调用PhantomJS无法模拟点击(click)操作


2.在对unicode输出在txt出现的问题,但是在print可以直接中文输出的。
2.解决方案:详见Python输出(print)内容写入txt中保存


Pay Attention

这里和上篇  伪解决Selenium中调用PhantomJS无法模拟点击(click)操作

这里解决的问题和昨天的Pay Attention是一样的,本来程序也是增强性补充而已,所以重复了。

1.元素无法定位问题
1.解决方案,首先查看是不是隐藏元素,其次再看自己的规则有没有写错,还有就是是不是页面加载未完成,详见解决网页元素无法定位(NoSuchElementException: Unable to locate element)的几种方法


2.只采集自己需要的数据,剔除无用数据,比如说,刚开始我用

driver_detail.find_elements_by_xpath

然后写个取出list中元素的方法,但是这样的话,一个便签下内容未必太多,并不是我想要的如图:

https://img1.sycdn.imooc.com//5d31b3c00001901907440482.jpg

筛选有用内容

比如说,我只想要红色的部分,那么,采取elements就不太好处理。

2.解决方案,我采用的方法是格式化字符串!这个方法我在Selenium+PhantomJS自动续借图书馆书籍(下)也用过,根据元素的特性,可以发现,每个热评的正文标签不一样的,其余标签一样,只要格式化正文标签即可,像这样

for i in range(1,5):#取了前四条热评
        try:
            comments = driver_detail.find_element_by_xpath("http://div[@id='hot-comments']/div[%s]/div/p"%i)            print u"最新热评:"+comments.text        except:            print 'can not caught comments!'

3.一个引擎干有个事!我现在没办法,只有将第一个需要处理的页面用Firefox来处理,之后评论用PhantomJS来抓取,之后可以用quit来关闭浏览器,但是启动浏览器还是会耗费好多资源,而且挺慢,虽然PhantomJS也很慢,我12G内存都跑完了。。。。。。看样子是给我买8x2 16G双通道的借口啊。


4.备注不标准也会导致程序出错,这个是我没想到的,我一直以为在'''备注'''之间的都可以随便来,结果影响程序运行了,之后分模块测试才注意到这个问题,也是以前没有遇到过的,切记!需要规范自己代码,特别是像Python这样缩进是灵魂的语言。。。。


5.补充,长评论的抓取

https://img1.sycdn.imooc.com//5d31b3de0001972c07360400.jpg

操作1

这是点击之后的图,可以看到元素定位也是不一样的,注意

https://img1.sycdn.imooc.com//5d31b3e20001069b07260492.jpg

操作2


最后

今天在知乎上回答了个问题,能帮助和吸引一些人过来学这门让人上瘾的语言感觉很有成就感啊,哈哈哈
希望能帮助更多的人,同时请不吝赐教!


PS

知乎关注我有毛用,还不如这里呢。感兴趣的可以下载exe文件,已打包上传资源


https://img1.sycdn.imooc.com//5d52c8310001162901580200.jpg

这里写图片描述


致谢

@MrLevo520--伪解决Selenium中调用PhantomJS无法模拟点击(click)操作
@MrLevo520--Python输出(print)内容写入txt中保存
@MrLevo520--解决网页元素无法定位(NoSuchElementException: Unable to locate element)的几种方法  
@Eastmount--[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
@Eastmount--[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
@MrLevo520--解决Selenium弹出新页面无法定位元素问题(Unable to locate element)


作者:mrlevo520
链接:https://www.jianshu.com/p/1b355686ff90


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消