thon 2.7
IDE Pycharm 5.0.3
具体Selenium和PhantomJS配置及使用请看 上面的代码是可以实现的,但需要Firefox的配合,因为我其中一个引擎调用了Firefox,另一个抓评论的用了PhantomJS。 这里直接上传打包成exe后的形式,如何打包exe请看将python打包成exe 打包后实现形式 存入的txt文件 存入txt样式 因为打包成exe必须是中文的键入,所以没办法,我改成英文来着,不然会出现这种情况。。。 中文乱码 输出内容是没有问题的。。。。。。 1.使用PhantomJS和Firefox出现不同效果的问题,第21个回到起点。 2.在对unicode输出在txt出现的问题,但是在print可以直接中文输出的。 这里和上篇 伪解决Selenium中调用PhantomJS无法模拟点击(click)操作 这里解决的问题和昨天的Pay Attention是一样的,本来程序也是增强性补充而已,所以重复了。 1.元素无法定位问题 2.只采集自己需要的数据,剔除无用数据,比如说,刚开始我用 然后写个取出list中元素的方法,但是这样的话,一个便签下内容未必太多,并不是我想要的如图: 筛选有用内容 比如说,我只想要红色的部分,那么,采取elements就不太好处理。 2.解决方案,我采用的方法是格式化字符串!这个方法我在Selenium+PhantomJS自动续借图书馆书籍(下)也用过,根据元素的特性,可以发现,每个热评的正文标签不一样的,其余标签一样,只要格式化正文标签即可,像这样 3.一个引擎干有个事!我现在没办法,只有将第一个需要处理的页面用Firefox来处理,之后评论用PhantomJS来抓取,之后可以用quit来关闭浏览器,但是启动浏览器还是会耗费好多资源,而且挺慢,虽然PhantomJS也很慢,我12G内存都跑完了。。。。。。看样子是给我买8x2 16G双通道的借口啊。 4.备注不标准也会导致程序出错,这个是我没想到的,我一直以为在'''备注'''之间的都可以随便来,结果影响程序运行了,之后分模块测试才注意到这个问题,也是以前没有遇到过的,切记!需要规范自己代码,特别是像Python这样缩进是灵魂的语言。。。。 5.补充,长评论的抓取 操作1 这是点击之后的图,可以看到元素定位也是不一样的,注意 操作2 今天在知乎上回答了个问题,能帮助和吸引一些人过来学这门让人上瘾的语言感觉很有成就感啊,哈哈哈 知乎关注我有毛用,还不如这里呢。感兴趣的可以下载exe文件,已打包上传资源 这里写图片描述 @MrLevo520--伪解决Selenium中调用PhantomJS无法模拟点击(click)操作实现效果
问题及解决方案
1.解决方案,暂且我也没有找到,只有调用Firefox然后完事后再关闭,分析请见伪解决Selenium中调用PhantomJS无法模拟点击(click)操作
2.解决方案:详见Python输出(print)内容写入txt中保存Pay Attention
1.解决方案,首先查看是不是隐藏元素,其次再看自己的规则有没有写错,还有就是是不是页面加载未完成,详见解决网页元素无法定位(NoSuchElementException: Unable to locate element)的几种方法driver_detail.find_elements_by_xpath
for i in range(1,5):#取了前四条热评
try:
comments = driver_detail.find_element_by_xpath("http://div[@id='hot-comments']/div[%s]/div/p"%i) print u"最新热评:"+comments.text except: print 'can not caught comments!'
最后
希望能帮助更多的人,同时请不吝赐教!PS
致谢
@MrLevo520--Python输出(print)内容写入txt中保存
@MrLevo520--解决网页元素无法定位(NoSuchElementException: Unable to locate element)的几种方法
@Eastmount--[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
@Eastmount--[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
@MrLevo520--解决Selenium弹出新页面无法定位元素问题(Unable to locate element)
作者:mrlevo520
链接:https://www.jianshu.com/p/1b355686ff90
共同學習,寫下你的評論
評論加載中...
作者其他優質文章