亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

3分鐘掌握Excel網絡爬蟲

標簽:
Java Python

 一、不废话,举个栗子

抓取北京PM2.5各监测站点实时数据。网址:

http://www.86pm25.com/city/beijing.html

完成数据抓取只要 20 秒钟。

注:手机屏幕有限,细节无法展示,电脑上打开可看高清大图。

二、抓取流程

抓取网站表格数据分为以下 5 步:

1、打开欲抓取网站,复制网址。

700

2、打开 Excel,依次点击「数据」选项卡->「自网站」按钮。

700

3、在弹出的「从 Web」窗口中,黏贴复制的网址,点击右下角「确定」。

700

4、在弹出的「导航器」窗口,选中要抓取的表格(通常会同时显示几个表格,可以反复尝试,挑出你要的那个),点击右下角「加载」。 

700

5、自此,表格数据抓取完成。

700

三、自动刷新

如果网站数据还会不定时更新,想要表格打开即为最新内容并可定时刷新,可进行如下设置:

1、依次点击「数据」选项卡 ->「全部刷新」按钮下小箭头-> 「连接属性」按钮。

700

2、在弹出的「查询属性」窗口中选中 “允许后台刷新”,选中并设定 “刷新频率”,选中“打开文件时刷新数据”。

657

3、自此自动刷新功能设定完成。以后每次打开文档均为最新版。此外还可点击「全部刷新」按钮实时刷新。

四、小结

1、应用场景:

包含表格元素的网站,比如下面两个,试试看呗。eg:

1)新浪彩票双色球数据:

http://zst.aicai.com/ssq/dmyl_hq/

2)国家统计局全国固定资产投资数据:

http://www.stats.gov.cn/tjsj/zxfb/201801/t20180118_1574955.html

2、使用限制:

Excel 抓取网站数据并非适用所有网站,抓取网页内必须包含表格元素,如无此元素则无法抓取。此类网站数量大概占所有网站数量10%。



作者:风巢
链接:https://www.jianshu.com/p/149155e1f2d5


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消