爬取三千条数据需要多久_傻瓜式爬虫教程,获取你想要的任何数据

工作后大家就会发现一个问题,工作并不仅仅是做好自己手里这一块就万事大吉的。你需要了解一些基本的上游与下游工作内容,这样在协作沟通的时候双方频率相同,效果往往出奇的好。

从个人核心竞争力这块来说,多学多琢磨,往往是有百利而无一害的对不?

今天这篇就讲讲数据分析师的上游:爬虫工程师。

爬虫是什么?

就是我们自己到网页上摘取的数据,这个数据遵循我们制定的规则。

比如我们要爬取天猫平板电视的情况:一级爬取:月销量、店铺名、价格、名称

步骤:

第一步:打开网页

注意查重,看看自己的名字是否与其它的名字重复。

第二步:标注需要采集的信息

双击需要爬取的版块,并为版块起个标签的名字,用标签来代表各个版块,方便爬取的时候检索,标签与标签之间可以有映射关系,通常在相同的爬取标签时采用

第三步:样例复制

样例则是我们第二步标注的所有标签,我们点击任何一个标签,找到它的DOM节点:

右击样例节点>选择样例复制映射>第一个

选择第二个样例,

右击样例节点>选择样例复制映射>第二个

最后在定位选项中选择“绝对定位”

第四步:翻页

拉到页面最后,找到翻页区,点击翻页去,把翻页区设置为翻页映射

点击下一页,把下一页设置为翻页记号(注意翻页记号需要详细设置,因此展开节点,找到text节点右键设置)(在文末蓝色的框那里)

最后存规则,爬取。

一级爬取结果如下:

共计781条数据,用时10分钟。如果想爬取页面下级的数据,我们要给爬虫设置一个线索,让他在爬取好一级数据之后,根据我们的线索一点点爬取第二级的数据。二级爬取:原价、证书编号、能效等级

1、在一级页面中点击能够进入二级页面的链接,在DOM节点中找到@href

2、右击节点>内容映射>新建抓取内容>输入名称(文末标出的蓝色框)

3、在整理箱中选中“网址”,打钩下级线索,并命名

4、在普通浏览页面进入二级页面(就是刚才标注的页面)

5、新建一个规则,对二级页面采集(和上面采集方法一样)

6、采集的时候要注意,最好先采集完一级数据在采集二级数据(因为二级数据是根据一级数据的线索采集的),二是最好开始前先采集几条测试下,免得全部采集完毕之后才发现采集有问题。

二级爬取结果如下:

这个采集的不多,大家可以根据自己的需要采集。

通常节点对应关系是这样的:(上面说的文末的图,然而并不是文末)

红色的是点击的区域,贴图是DOM节点显示的节点名称,蓝色是展开常用的。图片爬取

1、选择一个需要爬取的网页

2、双击需要爬取的图片,设置标签,如果出现下面报错则

右上角刷新下规则就好了

3、展开节点找到@src,@src是存储图片网址的节点,右击@src,选择内容映射>新建抓取内容,再输入标签名。

4、然后再工作台上勾选下载图片

图片的样例复制和文本的样例复制有些不同,思路是先建立一个包含复制内容的标签比如A,然后对A建立复制的规则,在让A包含需要复制的标签。

5、在整理箱中右击小图网址>选择添加>其前>命名为列,

然后右击小图网址>移动>向右

6、对列进行样例复制设置,点击列>勾选样例复制复制管理>点击小图网址中图片的节点

(此处注意,我们勾选的节点是@scr的节点,并不是上面总的IMG节点,如图)

右击1630节点(第一张图片)>样例复制映射>第一个

右击1711节点(第二张图片)>样例复制映射>第二个

此时工作台会显示我们设置的样例复制情况

7、最后记得测试,如果出现问题,可以点击定位,绝对定位来解决。

最后如何找到我们爬取的图片:

我们爬取的所有内容都会保存在DataScraper中,在电脑中搜索找到文件如下:

最后爬取的图片就都打包在文件夹里啦,这次爬取了1144张图片,用时10分钟不到。

爬取结果网盘分享:密码:bxq6​pan.baidu.com

拿到这些数据,接下来是考虑自己要获得什么信息,之后清洗,分类,建立图表进行分析。

比如影响销量的因素是什么?价格?关键词(名称)?还是品牌?

再比如这份数据是否能告诉我们网络销售平板电视的均价为多少?最低价为多少?最高价为多少?二者相差多少?为何相差这些?