爬取三千条数据需要多久_傻瓜式爬虫教程，获取你想要的任何数据-齐达内世界杯-世界杯亚洲区积分榜_c罗世界杯

工作后大家就会发现一个问题，工作并不仅仅是做好自己手里这一块就万事大吉的。你需要了解一些基本的上游与下游工作内容，这样在协作沟通的时候双方频率相同，效果往往出奇的好。

从个人核心竞争力这块来说，多学多琢磨，往往是有百利而无一害的对不？

今天这篇就讲讲数据分析师的上游：爬虫工程师。

爬虫是什么？

就是我们自己到网页上摘取的数据，这个数据遵循我们制定的规则。

比如我们要爬取天猫平板电视的情况：一级爬取：月销量、店铺名、价格、名称

步骤：

第一步：打开网页

注意查重，看看自己的名字是否与其它的名字重复。

第二步：标注需要采集的信息

双击需要爬取的版块，并为版块起个标签的名字，用标签来代表各个版块，方便爬取的时候检索，标签与标签之间可以有映射关系，通常在相同的爬取标签时采用

第三步：样例复制

样例则是我们第二步标注的所有标签，我们点击任何一个标签，找到它的DOM节点：

右击样例节点>选择样例复制映射>第一个

选择第二个样例，

右击样例节点>选择样例复制映射>第二个

最后在定位选项中选择“绝对定位”

第四步：翻页

拉到页面最后，找到翻页区，点击翻页去，把翻页区设置为翻页映射

点击下一页，把下一页设置为翻页记号(注意翻页记号需要详细设置，因此展开节点，找到text节点右键设置)(在文末蓝色的框那里)

最后存规则，爬取。

一级爬取结果如下：

共计781条数据，用时10分钟。如果想爬取页面下级的数据，我们要给爬虫设置一个线索，让他在爬取好一级数据之后，根据我们的线索一点点爬取第二级的数据。二级爬取：原价、证书编号、能效等级

1、在一级页面中点击能够进入二级页面的链接，在DOM节点中找到@href

2、右击节点>内容映射>新建抓取内容>输入名称(文末标出的蓝色框)

3、在整理箱中选中“网址”，打钩下级线索，并命名

4、在普通浏览页面进入二级页面(就是刚才标注的页面)

5、新建一个规则，对二级页面采集(和上面采集方法一样)

6、采集的时候要注意，最好先采集完一级数据在采集二级数据(因为二级数据是根据一级数据的线索采集的)，二是最好开始前先采集几条测试下，免得全部采集完毕之后才发现采集有问题。

二级爬取结果如下：

这个采集的不多，大家可以根据自己的需要采集。

通常节点对应关系是这样的：(上面说的文末的图，然而并不是文末)

红色的是点击的区域，贴图是DOM节点显示的节点名称，蓝色是展开常用的。图片爬取

1、选择一个需要爬取的网页

2、双击需要爬取的图片，设置标签，如果出现下面报错则

右上角刷新下规则就好了

3、展开节点找到@src，@src是存储图片网址的节点，右击@src，选择内容映射>新建抓取内容，再输入标签名。

4、然后再工作台上勾选下载图片

图片的样例复制和文本的样例复制有些不同，思路是先建立一个包含复制内容的标签比如A，然后对A建立复制的规则，在让A包含需要复制的标签。

5、在整理箱中右击小图网址>选择添加>其前>命名为列，

然后右击小图网址>移动>向右

6、对列进行样例复制设置，点击列>勾选样例复制复制管理>点击小图网址中图片的节点

(此处注意，我们勾选的节点是@scr的节点，并不是上面总的IMG节点，如图)

右击1630节点(第一张图片)>样例复制映射>第一个

右击1711节点(第二张图片)>样例复制映射>第二个

此时工作台会显示我们设置的样例复制情况

7、最后记得测试，如果出现问题，可以点击定位，绝对定位来解决。

最后如何找到我们爬取的图片：

我们爬取的所有内容都会保存在DataScraper中，在电脑中搜索找到文件如下：

最后爬取的图片就都打包在文件夹里啦，这次爬取了1144张图片，用时10分钟不到。

爬取结果网盘分享：密码：bxq6pan.baidu.com

拿到这些数据，接下来是考虑自己要获得什么信息，之后清洗，分类，建立图表进行分析。

比如影响销量的因素是什么？价格？关键词(名称)？还是品牌？

再比如这份数据是否能告诉我们网络销售平板电视的均价为多少？最低价为多少？最高价为多少？二者相差多少？为何相差这些？