工作后大家就会发现一个问题,工作并不仅仅是做好自己手里这一块就万事大吉的。你需要了解一些基本的上游与下游工作内容,这样在协作沟通的时候双方频率相同,效果往往出奇的好。
从个人核心竞争力这块来说,多学多琢磨,往往是有百利而无一害的对不?
今天这篇就讲讲数据分析师的上游:爬虫工程师。
爬虫是什么?
就是我们自己到网页上摘取的数据,这个数据遵循我们制定的规则。
比如我们要爬取天猫平板电视的情况:一级爬取:月销量、店铺名、价格、名称
步骤:
第一步:打开网页
注意查重,看看自己的名字是否与其它的名字重复。
第二步:标注需要采集的信息
双击需要爬取的版块,并为版块起个标签的名字,用标签来代表各个版块,方便爬取的时候检索,标签与标签之间可以有映射关系,通常在相同的爬取标签时采用
第三步:样例复制
样例则是我们第二步标注的所有标签,我们点击任何一个标签,找到它的DOM节点:
右击样例节点>选择样例复制映射>第一个
选择第二个样例,
右击样例节点>选择样例复制映射>第二个
最后在定位选项中选择“绝对定位”
第四步:翻页
拉到页面最后,找到翻页区,点击翻页去,把翻页区设置为翻页映射
点击下一页,把下一页设置为翻页记号(注意翻页记号需要详细设置,因此展开节点,找到text节点右键设置)(在文末蓝色的框那里)
最后存规则,爬取。
一级爬取结果如下:
共计781条数据,用时10分钟。如果想爬取页面下级的数据,我们要给爬虫设置一个线索,让他在爬取好一级数据之后,根据我们的线索一点点爬取第二级的数据。二级爬取:原价、证书编号、能效等级
1、在一级页面中点击能够进入二级页面的链接,在DOM节点中找到@href
2、右击节点>内容映射>新建抓取内容>输入名称(文末标出的蓝色框)
3、在整理箱中选中“网址”,打钩下级线索,并命名
4、在普通浏览页面进入二级页面(就是刚才标注的页面)
5、新建一个规则,对二级页面采集(和上面采集方法一样)
6、采集的时候要注意,最好先采集完一级数据在采集二级数据(因为二级数据是根据一级数据的线索采集的),二是最好开始前先采集几条测试下,免得全部采集完毕之后才发现采集有问题。
二级爬取结果如下:
这个采集的不多,大家可以根据自己的需要采集。
通常节点对应关系是这样的:(上面说的文末的图,然而并不是文末)
红色的是点击的区域,贴图是DOM节点显示的节点名称,蓝色是展开常用的。图片爬取
1、选择一个需要爬取的网页
2、双击需要爬取的图片,设置标签,如果出现下面报错则
右上角刷新下规则就好了
3、展开节点找到@src,@src是存储图片网址的节点,右击@src,选择内容映射>新建抓取内容,再输入标签名。
4、然后再工作台上勾选下载图片
图片的样例复制和文本的样例复制有些不同,思路是先建立一个包含复制内容的标签比如A,然后对A建立复制的规则,在让A包含需要复制的标签。
5、在整理箱中右击小图网址>选择添加>其前>命名为列,
然后右击小图网址>移动>向右
6、对列进行样例复制设置,点击列>勾选样例复制复制管理>点击小图网址中图片的节点
(此处注意,我们勾选的节点是@scr的节点,并不是上面总的IMG节点,如图)
右击1630节点(第一张图片)>样例复制映射>第一个
右击1711节点(第二张图片)>样例复制映射>第二个
此时工作台会显示我们设置的样例复制情况
7、最后记得测试,如果出现问题,可以点击定位,绝对定位来解决。
最后如何找到我们爬取的图片:
我们爬取的所有内容都会保存在DataScraper中,在电脑中搜索找到文件如下:
最后爬取的图片就都打包在文件夹里啦,这次爬取了1144张图片,用时10分钟不到。
爬取结果网盘分享:密码:bxq6pan.baidu.com
拿到这些数据,接下来是考虑自己要获得什么信息,之后清洗,分类,建立图表进行分析。
比如影响销量的因素是什么?价格?关键词(名称)?还是品牌?
再比如这份数据是否能告诉我们网络销售平板电视的均价为多少?最低价为多少?最高价为多少?二者相差多少?为何相差这些?