webmagic是一套开源的爬虫项目,官网文档使用gitbooks写的,基本分分钟就可以上手使用。
有了工具我们就可以随意往里面添加业务代码了。
想要实现的功能
- 实现贴吧排行榜数据抓取
- 抓取 本吧牛人排行榜所有数据,然后用echart折线图按照等级排序显示出来和显示某一等级有多少人的柱状图
- 实现贴吧带帖子图片爬去
- 定时抓取指定贴吧带图片的帖子,将图片存到七牛,同时将帖子标题加入elasticsearch里面,添加搜索功能。
- 比如在开学季抓取学校帖子,可以随时看到爆照妹子的照片
- 如果抓取李毅吧那就有各种福利了。
用到的技术
springboot、angularjs、echart 、redis、七牛api、elasticsearch等
遇到的坑
- redis hmget性能问题,当hashs里面存了好多条key value数据的话,使用hmget 会出现性能问题,一次性获取n条数据不是redis的强项。
项目概要
- 项目git:源码地址
- 测试地址:
http://localhost/tieba/img/贴吧名称/0/10
http://localhost/tieba/img/李毅/0/10 - 项目运行截图: