利用webmagic爬虫做些有意思的事情

webmagic是一套开源的爬虫项目,官网文档使用gitbooks写的,基本分分钟就可以上手使用。
有了工具我们就可以随意往里面添加业务代码了。

想要实现的功能

  • 实现贴吧排行榜数据抓取
    • 抓取 本吧牛人排行榜所有数据,然后用echart折线图按照等级排序显示出来和显示某一等级有多少人的柱状图
  • 实现贴吧带帖子图片爬去
    • 定时抓取指定贴吧带图片的帖子,将图片存到七牛,同时将帖子标题加入elasticsearch里面,添加搜索功能。
    • 比如在开学季抓取学校帖子,可以随时看到爆照妹子的照片
    • 如果抓取李毅吧那就有各种福利了。

用到的技术

springboot、angularjs、echart 、redis、七牛api、elasticsearch等  

遇到的坑

  • redis hmget性能问题,当hashs里面存了好多条key value数据的话,使用hmget 会出现性能问题,一次性获取n条数据不是redis的强项。

项目概要