知乎爬虫

博客更新地址:https://matrixseven.github.io

知乎专栏更新地址:https://zhuanlan.zhihu.com/Accelerator

博客园相关文章:http://www.cnblogs.com/seven007

1. Git求Star~O(∩_∩)O哈哈~~

2. 知乎求关注~~知乎账号@Accelerator

3. 本git只包含爬虫部分,web服务器和可视化部分另外单开.

在知乎看到一个可视化话题的文章，所以一时心血来潮，打算用Java也写一个爬虫并且集成到Spring中，结合ECharts生成人物关系，当然，既然爬一次，个人信息也都要获取到。那么今天起起(结束日未知，目录也会根据实际情况进行更新)，我将写一个系列的爬取知乎的爬虫文章，一直到数据可视化完成（完成后，爬虫部分将使用Scala重写）。 #

附赠之前爬取的数据一份(mysql): 链接: http://pan.baidu.com/s/1qXGa8S8 密码: t2vi（只下载不点赞，不star，差评差评~蓝瘦香菇）下载转存的好多，，，但是没人star啊~兄弟们~~~

1. 预计可视化部分包括

人物关系可视化
人员地理分布可视化
人员大学分布可视化
男女比例可视化
用户点赞可视化

2. 预计内容和目录

开篇感言
爬虫流程设计
1. 如何过滤重复数据
2. 如何在爬取时创建人物关系
请求分析
1. 登陆请求分析
2. 跟随/关注请求分析
抓取页面数据
1. jsoup抽取页面内容
优化
1. 使用多线程加速
2. 使用队列减少数据库访问
3. 实现LRU提高缓存命中率
基于SpringCloud的简单应用
1. 介绍
2. 简单配置
扩展内容
1. 整合Mybatis
2. 编写Jsonp跨域请求API
走起苦逼的前端
1. 使用Bootstrop布局
2. 引入ECharts图形库
再见，吹牛结束。

吾爱Java(QQ群):170936712（点击加入）

更新记录:

2016/11/30
1. 第一次上传
2016/12/13
1. 修复线程过多导致内存爆炸问题
2016/12/22
1. 修复数据库死锁问题
2. 更简单没水平的LruCache
3. 完善了初始化爬虫选择数据问题
2016/12/26
1. 修复多线程死锁问题
2016/12/28
1. 完善登陆流程
2. 修复增加follower问题
3. 修复更新数userBase据过慢问题
4. 减少cpu占用
5. userInfo表增加两个字段