中国明星数据爬取

目标

代码没有技术含量,仅仅告诉大家一个好的数据源!

爬取网络上的数据,建立一个完整的人物关系网。这里是爬取数据的部分,使用了jsoup就可以了,主要还是网站比较好。

时效性

2017年还有效。由于互动百科网站的页面结构改变,可能会影响爬虫的正常工作,后续不在维护其可用性,想下载数据的直接在release中进行下载。

方法

深度优先爬取,直到队列没有种子。暂时没有使用多线程。

举例

http://www.baike.com/wiki/%E5%91%A8%E6%9D%B0%E4%BC%A6里有完整的关系网络信息,简单解析一下就好啦。

结果展示

爬取得过程(log4j的日志)

图片展示

结果(尚未爬取结束)