基于Scrapy框架的Python3就业信息Jobspiders爬虫

下面是一条爬到的数据

下面是博客地址

数据分析

爬虫只是为了获得数据,重要的还是如何做数据分析

生成词云











TODO

2019-3-11更新

发现一个问题:就是使用驱动获取cookie,与使用浏览器自己打开,所弹出的登录页面有所不同,手动打开的网页中没有图片验证码,而使用驱动(无论是谷歌浏览器驱动还是火狐的浏览器驱动均没有用,亲测),根据相关文档查看到根据驱动是可以获取到指纹特征,所以拉钩也可能在这方面做过手脚,也看到使用驱动下面的一行代码会为true,‘window.navigator.webdriver’,所以应该还是挺多的方法可以检测是不是机器人在操作。

2019-3-14更新

拉钩网两处需要验证码的地方

  1. 登录(Fixed)

    login

  2. 302重定向(Fixed)

    https://raw.githubusercontent.com/wqh0109663/JobSpiders/master/JobSpiders/images/20190314224307.png

    拉钩网验证

    robot

引进图片识别

2019-3-23更新

修改spider下的lagou.py,修改为自己的若快账号和拉钩账号

项目已不再更新,想要拉钩网数据参考testlagou.py

动态更新cookie值就可以了,全站难度有点大,直接请求接口比较简单