python source code of login1

Project: openslack-crawler (GitHub Link)

openslack-crawler-master
- entrypoint.sh
- examples
  - redis_spider.py
  - linkedin
    - linkedin
      - linkedin
        reload_proxy.py
        middleware.py
        db.py
        spiders
        LinkedinSpider.py
        __init__.py
        pipelines.py
        Rakefile
        agents.py
        items.py
        __init__.py
        settings.py
        proxy.py
        parser
        LinkedinParser.py
        HtmlParser.py
        __init__.py
      - scrapy.cfg
    - README.md
    - doc
      - db-scheme.md
  - rotate_useragent.py
  - dianpingtuan.py
  - weather.py
  - qunar.py
  - zhihu
    - zhihu
      - spiders
        __init__.py
        zhihu_spider.py
      - redis-test.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - scrapy.cfg
  - yeeyan.py
  - city.py
  - tutorial
    - data_utf8.json
    - tutorial
      - data_utf8.json
      - spiders
        __init__.py
        naive_spider.py
      - pipelines.py
      - misc
        log.py
        middleware.py
        agents.py
        __init__.py
        proxy.py
      - items.py
      - __init__.py
      - settings.py
    - Resources
    - Books
    - scrapy.cfg
  - alibaba.py
  - ctrip.py
  - jd.py
  - jobalibaba
    - jobalibaba
      - spiders
        __init__.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - scrapy.cfg
  - lxmlhtml.py
  - douban_movie.py
  - gov.py
  - nuomi.py
  - misc
    - log.py
    - middleware.py
    - agents.py
    - __init__.py
    - spider.py
    - proxy.py
  - meituan.py
  - dmoz
    - dmoz
      - spiders
        __init__.py
        spider.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - scrapy.cfg
  - zhihu2
    - spiders
      - github_user_spider.py
      - outofmemory_user_spider.py
      - login1_spider.py
      - __init__.py
      - DoubanBookSpider.py
      - zhihu_user_spider.py
      - zhihu_ask_spider.py
      - AmazonSpider.py
      - zhihu_spider.py
      - github_follower_spider.py
      - github_repo_spider.py
      - zhihu_answer_spider.py
    - pipelines.py
    - README.md.md
    - misc
      - middleware.py
      - agents.py
      - __init__.py
      - proxy.py
    - __init__.py
    - settings.py
  - alexa
    - alexa
      - spiders
        __init__.py
        alexa_spider.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - read_from_json.ipynb
    - scrapy.cfg
  - hrtencent
    - hrtencent
      - data_utf8.json
      - spiders
        __init__.py
        hrtencent_spider.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - scrapy.cfg
  - template
    - template
      - spiders
        __init__.py
        spider.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
    - scrapy.cfg
  - ctrip
    - rotate_useragent.py
    - spiders
      - ctrip_spider.py
      - ctrip_new_spider.py
      - check.py
      - 441507.py
      - file.py
      - __init__.py
      - former.py
      - ctrip_hotel.py
    - shell.py
    - pipelines.py
    - items.py
    - bingo2.sh
    - __init__.py
    - settings.py
    - csie.sh
    - sample.sh
    - new_csie.sh
    - middlewares.py
    - bingo.sh
  - stackoverflow
    - question_stackoverflow.py
    - user_stackoverflow.py
  - weibo_spider.py
  - woaidu_detail.py
  - zhihu_spider.py
  - cnhubei.py
  - qunar
    - __init__.py
    - webSpider
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
  - a51newren.py
  - link_spider.py
  - weibo.py
  - mydomain.py
  - sina.py
  - douban_album.py
  - doubanbook
    - scrapy.cfg
    - doubanbook
      - spiders
        douban_spider.py
        __init__.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
  - sis
    - README.md
    - index.html
    - scrapy.cfg
    - sis
      - spiders
        __init__.py
        sis_spider.py
      - pipelines.py
      - items.py
      - __init__.py
      - settings.py
- monitors
  - kafka
    - action_schema.json
    - scraper_schema.json
    - settings_actions.py
    - kafka-monitor.py
    - kafkadump.py
    - settings_crawling.py
  - redis
    - settings.py
    - redis-monitor.py
  - __init__.py
  - README.md
  - logs.py
- LICENSE
- .DS_Store
- crawler
  - extensions
    - mail.py
    - stats.py
    - __init__.py
  - spiders
    - zhangge.py
    - liyibo.py
    - pingwest.py
    - liuts.py
    - bookshadow.py
    - shaishufang.py
    - dmoz.py
    - jobbole.py
    - it168.py
    - simonwillison.py
    - fengchj.py
    - kanzhihu.py
    - colobu.py
    - smashwords.py
    - outofmemory.py
    - netkiller.py
    - itpub.py
    - csdn.py
    - isay.py
    - cocoachina.py
    - jdon.py
    - hangge.py
    - __init__.py
    - README.md
    - stackoverflow.py
    - codeproject.py
    - lagou.py
    - w3ctech.py
    - segmentfault.py
    - dmoz_spider.py
    - infoq.py
    - proxy.py
    - iteye.py
    - dockone.py
    - cnblogs.py
    - oschina.py
    - ruanyifeng.py
  - utils
    - termcolors.py
    - processors.py
    - bloomfilter.py
    - color.py
    - __init__.py
    - xml.py
    - loader.py
    - parsers.py
    - select_result.py
  - run.py
  - settings2.py
  - proxy.txt
  - items
    - dmoz.py
    - __init__.py
    - woaidu.py
    - github.py
    - cnblogs.py
    - zhihu.py
  - .DS_Store
  - schedulers
    - kafka
      - spiders.py
      - scheduler.py
    - redis
      - spiders.py
      - scheduler.py
      - queue.py
      - connection.py
      - __init__.py
      - dupefilter.py
    - rabbitmq
      - spiders.py
      - scheduler.py
      - queue.py
      - connection.py
      - __init__.py
      - dupefilter.py
    - __init__.py
  - pipelines
    - mongodb.py
    - jsonp.py
    - flume.thrift
    - image.py
    - mysql.py
    - flume.py
    - redis.py
    - file.py
    - __init__.py
    - es.py
    - rabbitmq.py
    - mongofile.py
    - celery.py
    - kafkap.py
  - middlewares
    - rotate_useragent.py
    - randomProxy.py
    - useragent.py
    - crawlera.py
    - redis_retry.py
    - google_cache.py
    - __init__.py
    - custom.py
  - __init__.py
  - settings.py
- logstash.conf
- __init__.py
- README.md
- tests
  - __init__.py
  - offline.py
- scripts
  - es_query.py
  - nuomi.py
  - compression.py
  - csdn.py
  - init_sharding_mongodb.py
  - __init__.py
  - clear_stats.py
  - stackoverflow.py
  - init_single_mongodb.py
  - es_load.py
  - proxies.py
  - deploy_elasticsearch.py
  - decomperssion.py
  - kafka_example.py
- requirements.txt
- Dockerfile
- .gitignore
- docs
  - sites.md
  - elasticsearch.md
  - static
    - images
- scrapy.cfg

# -*- coding:utf-8 -*-

from scrapy.selector import Selector
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy.http import FormRequest

from zhihu.settings import *


class ZhihuLoginSpider(CrawlSpider):
    name = 'zhihulogin1'
    allowed_domains = ['zhihu.com']
    start_urls = ['http://www.zhihu.com/lookup/class/']

    rules = (
        Rule(LinkExtractor(allow=r'search/')),
        Rule(LinkExtractor(allow=r'')),
    )

    def __init__(self):
        self.headers = HEADER
        self.cookies = COOKIES

    def start_requests(self):
        for i, url in enumerate(self.start_urls):
            yield FormRequest(url, meta={'cookiejar': i}, \
                              headers=self.headers, \
                              cookies=self.cookies,
                              callback=self.parse_item)  # jump to login page

    def _openpage(self, cat, response):
        open('error_pages/' + cat + response.url.replace("http://", "_").replace("/", "_") + '.html', 'w').write(
            response.body)

    def parse_item(self, response):
        selector = Selector(response)

        self._openpage("page_", response)

        urls = []
        for ele in selector.xpath('//ul/li[@class="suggest-item"]/div/a/@href').extract():
            urls.append(ele)
        print urls
        return urls