python source code of finder

Project: changelogs (GitHub Link)

changelogs-master
- Makefile
- LICENSE
- travis_pypi_setup.py
- .editorconfig
- changelogs
  - launchpad.py
  - changelogs.py
  - cli.py
  - pypi.py
  - npm.py
  - finder.py
  - __init__.py
  - parser.py
  - rubygems.py
  - custom
    - pypi
      - django_coverage_plugin.py
      - map.txt
      - alembic.py
      - twine.py
      - sqlalchemy.py
      - pyaudio.py
      - pbr.py
      - djangorestframework.py
      - gunicorn.py
      - newrelic.py
      - pandas.py
      - six.py
      - beautifulsoup4.py
      - django_storages_redux.py
      - pyinotify.py
      - boto.py
      - imapclient.py
      - redis.py
      - factory_boy.py
      - docutils.py
      - synapse.py
      - whitenoise.py
      - mako.py
      - jinja2.py
      - pep8_naming.py
      - py.py
      - py_trello.py
      - python_ldap.py
      - pytz.py
      - django_braces.py
      - uwsgi.py
      - numpy.py
      - libsass.py
      - django.py
      - cffi.py
      - mysqlclient.py
      - alabaster.py
      - cheroot.py
      - sphinx_rtd_theme.py
      - mccabe.py
      - __init__.py
      - pyyaml.py
      - genshi.py
      - django_haystack.py
      - flake8.py
      - lazy-object-proxy.py
      - selenium.py
      - robozilla.py
      - websocket_client.py
      - graphene.py
    - __init__.py
- README.rst
- setup.py
- AUTHORS.rst
- setup.cfg
- HISTORY.rst
- .travis.yml
- CONTRIBUTING.rst
- tests
  - test_finder.py
  - test_changelogs.py
  - test_parser.py
  - test_commit_logs.py
  - test_pypi.py
  - __init__.py
  - conftest.py
- .gitignore
- docs
  - history.rst
  - Makefile
  - make.bat
  - usage.rst
  - readme.rst
  - authors.rst
  - index.rst
  - conf.py
  - contributing.rst
  - installation.rst
- MANIFEST.in
- tox.ini
- .pyup.yml
- requirements_dev.txt
- vcr
  - cassettes
    - tests.test_changelogs.test_silva_app_page.json
    - tests.test_changelogs.test_pylangacq.json
    - tests.test_changelogs.test_django_suit_rq.json
    - tests.test_changelogs.test_pylibrabbitmq.json
    - tests.test_changelogs.test_amphora.json
    - tests.test_changelogs.test_qiprofile_rest_client.json
    - tests.test_changelogs.test_1to001.json
    - tests.test_changelogs.test_att_iot_client.json
    - tests.test_changelogs.test_jinja2.json
    - tests.test_changelogs.test_aioh2.json
    - tests.test_changelogs.test_xmlpylighter.json
    - tests.test_changelogs.test_django_suit_sortable.json
    - tests.test_changelogs.test_playitagainsam.json
    - tests.test_changelogs.test_qiniu.json
    - tests.test_changelogs.test_buildout_autoextras.json
    - tests.test_changelogs.test_django_stw.json
    - tests.test_changelogs.test_django_coverage_plugin.json
    - tests.test_changelogs.test_msgpack_numpy.json
    - tests.test_changelogs.test_beautifulsoup4.json
    - tests.test_changelogs.test_six.json
    - tests.test_changelogs.test_plaster.json
    - tests.test_changelogs.test_bst_pygasus_security.json
    - tests.test_changelogs.test_django_statici18n.json
    - tests.test_changelogs.test_algoliasearch_django.json
    - tests.test_changelogs.test_tikapy.json
    - tests.test_changelogs.test_allensdk.json
    - tests.test_changelogs.test_bts_tools.json
    - tests.test_changelogs.test_ace.json
    - tests.test_changelogs.test_amico.json
    - tests.test_changelogs.test_muda.json
    - tests.test_changelogs.test_bst_pygasus_wsgi.json
    - tests.test_changelogs.test_factory_boy.json
    - tests.test_changelogs.test_mschematool.json
    - tests.test_changelogs.test_zodbtools.json
    - tests.test_changelogs.test_acp_calendar.json
    - tests.test_changelogs.test_abcpmc.json
    - tests.test_changelogs.test_alto.json
    - tests.test_changelogs.test_msisdn_cli.json
    - tests.test_changelogs.test_buildout_eggscleaner.json
    - tests.test_changelogs.test_django_strategy_field.json
    - tests.test_changelogs.test_buildout_script.json
    - tests.test_changelogs.test_pbr.json
    - tests.test_changelogs.test_abe.json
    - tests.test_changelogs.test_qiita.json
    - tests.test_changelogs.test_plecost.json
    - tests.test_changelogs.test_qipipe.json
    - tests.test_changelogs.test_argparse.json
    - tests.test_changelogs.test_mtj_f3u1.json
    - tests.test_changelogs.test_alfajor.json
    - tests.test_changelogs.test_matrix_angular_sdk.json
    - tests.test_changelogs.test_xlsx2csv.json
    - tests.test_changelogs.test_acorn.json
    - tests.test_changelogs.test_plank.json
    - tests.test_changelogs.test_ticketus.json
    - tests.test_changelogs.test_buildout_helpers.json
    - tests.test_changelogs.test_ami_push.json
    - tests.test_changelogs.test_planetary_test_data.json
    - tests.test_changelogs.test_qstring.json
    - tests.test_changelogs.test_python_amazon_product_api.json
    - tests.test_changelogs.test_aiocouchdb.json
    - tests.test_changelogs.test_python_ldap.json
    - tests.test_changelogs.test_pyli.json
    - tests.test_changelogs.test_build_commands.json
    - tests.test_changelogs.test_silva_core_conf.json
    - tests.test_changelogs.test_buildout_packagename.json
    - tests.test_changelogs.test_ipaddr.json
    - tests.test_changelogs.test_btx.json
    - tests.test_changelogs.test_tifffile.json
    - tests.test_changelogs.test_hack.json
    - tests.test_changelogs.test_aiogibson.json
    - tests.test_changelogs.test_h2o_pysparkling_1_6.json
    - tests.test_changelogs.test_ach.json
    - tests.test_changelogs.test_pysandbox.json
    - tests.test_changelogs.test_activity_monitor.json
    - tests.test_changelogs.test_acidfile.json
    - tests.test_changelogs.test_pylibftdi.json
    - tests.test_changelogs.test_promise.json
    - tests.test_changelogs.test_pylibacl.json
    - tests.test_changelogs.test_silva_app_redirectlink.json
    - tests.test_changelogs.test_redis.json
    - tests.test_changelogs.test_bson_lazy.json
    - tests.test_changelogs.test_xlsxwriterchan.json
    - tests.test_changelogs.test_pylapjv.json
    - tests.test_changelogs.test_haas.json
    - tests.test_changelogs.test_activityio.json
    - tests.test_changelogs.test_gzbus.json
    - tests.test_changelogs.test_playsound.json
    - tests.test_changelogs.test_py.json
    - tests.test_changelogs.test_kivy_okapi.json
    - tests.test_changelogs.test_amt.json
    - tests.test_changelogs.test_buildout_gc.json
    - tests.test_changelogs.test_timecode.json
    - tests.test_changelogs.test_xmlstats_py.json
    - tests.test_changelogs.test_browsermob_proxy.json
    - tests.test_changelogs.test_django_subscribe.json
    - tests.test_changelogs.test_alnair.json
    - tests.test_changelogs.test_amplecode.json
    - tests.test_changelogs.test_activity_feed.json
    - tests.test_changelogs.test_activecampaign.json
    - tests.test_changelogs.test_amo2kinto.json
    - tests.test_changelogs.test_bsdploy.json
    - tests.test_changelogs.test_selenium.json
    - tests.test_changelogs.test_mysqlclient.json
    - tests.test_changelogs.test_bst_pygasus_resources.json
    - tests.test_changelogs.test_sphinx_rtd_theme.json
    - tests.test_changelogs.test_pyleri.json
    - tests.test_changelogs.test_ff_find.json
    - tests.test_changelogs.test_playerdo.json
    - tests.test_changelogs.test_tilestache.json
    - tests.test_changelogs.test_planterbox.json
    - tests.test_changelogs.test_browserstacker.json
    - tests.test_changelogs.test_aio_pybars.json
    - tests.test_changelogs.test_altapay.json
    - tests.test_changelogs.test_xmlformatter.json
    - tests.test_changelogs.test_graphene.json
    - tests.test_changelogs.test_allmychanges.json
    - tests.test_changelogs.test_pyaudio.json
    - tests.test_changelogs.test_bsdconv.json
    - tests.test_changelogs.test_tiffcapture.json
    - tests.test_changelogs.test_amitu_hstore.json
    - tests.test_changelogs.test_django_fernet_fields.json
    - tests.test_changelogs.test_qrcode.json
    - tests.test_changelogs.test_kissanime_dl.json
    - tests.test_changelogs.test_btnamespace.json
    - tests.test_changelogs.test_play_scraper.json
    - tests.test_changelogs.test_ldap3.json
    - tests.test_changelogs.test_bst_pygasus_demo.json
    - tests.test_changelogs.test_dateutil.json
    - tests.test_changelogs.test_haystack.json
    - tests.test_changelogs.test_accloudtant.json
    - tests.test_changelogs.test_aio_yamlconfig.json
    - tests.test_changelogs.test_gwrappy.json
    - tests.test_changelogs.test_gbptestheat.json
    - tests.test_changelogs.test_planetpy.json
    - tests.test_changelogs.test_twine.json
    - tests.test_changelogs.test_kit.json
    - tests.test_changelogs.test_pyotp.json
    - tests.test_changelogs.test_kliko.json
    - tests.test_changelogs.test_ablog_cli.json
    - tests.test_changelogs.test_alkey.json
    - tests.test_changelogs.test_aio_manager.json
    - tests.test_changelogs.test_cheroot.json
    - tests.test_changelogs.test_pylibfreenect2.json
    - tests.test_changelogs.test_qllauncher.json
    - tests.test_changelogs.test_buffalofq.json
    - tests.test_changelogs.test_bubbles.json
    - tests.test_changelogs.test_3to2.json
    - tests.test_changelogs.test_silentdune_client.json
    - tests.test_changelogs.test_buildfox.json
    - tests.test_changelogs.test_buildchecker.json
    - tests.test_changelogs.test_pyzmq_static.json
    - tests.test_changelogs.test_17monip.json
    - tests.test_changelogs.test_qiita_spots.json
    - tests.test_changelogs.test_qonda.json
    - tests.test_changelogs.test_docutils.json
    - tests.test_changelogs.test_babel.json
    - tests.test_changelogs.test_platocdp_newsportlet.json
    - tests.test_changelogs.test_klaus.json
    - tests.test_changelogs.test_sijax.json
    - tests.test_changelogs.test_kinto_ldap.json
    - tests.test_changelogs.test_django_countries.json
    - tests.test_changelogs.test_silva_app_photogallery.json
    - tests.test_changelogs.test_django_summernote.json
    - tests.test_changelogs.test_json2.json
    - tests.test_changelogs.test_amqp_storm.json
    - tests.test_changelogs.test_mssqlcli.json
    - tests.test_changelogs.test_almond.json
    - tests.test_changelogs.test_bundler.json
    - tests.test_changelogs.test_py_trello.json
    - tests.test_changelogs.test_xm_charting.json
    - tests.test_changelogs.test_alogator.json
    - tests.test_changelogs.test_django_suit_locale.json
    - tests.test_changelogs.test_aiocoap.json
    - tests.test_changelogs.test_xlsxwriter.json
    - tests.test_changelogs.test_robozilla.json
    - tests.test_changelogs.test_qstk.json
    - tests.test_changelogs.test_40wt_common_tasks.json
    - tests.test_changelogs.test_msgflo.json
    - tests.test_changelogs.test_django_storages_redux.json
    - tests.test_changelogs.test_bugwarrior.json
    - tests.test_changelogs.test_planterbox_webdriver.json
    - tests.test_changelogs.test_hackernews_python.json
    - tests.test_changelogs.test_hackernews.json
    - tests.test_changelogs.test_tilematrix.json
    - tests.test_changelogs.test_buck_pprint.json
    - tests.test_changelogs.test_silva_app_shorturl.json
    - tests.test_changelogs.test_slc_facetedcalendar.json
    - tests.test_changelogs.test_silva_app_mediacontent.json
    - tests.test_changelogs.test_aartfaac_arthur.json
    - tests.test_changelogs.test_altgraph.json
    - tests.test_changelogs.test_xman.json
    - tests.test_changelogs.test_xmltodict.json
    - tests.test_changelogs.test_hackertray.json
    - tests.test_changelogs.test_pyldap.json
    - tests.test_changelogs.test_fs_extra.json
    - tests.test_changelogs.test_pep8_naming.json
    - tests.test_changelogs.test_mss.json
    - tests.test_changelogs.test_django_toolkit.json
    - tests.test_changelogs.test_kinto_http.json
    - tests.test_changelogs.test_launchpad_dkimpy.json
    - tests.test_changelogs.test_qpic.json
    - tests.test_changelogs.test_silva_app_subscriptions.json
    - tests.test_changelogs.test_altair.json
    - tests.test_changelogs.test_django_braces.json
    - tests.test_changelogs.test_algebraixlib.json
    - tests.test_changelogs.test_msaf.json
    - tests.test_changelogs.test_amifinder.json
    - tests.test_changelogs.test_gzip_reader.json
    - tests.test_changelogs.test_bucky.json
    - tests.test_changelogs.test_h2o_pysparkling_2_0.json
    - tests.test_changelogs.test_aacgmv2.json
    - tests.test_changelogs.test_mtj_jibber.json
    - tests.test_changelogs.test_sandboxlib.json
    - tests.test_changelogs.test_buildbot_travis.json
    - tests.test_changelogs.test_pyliblinear.json
    - tests.test_changelogs.test_alignment.json
    - tests.test_changelogs.test_tilequeue.json
    - tests.test_changelogs.test_silva_app_document.json
    - tests.test_changelogs.test_aiodns.json
    - tests.test_changelogs.test_silva_app_sitemap.json
    - tests.test_changelogs.test_django_subcommand.json
    - tests.test_changelogs.test_bst_pygasus_datamanager.json
    - tests.test_changelogs.test_mccabe.json
    - tests.test_changelogs.test_tickeys.json
    - tests.test_changelogs.test_habitat.json
    - tests.test_changelogs.test_django_su.json
    - tests.test_changelogs.test_bugzillatools.json
    - tests.test_changelogs.test_hacker.json
    - tests.test_changelogs.test_amfm_decompy.json
    - tests.test_changelogs.test_django_subs.json
    - tests.test_changelogs.test_aiobotocore_mirror.json
    - tests.test_changelogs.test_django_jinja.json
    - tests.test_changelogs.test_aioeventlet.json
    - tests.test_changelogs.test_xmljson.json
    - tests.test_changelogs.test_acquisition.json
    - tests.test_changelogs.test_3xsd.json
    - tests.test_changelogs.test_msd.json
    - tests.test_changelogs.test_platter.json
    - tests.test_changelogs.test_kinto_pusher.json
    - tests.test_changelogs.test_alotofeffort.json
    - tests.test_changelogs.test_django_filebrowser_no_grappelli_demencia.json
    - tests.test_changelogs.test_launchpad_authres.json
    - tests.test_changelogs.test_foolscap.json
    - tests.test_changelogs.test_pylibsass.json
    - tests.test_changelogs.test_brush.json
    - tests.test_changelogs.test_bufferkdtree.json
    - tests.test_changelogs.test_aioamqp.json
    - tests.test_changelogs.test_aiobotocore.json
    - tests.test_changelogs.test_qopen.json
    - tests.test_changelogs.test_aiohdfs.json
    - tests.test_changelogs.test_pyldavis.json
    - tests.test_changelogs.test_kittyfuzzer.json
    - tests.test_changelogs.test_kinto_fxa.json
    - tests.test_changelogs.test_qiutil.json
    - tests.test_changelogs.test_gxformat2.json
    - tests.test_changelogs.test_kipart.json
    - tests.test_changelogs.test_amp.json
    - tests.test_changelogs.test_mtb.json
    - tests.test_changelogs.test_django_sunset.json
    - tests.test_changelogs.test_mts.json
    - tests.test_changelogs.test_imapclient.json
    - tests.test_changelogs.test_pyliblo.json
    - tests.test_changelogs.test_sphinx_html5_basic_theme.json
    - tests.test_changelogs.test_altered_states.json
    - tests.test_changelogs.test_xmlrpcssl.json
    - tests.test_changelogs.test_algoliasearchasync.json
    - tests.test_changelogs.test_websocket_client.json
    - tests.test_changelogs.test_abclinuxuapi.json
    - tests.test_changelogs.test_pylibdmtx.json
    - tests.test_changelogs.test_hac.json
    - tests.test_changelogs.test_acme_mgmtserver.json
    - tests.test_changelogs.test_amitu_zutils.json
    - tests.test_changelogs.test_pyyaml.json
    - tests.test_changelogs.test_alm_solrindex.json
    - tests.test_changelogs.test_pyladies.json
    - tests.test_changelogs.test_browsercookiejar.json
    - tests.test_changelogs.test_acdcli.json
    - tests.test_changelogs.test_amqp.json
    - tests.test_changelogs.test_djangovisor.json
    - tests.test_changelogs.test_bugzilla2fedmsg.json
    - tests.test_changelogs.test_aioftp.json
    - tests.test_changelogs.test_amqp_dispatcher.json
    - tests.test_changelogs.test_kitchen.json
    - tests.test_changelogs.test_aiocron.json
    - tests.test_changelogs.test_launchpad_not_existent.json
    - tests.test_changelogs.test_bsdiff4.json
    - tests.test_changelogs.test_allanon.json
    - tests.test_changelogs.test_amadeus.json
    - tests.test_changelogs.test_pyinotify.json
    - tests.test_changelogs.test_experimental_noacquisition.json
    - tests.test_changelogs.test_pylibscrypt.json
    - tests.test_changelogs.test_qlutils.json
    - tests.test_changelogs.test_xmlrpclibex.json
    - tests.test_changelogs.test_pylastfm.json
    - tests.test_changelogs.test_playdeliver.json
    - tests.test_changelogs.test_brubeck.json
    - tests.test_changelogs.test_alp_proj.json
    - tests.test_changelogs.test_tictactoexxl.json
    - tests.test_changelogs.test_django_subdomain_instances.json
    - tests.test_changelogs.test_silex.json
    - tests.test_changelogs.test_msmbuilder.json
    - tests.test_changelogs.test_xmldataset.json
    - tests.test_changelogs.test_xmlenc.json
    - tests.test_changelogs.test_kitchensink.json
    - tests.test_changelogs.test_aiodjango.json
    - tests.test_changelogs.test_1pass.json
    - tests.test_changelogs.test_aadict.json
    - tests.test_changelogs.test_tilde.json
    - tests.test_changelogs.test_xlsx_streaming.json
    - tests.test_changelogs.test_mtools.json
    - tests.test_changelogs.test_silva_app_forest.json
    - tests.test_changelogs.test_abbyy.json
    - tests.test_changelogs.test_alembic.json
    - tests.test_changelogs.test_alabaster.json
    - tests.test_changelogs.test_qiniu_cli.json
    - tests.test_changelogs.test_tif2geojson.json
    - tests.test_changelogs.test_bruges.json
    - tests.test_changelogs.test_buildout_disablessl.json
    - tests.test_changelogs.test_requesocks.json
    - tests.test_changelogs.test_silva_batch.json
    - tests.test_changelogs.test_bts_proxy.json
    - tests.test_changelogs.test_django_sub_query.json
    - tests.test_changelogs.test_pywsman.json
    - tests.test_changelogs.test_django_support_tickets.json
    - tests.test_changelogs.test_buccaneer.json
    - tests.test_changelogs.test_abilian_sbe.json
    - tests.test_changelogs.test_qmenuview.json
    - tests.test_changelogs.test_mako.json
    - tests.test_changelogs.test_buildout_dumppickedversions2.json
    - tests.test_changelogs.test_aloe.json
    - tests.test_changelogs.test_silva_app_news.json
    - tests.test_changelogs.test_gunicorn.json
    - tests.test_changelogs.test_aloisius.json
    - tests.test_changelogs.test_django_registration_redux.json
    - tests.test_changelogs.test_bst_pygasus_session.json
    - tests.test_changelogs.test_whitenoise.json
    - tests.test_changelogs.test_gyroid.json
    - tests.test_changelogs.test_platocdp_timesheet.json
    - tests.test_changelogs.test_fake_factory.json
    - tests.test_changelogs.test_xmltag.json
    - tests.test_changelogs.test_allauth_watchdog_id.json
    - tests.test_changelogs.test_amqpstorm.json
    - tests.test_changelogs.test_mucloud.json
    - tests.test_changelogs.test_plantextract.json
    - tests.test_changelogs.test_acsone_recipe_odoo_pydev.json
    - tests.test_changelogs.test_115wangpan.json
    - tests.test_changelogs.test_bucho.json
    - tests.test_changelogs.test_abraxas.json
    - tests.test_changelogs.test_django_superform.json
    - tests.test_changelogs.test_aloe_django.json
    - tests.test_changelogs.test_amitu_websocket_client.json
    - tests.test_changelogs.test_silva_captcha.json
    - tests.test_commit_logs.test_changelogs.json
    - tests.test_changelogs.test_klein.json
    - tests.test_changelogs.test_allocine_wrapper.json
    - tests.test_changelogs.test_a2svm.json
    - tests.test_changelogs.test_planetaryimage.json
    - tests.test_changelogs.test_kitty_fuzzer.json
    - tests.test_changelogs.test_silva_core_cache.json
    - tests.test_changelogs.test_alot.json
    - tests.test_changelogs.test_djangorestframework.json
    - tests.test_changelogs.test_django_suit_dashboard.json
    - tests.test_changelogs.test_qixnat.json
    - tests.test_changelogs.test_playerpiano.json
    - tests.test_changelogs.test_tikz2pdf.json
    - tests.test_changelogs.test_amqpeek.json
    - tests.test_changelogs.test_pylama.json
    - tests.test_changelogs.test_btcndash.json
    - tests.test_changelogs.test_genshi.json
    - tests.test_changelogs.test_aio_periodic.json
    - tests.test_changelogs.test_django_subcommand2.json
    - tests.test_changelogs.test_xmlr.json
    - tests.test_changelogs.test_qt_binder.json
    - tests.test_changelogs.test_mrwolfe.json
    - tests.test_changelogs.test_django_suit.json
    - tests.test_changelogs.test_htmllib.json
    - tests.test_changelogs.test_tidehunter.json
    - tests.test_changelogs.test_player.json
    - tests.test_changelogs.test_ticktock.json
    - tests.test_changelogs.test_amplecode_recipe_template.json
    - tests.test_changelogs.test_django_supervisor.json
    - tests.test_changelogs.test_qpack.json
    - tests.test_changelogs.test_bugsy.json
    - tests.test_changelogs.test_amqplib.json
    - tests.test_changelogs.test_silp.json
    - tests.test_changelogs.test_kinto_redis.json
    - tests.test_changelogs.test_ablog_api.json
    - tests.test_changelogs.test_accept.json
    - tests.test_changelogs.test_acli.json
    - tests.test_changelogs.test_bsonrpc.json
    - tests.test_changelogs.test_mstranslator.json
    - tests.test_changelogs.test_h5cube.json
    - tests.test_changelogs.test_hachi.json
    - tests.test_changelogs.test_alipay.json
    - tests.test_changelogs.test_tilecloud_chain.json
    - tests.test_changelogs.test_silly_content_generator.json
    - tests.test_changelogs.test_dj_dashboard.json
    - tests.test_changelogs.test_bst_pygasus_core.json
    - tests.test_changelogs.test_bst_pygasus_i18n.json
    - tests.test_changelogs.test_abilian_core.json
    - tests.test_changelogs.test_timecodes.json
    - tests.test_changelogs.test_alertlogic.json
    - tests.test_changelogs.test_xm_theme.json
    - tests.test_changelogs.test_habanero.json
    - tests.test_changelogs.test_spacesocket.json
    - tests.test_changelogs.test_buildout_minitagificator.json
    - tests.test_changelogs.test_kinto_wizard.json
    - tests.test_changelogs.test_abydos.json
    - tests.test_changelogs.test_alembic_verify.json

import validators
from lxml import etree
from requests import ConnectionError
import re
import logging

logger = logging.getLogger(__name__)


def validate_url(url):
    """
    Validates the URL
    :param url:
    :return:
    """
    if validators.url(url):
        return url
    elif validators.domain(url):
        return "http://{}".format(url)
    return ""


def validate_repo_url(url):
    """
    Validates and formats `url` to be valid URL pointing to a repo on bitbucket.org or github.com
    :param url: str, URL
    :return: str, valid URL if valid repo, emptry string otherwise
    """
    try:
        if "github.com" in url:
            return re.findall(r"https?://w?w?w?.?github.com/[\w\-]+/[\w.-]+", url)[0]
        elif "bitbucket.org" in url:
            return re.findall(r"https?://bitbucket.org/[\w.-]+/[\w.-]+", url)[0] + "/src/"
        elif "launchpad.net" in url:
            return re.findall(r"https?://launchpad.net/[\w.-]+", url)[0]
        elif "sourceforge.net" in url:
            mo = re.match(r"https?://sourceforge.net/projects/"
                          r"([\w.-]+)/", url, re.I)
            template = "https://sourceforge.net/p/{}/code/HEAD/tree/trunk/src/"
            return template.format(mo.groups()[0])
    except (IndexError, AttributeError):
        pass
    return ""


def contains_project_name(name, link):
    """
    Checks if the given link `somewhat` contains the project name.
    :param name: str, project name
    :param link: str, link
    :return: bool, True if the link contains the project name
    """
    def unclutter(string):
        # strip out all python references and remove all excessive characters
        string = string.lower().replace("_", "-").replace(".", "-")
        for replace in ["python-", "py-", "-py", "-python"]:
            string = string.replace(replace, "")
        return re.sub("[^0123456789 a-zA-Z]", "", string).strip()
    return unclutter(name) in unclutter(link)


def find_repo_urls(session, name, candidates):
    """
    Visits the given URL candidates and searches the page for valid links to a repository.
    :param session: requests Session instance
    :param name: str, project name
    :param candidates: list, list of URL candidates
    :return: str, URL to a repo
    """
    for _url in candidates:
        if validate_url(_url):
            try:
                resp = session.get(_url)
                if resp.status_code == 200:
                    tree = etree.HTML(resp.content)
                    if tree:
                        for link in frozenset([str(l) for l in tree.xpath("//a/@href")]):
                            # check if the link 1) is to github.com / bitbucket.org AND 2) somewhat
                            # contains the project name
                            if ("github.com" in link or "bitbucket.org" in link or
                                    "sourceforge.net" in link) \
                                    and contains_project_name(name, link):
                                link = validate_url(validate_repo_url(url=link))
                                if link:
                                    logger.debug("Found repo URL {}".format(link))
                                    yield link
            except ConnectionError:
                # we really don't care about connection errors here. a lot of project pages are simply
                # down because the project is no longer maintained
                pass
            except etree.XMLSyntaxError:
                # unable to parse HTML
                pass
            except UnicodeEncodeError:
                pass

# changelogs come in all forms and colors. This set contains most of them, e.g. (HISTORY, history,
# History.md, HISTORY.rst ... etc.)
CHANGELOG_FILENAME_CANDIDATES = frozenset([
    item for sublist in [
        [f + e, f.upper() + e, f.capitalize() + e] for f in [
            "history", "news", "releases", "release", "changes",
            "changelog", "log"
        ] for e in [
            "", ".txt", ".md", ".rst", ".adoc"
        ]
        ] for item in sublist
] + ["ReleaseNotes.wiki"])

DOCS_CANDIDATES = frozenset([
    "docs", "doc", "documentation", "docs-src", "wiki",
    "docs/", "doc/", "documentation/", "docs-src/", "wiki/"
])


def find_changelog(session, repo_url, deep=True):
    """
    Tries to find changelogs on the given `repo_url`.
    :param session: requests Session instance
    :param repo_url: str, URL to the repo
    :param deep: bool, deep search
    :return: str, URL to the raw changelog content
    """
    logger.debug("Trying to find changelog on repo {}".format(repo_url))
    resp = session.get(repo_url)
    if resp.status_code == 200:
        # build up a list of URLs on this repo. xpath() isn't returning raw strings, so we have to
        # convert them first. We also need to strip out all GET parameters if any.
        tree = etree.HTML(resp.content)
        try:
            links = frozenset([str(l).split("?")[0] for l in tree.xpath("//a/@href")])
        except UnicodeEncodeError:
            links = []
        match, found = False, False
        for link in links:
            # we are going to check for valid changelog links on the root first. We do that by
            # checking if the link ends with one of out changelog filename candidates.
            for candidate in CHANGELOG_FILENAME_CANDIDATES:
                if link.endswith(candidate):
                    if "github.com" in repo_url and "blob" in link:
                        link = link.replace(repo_url, "")
                        match = validate_url("https://raw.githubusercontent.com" + link.replace("/blob/", "/"))
                    elif "bitbucket.org" in repo_url and "src" in link:
                        match = validate_url("https://bitbucket.org" + link.replace("/src/", "/raw/"))
                    elif "sourceforge.net" in repo_url:
                        match = validate_url(repo_url + link + "?format=raw")
                    if match:
                        yield match
                        match, found = False, True

        # if this is a deep search and we haven't found any changelogs on the repo root, we are
        # going to check every potential doc page.
        if deep and not found:
            for link in links:
                sublink = False
                for doc_candidate in DOCS_CANDIDATES:
                    if link.endswith(doc_candidate):
                        if "github.com" in repo_url and "tree" in link:
                            if link.startswith("https://github.com"):
                                sublink = link
                            else:
                                sublink = "https://github.com" + link
                        elif "bitbucket.org" in repo_url and "src" in link:
                            sublink = "https://bitbucket.org" + link
                        # if we find a valid link to a doc subdirectory on the repo call this
                        # function again and yield all possible changelog hits
                        if sublink:
                            for _url in find_changelog(session, sublink, deep=False):
                                yield _url
                                sublink = False


def find_release_page(session, repo_url):
    if "github.com" in repo_url:
        logger.debug("Unable to find changelog on {}, try release page".format(repo_url))
        try:
            username, reponame = repo_url.split("/")[3:5]
            # try to fetch the release page. if it 200s, yield the release page
            # api URL for further processing
            resp = session.get("https://github.com/{username}/{reponame}/releases".format(
                username=username, reponame=reponame
            ))
            if resp.status_code == 200:
                yield "https://api.github.com/repos/{username}/{reponame}/releases".format(
                    username=username, reponame=reponame
                )
        except IndexError:
            logger.debug("Unable to construct releases url for {}".format(repo_url))


def filter_repo_urls(candidates):
    """
    Filters down a list of URL candidates
    :param candidates: list, URL candidates
    :return: set, Repo URLs
    """
    # first, we are going to filter down the URL candidates to be all valid urls
    candidates = set(url for url in [validate_url(_url) for _url in candidates] if url)
    logger.info("Got repo candidates {}".format(candidates))
    repos = set(url for url in [validate_repo_url(_url) for _url in candidates] if url)
    logger.info("Filtered initial candidates down to {}".format(repos))

    return repos


def find_changelogs(session, name, candidates):
    """
    Tries to find changelogs on the given URL candidates
    :param session: requests Session instance
    :param name: str, project name
    :param candidates: list, URL candidates
    :return: tuple, (set(changelog URLs), set(repo URLs))
    """
    repos = filter_repo_urls(candidates=candidates)
    # if we are lucky and there isn't a valid repo URL in our URL candidates, we need to go deeper
    # and check the URLs if they contain a link to a repo
    if not repos:
        logger.info("No repo found, trying to find one on related sites {}".format(candidates))
        repos = set(find_repo_urls(session, name, candidates))

    urls = []
    for repo in repos:
        for url in find_changelog(session, repo):
            if not contains_project_name(name, url):
                logger.debug("Found changelog on {url}, but it does not contain the project name "
                             "{name}, ""aborting".format(name=name, url=url))
                continue
            urls.append(url)

    if not urls:
        # at this point we failed to fetch a changelog from plain files. we might find one on the
        # github release page.
        logger.debug("No plain changelog urls found, trying release page")
        for repo in repos:
            # make sure the link to the release page contains the project name
            if contains_project_name(name, repo):
                for url in find_release_page(session, repo):
                    urls.append(url)
    return set(urls), repos


def find_git_repo(session, name, candidates):
    """
    Tries to find git repos on the given URL candidates
    :param session: requests Session instance
    :param name: str, project name
    :param candidates: list, URL candidates
    :return: tuple, (set(git URLs), set(repo URLs))
    """

    repos = filter_repo_urls(candidates=candidates)

    # if we are lucky and there isn't a valid repo URL in our URL candidates, we need to go deeper
    # and check the URLs if they contain a link to a repo
    if not repos:
        logger.info("No repo found, trying to find one on related sites {}".format(candidates))
        repos = set(find_repo_urls(session, name, candidates))

    urls = []
    for repo in repos:
        username, reponame = repo.split("/")[3:5]
        if "github.com" in repo:
            urls.append(
                "https://github.com/{username}/{reponame}.git".format(
                    username=username, reponame=reponame
                )
            )
        elif "bitbucket.org" in repo:
            urls.append(
                "https://bitbucket.org/{username}/{reponame}".format(
                    username=username, reponame=reponame
                )
            )
    return set(urls), repos