java source code of TEDScraper

Babler-master
- src
  - main
    - resources
      - languageData
        eng.txt
        language_fp
        miq-3grams.txt
        mfe-3grams.txt
        suk-3grams.txt
        gd-3grams.txt
        nia-3grams.txt
        mic-3grams.txt
        ast-3grams.txt
        nym-3grams.txt
        crs-3grams.txt
        val-3grams.txt
        buc-3grams.txt
        xsm-3grams.txt
        fon-3grams.txt
        zpa-3grams.txt
        gil-3grams.txt
        yo-3grams.txt
        lv-3grams.txt
        vls-3grams.txt
        lus-3grams.txt
        br-3grams.txt
        huu-3grams.txt
        tob-3grams.txt
        mus-3grams.txt
        ru-3grams.txt
        hna-3grams.txt
        pem-3grams.txt
        sco-3grams.txt
        srn-3grams.txt
        gjn-3grams.txt
        bem-3grams.txt
        hil-3grams.txt
        jv-3grams.txt
        ako-3grams.txt
        bas-3grams.txt
        ne-3grams.txt
        as-3grams.txt
        lns-3grams.txt
        chj-3grams.txt
        cu-3grams.txt
        nd-3grams.txt
        id-3grams.txt
        toi-3grams.txt
        sk-3grams.txt
        prv-3grams.txt
        agr-3grams.txt
        fo-3grams.txt
        ba-3grams.txt
        tkl-3grams.txt
        an-3grams.txt
        sid-3grams.txt
        pis-3grams.txt
        kbd-3grams.txt
        pdc-3grams.txt
        kwm-3grams.txt
        mcd-3grams.txt
        sg-3grams.txt
        mam-3grams.txt
        ee-3grams.txt
        yao-3grams.txt
        is-3grams.txt
        es-3grams.txt
        naq-3grams.txt
        bg-3grams.txt
        bm-3grams.txt
        cjk-3grams.txt
        ty-3grams.txt
        tab-3grams.txt
        mlu-3grams.txt
        sv-3grams.txt
        umb-3grams.txt
        mo-3grams.txt
        it-3grams.txt
        cy-3grams.txt
        cak-3grams.txt
        ur-3grams.txt
        nyk-3grams.txt
        srd-3grams.txt
        lij-3grams.txt
        ia-3grams.txt
        ga-3grams.txt
        lol-3grams.txt
        llh-3grams.txt
        diq-3grams.txt
        mua-3grams.txt
        ogo-3grams.txt
        cot-3grams.txt
        pcm-3grams.txt
        hr-3grams.txt
        igl-3grams.txt
        kqn-3grams.txt
        kwu-3grams.txt
        lun-3grams.txt
        sr-3grams.txt
        tiv-3grams.txt
        min-3grams.txt
        mos-3grams.txt
        ms-3grams.txt
        inh-3grams.txt
        mzn-3grams.txt
        hve-3grams.txt
        qug-3grams.txt
        gkn-3grams.txt
        gu-3grams.txt
        uk-3grams.txt
        yap-3grams.txt
        uz-3grams.txt
        czt-3grams.txt
        hi-3grams.txt
        la-3grams.txt
        et-3grams.txt
        teo-3grams.txt
        mau-3grams.txt
        pag-3grams.txt
        wls-3grams.txt
        tll-3grams.txt
        gba-3grams.txt
        frr-3grams.txt
        tvl-3grams.txt
        wa-3grams.txt
        myv-3grams.txt
        bi-3grams.txt
        csb-3grams.txt
        haw-3grams.txt
        btb-3grams.txt
        mt-3grams.txt
        tpi-3grams.txt
        guc-3grams.txt
        kac-3grams.txt
        lue-3grams.txt
        luo-3grams.txt
        yad-3grams.txt
        da-3grams.txt
        lua-3grams.txt
        wal-3grams.txt
        lms-3grams.txt
        seh-3grams.txt
        en-3grams.txt
        kok-3grams.txt
        fj-3grams.txt
        ppl-3grams.txt
        fuf-3grams.txt
        cbs-3grams.txt
        lbe-3grams.txt
        war-3grams.txt
        af-3grams.txt
        ami-3grams.txt
        emk-3grams.txt
        ve-3grams.txt
        byv-3grams.txt
        tem-3grams.txt
        dar-3grams.txt
        pa-3grams.txt
        mr-3grams.txt
        dz-3grams.txt
        nmf-3grams.txt
        tg-3grams.txt
        su-3grams.txt
        pih-3grams.txt
        kab-3grams.txt
        kpe-3grams.txt
        lia-3grams.txt
        ban-3grams.txt
        mir-3grams.txt
        bba-3grams.txt
        vi-3grams.txt
        got-3grams.txt
        kbp-3grams.txt
        pon-3grams.txt
        nv-3grams.txt
        sus-3grams.txt
        dua-3grams.txt
        chk-3grams.txt
        kam-3grams.txt
        de-3grams.txt
        ro-3grams.txt
        iso-3grams.txt
        gsw-3grams.txt
        bik-3grams.txt
        tn-3grams.txt
        frp-3grams.txt
        ha-3grams.txt
        snk-3grams.txt
        koo-3grams.txt
        nn-3grams.txt
        fur-3grams.txt
        csa-3grams.txt
        se-3grams.txt
        ig-3grams.txt
        dsb-3grams.txt
        he-3grams.txt
        amr-3grams.txt
        son-3grams.txt
        cop-3grams.txt
        sum-3grams.txt
        mrj-3grams.txt
        mad-3grams.txt
        nah-3grams.txt
        ml-3grams.txt
        swb-3grams.txt
        ada-3grams.txt
        kmb-3grams.txt
        scn-3grams.txt
        rup-3grams.txt
        kde-3grams.txt
        maz-3grams.txt
        ood-3grams.txt
        gym-3grams.txt
        zap-3grams.txt
        ab-3grams.txt
        ku-3grams.txt
        ar-3grams.txt
        za-3grams.txt
        bci-3grams.txt
        prq-3grams.txt
        lu-3grams.txt
        tum-3grams.txt
        ttj-3grams.txt
        sw-3grams.txt
        cuk-3grams.txt
        znd-3grams.txt
        nnb-3grams.txt
        lt-3grams.txt
        kwn-3grams.txt
        mhi-3grams.txt
        bug-3grams.txt
        hsb-3grams.txt
        oj-3grams.txt
        kk-3grams.txt
        toj-3grams.txt
        gaa-3grams.txt
        ang-3grams.txt
        mho-3grams.txt
        to-3grams.txt
        ky-3grams.txt
        zh-3grams.txt
        bin-3grams.txt
        ki-3grams.txt
        ss-3grams.txt
        bua-3grams.txt
        cs-3grams.txt
        enz-3grams.txt
        men-3grams.txt
        st-3grams.txt
        kum-3grams.txt
        ka-3grams.txt
        ug-3grams.txt
        kj-3grams.txt
        tbz-3grams.txt
        llr-3grams.txt
        cnh-3grams.txt
        kr-3grams.txt
        pbb-3grams.txt
        efi-3grams.txt
        kck-3grams.txt
        vec-3grams.txt
        pms-3grams.txt
        cic-3grams.txt
        lo-3grams.txt
        chw-3grams.txt
        pl-3grams.txt
        bal-3grams.txt
        rcf-3grams.txt
        bn-3grams.txt
        niu-3grams.txt
        rar-3grams.txt
        am-3grams.txt
        rw-3grams.txt
        nb-3grams.txt
        ak-3grams.txt
        eml-3grams.txt
        mg-3grams.txt
        ps-3grams.txt
        sl-3grams.txt
        its-3grams.txt
        sop-3grams.txt
        mwv-3grams.txt
        cni-3grams.txt
        hu-3grams.txt
        ngl-3grams.txt
        kri-3grams.txt
        bs-3grams.txt
        krc-3grams.txt
        aja-3grams.txt
        iba-3grams.txt
        gv-3grams.txt
        lld-3grams.txt
        nba-3grams.txt
        arl-3grams.txt
        ln-3grams.txt
        fud-3grams.txt
        gsc-3grams.txt
        tr-3grams.txt
        kwk-3grams.txt
        mk-3grams.txt
        shs-3grams.txt
        zu-3grams.txt
        kl-3grams.txt
        eu-3grams.txt
        nds-3grams.txt
        be-3grams.txt
        udm-3grams.txt
        kn-3grams.txt
        xh-3grams.txt
        textcat.conf
        mdf-3grams.txt
        cv-3grams.txt
        ff-3grams.txt
        lnc-3grams.txt
        kek-3grams.txt
        kwf-3grams.txt
        xal-3grams.txt
        ndc-3grams.txt
        tet-3grams.txt
        lad-3grams.txt
        ho-3grams.txt
        kcc-3grams.txt
        tzc-3grams.txt
        sm-3grams.txt
        ti-3grams.txt
        om-3grams.txt
        tsc-3grams.txt
        ilo-3grams.txt
        ts-3grams.txt
        dag-3grams.txt
        amc-3grams.txt
        el-3grams.txt
        srr-3grams.txt
        dyo-3grams.txt
        lg-3grams.txt
        ame-3grams.txt
        bh-3grams.txt
        cr-3grams.txt
        ay-3grams.txt
        cab-3grams.txt
        na-3grams.txt
        bar-3grams.txt
        so-3grams.txt
        nyn-3grams.txt
        km-3grams.txt
        eo-3grams.txt
        av-3grams.txt
        nr-3grams.txt
        mcf-3grams.txt
        or-3grams.txt
        bo-3grams.txt
        hni-3grams.txt
        table.txt
        ng-3grams.txt
        ta-3grams.txt
        tzm-3grams.txt
        ptb-3grams.txt
        os-3grams.txt
        arn-3grams.txt
        dhv-3grams.txt
        kg-3grams.txt
        boa-3grams.txt
        shp-3grams.txt
        nl-3grams.txt
        gl-3grams.txt
        pam-3grams.txt
        tk-3grams.txt
        acu-3grams.txt
        srm-3grams.txt
        tt-3grams.txt
        hy-3grams.txt
        alt-3grams.txt
        az-3grams.txt
        kv-3grams.txt
        cpu-3grams.txt
        sba-3grams.txt
        tig-3grams.txt
        li-3grams.txt
        urh-3grams.txt
        meu-3grams.txt
        bum-3grams.txt
        mxv-3grams.txt
        ht-3grams.txt
        rn-3grams.txt
        gn-3grams.txt
        pt-3grams.txt
        ch-3grams.txt
        co-3grams.txt
        nap-3grams.txt
        fa-3grams.txt
        gag-3grams.txt
        hne-3grams.txt
        ceb-3grams.txt
        mh-3grams.txt
        lb-3grams.txt
        iu-3grams.txt
        ksh-3grams.txt
        abn-3grams.txt
        fi-3grams.txt
        ca-3grams.txt
        rug-3grams.txt
        hz-3grams.txt
        te-3grams.txt
        mn-3grams.txt
        sd-3grams.txt
        nzi-3grams.txt
        lgg-3grams.txt
        lch-3grams.txt
        vmf-3grams.txt
        my-3grams.txt
        prs-3grams.txt
        guw-3grams.txt
        lmo-3grams.txt
        rnd-3grams.txt
        llj-3grams.txt
        loz-3grams.txt
        wo-3grams.txt
        ivv-3grams.txt
        nso-3grams.txt
        cbr-3grams.txt
        sq-3grams.txt
        frf-3grams.txt
        sn-3grams.txt
        ddn-3grams.txt
        nen-3grams.txt
        rom-3grams.txt
        sc-3grams.txt
        pap-3grams.txt
        dyu-3grams.txt
        kjh-3grams.txt
        pau-3grams.txt
        tl-3grams.txt
        ny-3grams.txt
        zea-3grams.txt
        bfa-3grams.txt
        tos-3grams.txt
        not-3grams.txt
        ura-3grams.txt
        yi-3grams.txt
        fr-3grams.txt
        ach-3grams.txt
        vmw-3grams.txt
        yaf-3grams.txt
        dga-3grams.txt
        rm-3grams.txt
        qu-3grams.txt
        jiv-3grams.txt
        ace-3grams.txt
        kha-3grams.txt
        ktu-3grams.txt
        cbt-3grams.txt
        yua-3grams.txt
        kos-3grams.txt
        mi-3grams.txt
        fy-3grams.txt
        cbu-3grams.txt
      - MappedCodes.txt
    - java
      - edu
        columbia
        main
        article_extraction
        PostExtractor.java
        DiffbotArticle.java
        LanguageWithPostCount.java
        FileSaver.java
        TEDScraper.java
        configuration
        ConfigFromFile.properties
        TwitterKeysConfiguration.java
        ConfigFromFile.java
        BabelConfig.java
        HTTPClient.java
        LogDBEntry.java
        YouTube
        YouTubeCaptionsScraper.java
        db
        DAO.java
        Models
        Tweet.java
        BlogPost.java
        ForumPost.java
        DBEntry.java
        LogEntry.java
        MongoDB.java
        ExportToText.java
        twitter
        TwitterCodeSwitchSJobManager.java
        TwitterJobManager.java
        TwitterKey.java
        TwitterSentimentScraper.java
        TwitterJobManagerUser.java
        TwitterUsersScraper.java
        TwitterScraper.java
        TwitterSentimentJobManager.java
        TopsyTweet.java
        TwitterCodeSwitchScraper.java
        Utils.java
        LanguageDataManager.java
        google
        GoogleCSE.java
        BabelMain.java
        FileOpener.java
        MTHttpClient.java
        collection
        BabelJob.java
        BabelProducer.java
        BabelScraper.java
        BabelBroker.java
        RSSScraper.java
        BabelConsumer.java
        screen_logging
        ViewManager.java
        TaskLogger.java
        LogDB.java
        language_id
        LanguageCode.java
        LanguageDetector.java
        textcat
        NGramEntryComparator.java
        MyProperties.java
        FingerPrint.java
        TextCategorizer.java
        Result.java
        LanguageClassifier.java
        cld
        Encoding.java
        CLDHints.java
        Cld2Library.java
        Result.java
        CLDLanguaeDetectorPyWrapper.java
        Cld2.java
        Language.java
        com
        detectLanguage
        Client.java
        responses
        DetectResponse.java
        BatchDetectionsData.java
        ErrorData.java
        ErrorResponse.java
        DetectionsData.java
        StatusResponse.java
        Response.java
        BatchDetectResponse.java
        errors
        APIError.java
        DetectLanguage.java
        lingpipe
        Munge.java
        LingPipe.java
        bing
        AzureSearchQuery.java
        blogspot_scraper
        BSSearchProducer.java
        BSBroker.java
        BSJob.java
        BSFetcherAndSaver.java
        BSJobManager.java
        phpBBScraper
        BBJob.java
        BBSearchProducer.java
        BBBroker.java
        BBFetcherAndSaver.java
        BBJobManager.java
        BBThread.java
        BBPost.java
        normalization
        TwitterNormalizer.java
      - .DS_Store
  - test
    - resources
      - languageData
        raw
        language_fp
        miq-3grams.txt
        mfe-3grams.txt
        suk-3grams.txt
        gd-3grams.txt
        nia-3grams.txt
        mic-3grams.txt
        ast-3grams.txt
        nym-3grams.txt
        crs-3grams.txt
        val-3grams.txt
        buc-3grams.txt
        xsm-3grams.txt
        fon-3grams.txt
        zpa-3grams.txt
        gil-3grams.txt
        yo-3grams.txt
        lv-3grams.txt
        vls-3grams.txt
        lus-3grams.txt
        br-3grams.txt
        huu-3grams.txt
        tob-3grams.txt
        mus-3grams.txt
        ru-3grams.txt
        hna-3grams.txt
        pem-3grams.txt
        sco-3grams.txt
        srn-3grams.txt
        gjn-3grams.txt
        bem-3grams.txt
        hil-3grams.txt
        jv-3grams.txt
        ako-3grams.txt
        bas-3grams.txt
        ne-3grams.txt
        as-3grams.txt
        lns-3grams.txt
        chj-3grams.txt
        cu-3grams.txt
        nd-3grams.txt
        id-3grams.txt
        toi-3grams.txt
        sk-3grams.txt
        prv-3grams.txt
        agr-3grams.txt
        fo-3grams.txt
        ba-3grams.txt
        tkl-3grams.txt
        an-3grams.txt
        sid-3grams.txt
        pis-3grams.txt
        kbd-3grams.txt
        pdc-3grams.txt
        kwm-3grams.txt
        mcd-3grams.txt
        sg-3grams.txt
        mam-3grams.txt
        ee-3grams.txt
        yao-3grams.txt
        is-3grams.txt
        es-3grams.txt
        naq-3grams.txt
        bg-3grams.txt
        bm-3grams.txt
        cjk-3grams.txt
        ty-3grams.txt
        tab-3grams.txt
        mlu-3grams.txt
        sv-3grams.txt
        umb-3grams.txt
        mo-3grams.txt
        it-3grams.txt
        cy-3grams.txt
        cak-3grams.txt
        ur-3grams.txt
        nyk-3grams.txt
        srd-3grams.txt
        lij-3grams.txt
        ia-3grams.txt
        ga-3grams.txt
        lol-3grams.txt
        llh-3grams.txt
        diq-3grams.txt
        mua-3grams.txt
        ogo-3grams.txt
        cot-3grams.txt
        pcm-3grams.txt
        hr-3grams.txt
        igl-3grams.txt
        kqn-3grams.txt
        kwu-3grams.txt
        lun-3grams.txt
        sr-3grams.txt
        tiv-3grams.txt
        min-3grams.txt
        mos-3grams.txt
        ms-3grams.txt
        inh-3grams.txt
        mzn-3grams.txt
        hve-3grams.txt
        qug-3grams.txt
        gkn-3grams.txt
        gu-3grams.txt
        uk-3grams.txt
        yap-3grams.txt
        uz-3grams.txt
        czt-3grams.txt
        hi-3grams.txt
        la-3grams.txt
        et-3grams.txt
        teo-3grams.txt
        mau-3grams.txt
        pag-3grams.txt
        wls-3grams.txt
        tll-3grams.txt
        gba-3grams.txt
        frr-3grams.txt
        tvl-3grams.txt
        wa-3grams.txt
        myv-3grams.txt
        bi-3grams.txt
        csb-3grams.txt
        haw-3grams.txt
        btb-3grams.txt
        mt-3grams.txt
        tpi-3grams.txt
        guc-3grams.txt
        kac-3grams.txt
        lue-3grams.txt
        luo-3grams.txt
        yad-3grams.txt
        da-3grams.txt
        lua-3grams.txt
        wal-3grams.txt
        lms-3grams.txt
        seh-3grams.txt
        en-3grams.txt
        kok-3grams.txt
        fj-3grams.txt
        ppl-3grams.txt
        fuf-3grams.txt
        cbs-3grams.txt
        lbe-3grams.txt
        war-3grams.txt
        af-3grams.txt
        ami-3grams.txt
        emk-3grams.txt
        ve-3grams.txt
        byv-3grams.txt
        tem-3grams.txt
        dar-3grams.txt
        pa-3grams.txt
        mr-3grams.txt
        dz-3grams.txt
        nmf-3grams.txt
        tg-3grams.txt
        su-3grams.txt
        pih-3grams.txt
        kab-3grams.txt
        kpe-3grams.txt
        lia-3grams.txt
        ban-3grams.txt
        mir-3grams.txt
        bba-3grams.txt
        vi-3grams.txt
        got-3grams.txt
        kbp-3grams.txt
        pon-3grams.txt
        nv-3grams.txt
        sus-3grams.txt
        dua-3grams.txt
        chk-3grams.txt
        kam-3grams.txt
        de-3grams.txt
        ro-3grams.txt
        iso-3grams.txt
        gsw-3grams.txt
        bik-3grams.txt
        tn-3grams.txt
        frp-3grams.txt
        ha-3grams.txt
        snk-3grams.txt
        koo-3grams.txt
        nn-3grams.txt
        fur-3grams.txt
        csa-3grams.txt
        se-3grams.txt
        ig-3grams.txt
        dsb-3grams.txt
        he-3grams.txt
        amr-3grams.txt
        son-3grams.txt
        cop-3grams.txt
        sum-3grams.txt
        mrj-3grams.txt
        mad-3grams.txt
        nah-3grams.txt
        ml-3grams.txt
        swb-3grams.txt
        ada-3grams.txt
        kmb-3grams.txt
        scn-3grams.txt
        rup-3grams.txt
        kde-3grams.txt
        maz-3grams.txt
        ood-3grams.txt
        gym-3grams.txt
        zap-3grams.txt
        ab-3grams.txt
        ku-3grams.txt
        ar-3grams.txt
        za-3grams.txt
        bci-3grams.txt
        prq-3grams.txt
        lu-3grams.txt
        tum-3grams.txt
        ttj-3grams.txt
        sw-3grams.txt
        cuk-3grams.txt
        znd-3grams.txt
        nnb-3grams.txt
        lt-3grams.txt
        kwn-3grams.txt
        mhi-3grams.txt
        bug-3grams.txt
        hsb-3grams.txt
        oj-3grams.txt
        kk-3grams.txt
        toj-3grams.txt
        gaa-3grams.txt
        ang-3grams.txt
        mho-3grams.txt
        to-3grams.txt
        ky-3grams.txt
        zh-3grams.txt
        bin-3grams.txt
        ki-3grams.txt
        ss-3grams.txt
        bua-3grams.txt
        cs-3grams.txt
        enz-3grams.txt
        men-3grams.txt
        st-3grams.txt
        kum-3grams.txt
        ka-3grams.txt
        ug-3grams.txt
        kj-3grams.txt
        tbz-3grams.txt
        llr-3grams.txt
        cnh-3grams.txt
        kr-3grams.txt
        pbb-3grams.txt
        efi-3grams.txt
        kck-3grams.txt
        vec-3grams.txt
        pms-3grams.txt
        cic-3grams.txt
        lo-3grams.txt
        chw-3grams.txt
        pl-3grams.txt
        bal-3grams.txt
        rcf-3grams.txt
        bn-3grams.txt
        niu-3grams.txt
        rar-3grams.txt
        am-3grams.txt
        rw-3grams.txt
        nb-3grams.txt
        ak-3grams.txt
        eml-3grams.txt
        mg-3grams.txt
        ps-3grams.txt
        sl-3grams.txt
        its-3grams.txt
        sop-3grams.txt
        mwv-3grams.txt
        cni-3grams.txt
        hu-3grams.txt
        ngl-3grams.txt
        kri-3grams.txt
        bs-3grams.txt
        krc-3grams.txt
        aja-3grams.txt
        iba-3grams.txt
        gv-3grams.txt
        lld-3grams.txt
        nba-3grams.txt
        arl-3grams.txt
        ln-3grams.txt
        fud-3grams.txt
        gsc-3grams.txt
        tr-3grams.txt
        kwk-3grams.txt
        mk-3grams.txt
        shs-3grams.txt
        zu-3grams.txt
        kl-3grams.txt
        eu-3grams.txt
        nds-3grams.txt
        be-3grams.txt
        udm-3grams.txt
        kn-3grams.txt
        xh-3grams.txt
        textcat.conf
        mdf-3grams.txt
        cv-3grams.txt
        ff-3grams.txt
        lnc-3grams.txt
        kek-3grams.txt
        kwf-3grams.txt
        xal-3grams.txt
        ndc-3grams.txt
        tet-3grams.txt
        lad-3grams.txt
        ho-3grams.txt
        kcc-3grams.txt
        tzc-3grams.txt
        sm-3grams.txt
        ti-3grams.txt
        om-3grams.txt
        tsc-3grams.txt
        ilo-3grams.txt
        ts-3grams.txt
        dag-3grams.txt
        amc-3grams.txt
        el-3grams.txt
        srr-3grams.txt
        dyo-3grams.txt
        lg-3grams.txt
        ame-3grams.txt
        bh-3grams.txt
        cr-3grams.txt
        ay-3grams.txt
        cab-3grams.txt
        na-3grams.txt
        bar-3grams.txt
        so-3grams.txt
        nyn-3grams.txt
        km-3grams.txt
        eo-3grams.txt
        av-3grams.txt
        nr-3grams.txt
        mcf-3grams.txt
        or-3grams.txt
        bo-3grams.txt
        hni-3grams.txt
        table.txt
        ng-3grams.txt
        ta-3grams.txt
        tzm-3grams.txt
        ptb-3grams.txt
        os-3grams.txt
        arn-3grams.txt
        dhv-3grams.txt
        kg-3grams.txt
        boa-3grams.txt
        shp-3grams.txt
        nl-3grams.txt
        gl-3grams.txt
        pam-3grams.txt
        tk-3grams.txt
        acu-3grams.txt
        srm-3grams.txt
        tt-3grams.txt
        hy-3grams.txt
        alt-3grams.txt
        az-3grams.txt
        kv-3grams.txt
        cpu-3grams.txt
        sba-3grams.txt
        tig-3grams.txt
        li-3grams.txt
        urh-3grams.txt
        meu-3grams.txt
        bum-3grams.txt
        mxv-3grams.txt
        ht-3grams.txt
        rn-3grams.txt
        gn-3grams.txt
        pt-3grams.txt
        ch-3grams.txt
        co-3grams.txt
        nap-3grams.txt
        fa-3grams.txt
        gag-3grams.txt
        hne-3grams.txt
        ceb-3grams.txt
        mh-3grams.txt
        lb-3grams.txt
        iu-3grams.txt
        ksh-3grams.txt
        abn-3grams.txt
        fi-3grams.txt
        ca-3grams.txt
        rug-3grams.txt
        hz-3grams.txt
        te-3grams.txt
        mn-3grams.txt
        sd-3grams.txt
        nzi-3grams.txt
        lgg-3grams.txt
        lch-3grams.txt
        vmf-3grams.txt
        my-3grams.txt
        prs-3grams.txt
        guw-3grams.txt
        lmo-3grams.txt
        rnd-3grams.txt
        llj-3grams.txt
        loz-3grams.txt
        wo-3grams.txt
        ivv-3grams.txt
        nso-3grams.txt
        cbr-3grams.txt
        sq-3grams.txt
        frf-3grams.txt
        sn-3grams.txt
        ddn-3grams.txt
        nen-3grams.txt
        rom-3grams.txt
        sc-3grams.txt
        pap-3grams.txt
        dyu-3grams.txt
        kjh-3grams.txt
        pau-3grams.txt
        tl-3grams.txt
        ny-3grams.txt
        zea-3grams.txt
        bfa-3grams.txt
        tos-3grams.txt
        not-3grams.txt
        ura-3grams.txt
        yi-3grams.txt
        fr-3grams.txt
        ach-3grams.txt
        vmw-3grams.txt
        yaf-3grams.txt
        dga-3grams.txt
        rm-3grams.txt
        qu-3grams.txt
        jiv-3grams.txt
        ace-3grams.txt
        kha-3grams.txt
        ktu-3grams.txt
        cbt-3grams.txt
        yua-3grams.txt
        kos-3grams.txt
        mi-3grams.txt
        fy-3grams.txt
        cbu-3grams.txt
      - configFromFile.properties
    - java
      - TestLanguageIdentifier.java
      - TestTweets.java
      - TwitterNormalizerTest.java
      - TestDAO.java
      - TestResources.java
      - TestLogEntry.java
      - TestLanguageManager.java
      - TestBlogPosts.java
      - TestYouTube.java
      - TestConfigFromFile.java
- pom.xml
- LICENSE
- lib
  - .DS_Store
- install.sh
- .travis.yml
- README.md
- config.properties
- scripts
  - echo_langcode.py
- .gitignore

package edu.columbia.main;


import org.apache.log4j.Logger;
import edu.columbia.main.language_id.LanguageCode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.util.ArrayList;
import edu.columbia.main.LogDB;

class URL{


    public String url;
    public String language;
    public String title;

    URL(String url, String language, String title) {
        this.url = url;
        this.language=language;
        this.title = title;
    }
}

/**
 * Fetches all the transcripts in a specific languageCode from TED.COM
 */
public class TEDScraper {

    Logger log = Logger.getLogger(TEDScraper.class);

    /** location of transcripts */
    private static final String VIDEOS_URL = "https://www.ted.com/talks/browse?language=";
    /** container for all the transcripts urls of a specific languageCode */
    private ArrayList<URL> urls;
    /** the destination langauge */
    private String language;
    private LogDB logDb;
    
    /**
     * Parses all the pages containing links to talks in a specific languageCode
     * saves it to urls and then calls getAndSaveData()
     * @param language destination languageCode
     */
    public TEDScraper(String language) {
        this.language = language;
        String iso1Lang = LanguageCode.convertIso2toIso1(language);
        this.logDb = new LogDB(this.language); //saving text files

        urls = new ArrayList<URL>(2);


            log.info("Scraping TED.COM for subtitles in:  "+ language);

            //get the first page and parse
            HTTPClient client = new HTTPClient(VIDEOS_URL + iso1Lang);
            String html = client.getHTMLData();

            if(html.contains("We couldn't find a talk quite like that")){
                log.info("TED.COM Does not have any talks in "+language + " langauge code");
                log.info("Stopping process");
                return;
            }


            Document doc = Jsoup.parse(html);

            //get the number of pages from the page's pagination
            Element lastPagination = doc.select(".pagination__item").last();

            int numOfPages = 1;
            if(lastPagination != null)
                numOfPages = Integer.parseInt(lastPagination.text());


            //for every page of that languageCode
            for (int i = 1; i <= numOfPages; i++) {
                log.info("Getting links from page: "+i +" out of: "+numOfPages);

                //we already fetched the first page
                if (i != 1) {
                    //get the page and parse
                    client = new HTTPClient(VIDEOS_URL + iso1Lang + "&page=" + i);
                    html = client.getHTMLData();
                    doc = Jsoup.parse(html);
                }

                Elements videoContainers = doc.select(".media__message");
                Elements links = videoContainers.select("a");

                //add href value only to urls
                for (Element link : links) {
                    //get the href value
                    String modifiedLink = link.attr("href");
                    //remove everything after the ? -> /talks/ze_frank_are_you_human?languageCode=lt
                    modifiedLink = modifiedLink.substring(0, modifiedLink.indexOf("?"));
                    //add to array of all links
                    urls.add(new URL("https://www.ted.com" + modifiedLink + "/transcript.json?language=" + iso1Lang, language,modifiedLink.substring((modifiedLink.indexOf("/talks/")+"/talks/".length()),modifiedLink.length())));
		    //urls.add(new URL("https://www.ted.com" + modifiedLink + "/transcript.json?language=en", "eng", modifiedLink.substring((modifiedLink.indexOf("/talks/")+"/talks/".length()),modifiedLink.length())));
                }

            }

        getAndSaveData();
    }

    /**
     *  loads each url from url, fetches the transcript, parses it and saves it.
     */
    public void getAndSaveData() {

        String content = "";

        for(URL url : urls){

            HTTPClient client = new HTTPClient(url.url);
            String html = client.getHTMLData();
            FileSaver file = new FileSaver(html, url.language, "TED", url.url, url.title + ".json");
	    file.save(logDb);
        }
    }


}