java source code of ChanRipper

ripme-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - ISSUE_TEMPLATE.md
  - workflows
    - maven.yml
- src
  - main
    - resources
      - LabelsBundle_es_ES.properties
      - LabelsBundle_porrisavvo_FI.properties
      - LabelsBundle_ru_RU.properties
      - LabelsBundle.properties
      - LabelsBundle_fr_CH.properties
      - log4j.properties
      - icon.ico
      - LabelsBundle_it_IT.properties
      - rip.properties
      - log4j.file.properties
      - LabelsBundle_en_US.properties
      - LabelsBundle_kr_KR.properties
      - LabelsBundle_ar_AR.properties
      - LabelsBundle_pl_PL.properties
      - LabelsBundle_pt_PT.properties
      - camera.wav
      - LabelsBundle_pt_BR.properties
      - LabelsBundle_fi_FI.properties
      - LabelsBundle_nl_NL.properties
      - LabelsBundle_de_DE.properties
      - LabelsBundle_in_ID.properties
    - java
      - com
        rarchives
        ripme
        utils
        Proxy.java
        Base64.java
        Utils.java
        UTF8Control.java
        RipUtils.java
        Http.java
        ripper
        AbstractSingleFileRipper.java
        DownloadFileThread.java
        AlbumRipper.java
        AbstractHTMLRipper.java
        RipperInterface.java
        rippers
        MeituriRipper.java
        DynastyscansRipper.java
        YoupornRipper.java
        TwitterRipper.java
        BatoRipper.java
        ImagefapRipper.java
        ripperhelpers
        ChanSite.java
        ModelmayhemRipper.java
        TumblrRipper.java
        GfycatporntubeRipper.java
        PorncomixDotOneRipper.java
        TwodgalleriesRipper.java
        TeenplanetRipper.java
        HypnohubRipper.java
        RulePornRipper.java
        XlecxRipper.java
        ArtstnRipper.java
        DribbbleRipper.java
        ImagevenueRipper.java
        VkRipper.java
        MastodonXyzRipper.java
        BaraagRipper.java
        MulemaxRipper.java
        EroShareRipper.java
        ArtAlleyRipper.java
        PornpicsRipper.java
        RedditRipper.java
        LusciousRipper.java
        FlickrRipper.java
        PicstatioRipper.java
        FreeComicOnlineRipper.java
        JabArchivesRipper.java
        ThechiveRipper.java
        CheveretoRipper.java
        TapasticRipper.java
        ErofusRipper.java
        XhamsterRipper.java
        MyhentaigalleryRipper.java
        HentaifoundryRipper.java
        InstagramRipper.java
        SpankbangRipper.java
        ImagearnRipper.java
        FivehundredpxRipper.java
        ComicextraRipper.java
        XvideosRipper.java
        BcfakesRipper.java
        HentaiimageRipper.java
        SmuttyRipper.java
        DuckmoviesRipper.java
        WebtoonsRipper.java
        MastodonRipper.java
        PornhubRipper.java
        NfsfwRipper.java
        NhentaiRipper.java
        HentaidudeRipper.java
        NewsfilterRipper.java
        DeviantartRipper.java
        NewgroundsRipper.java
        KingcomixRipper.java
        VidbleRipper.java
        ImgurRipper.java
        ListalRipper.java
        XcartxRipper.java
        HqpornerRipper.java
        TsuminoRipper.java
        GirlsOfDesireRipper.java
        PawooRipper.java
        DrawcrowdRipper.java
        tamindirmp3.java
        Rule34Ripper.java
        Hentai2readRipper.java
        HitomiRipper.java
        PahealRipper.java
        ImagebamRipper.java
        ImgboxRipper.java
        E621Ripper.java
        SinfestRipper.java
        MangadexRipper.java
        AerisdiesRipper.java
        ReadcomicRipper.java
        MyhentaicomicsRipper.java
        StaRipper.java
        VscoRipper.java
        EHentaiRipper.java
        NatalieMuRipper.java
        ViewcomicRipper.java
        ManganeloRipper.java
        ModelxRipper.java
        BooruRipper.java
        PorncomixRipper.java
        ArtStationRipper.java
        PhotobucketRipper.java
        CfakeRipper.java
        AllporncomicRipper.java
        SankakuComplexRipper.java
        FemjoyhunterRipper.java
        HentaiCafeRipper.java
        FitnakedgirlsRipper.java
        EightmusesRipper.java
        PichunterRipper.java
        HbrowseRipper.java
        EromeRipper.java
        JagodibujaRipper.java
        HentaifoxRipper.java
        WordpressComicRipper.java
        NudeGalsRipper.java
        GfycatRipper.java
        DerpiRipper.java
        FolioRipper.java
        ErotivRipper.java
        FuskatorRipper.java
        YuvutuRipper.java
        ShesFreakyRipper.java
        MyreadingmangaRipper.java
        ChanRipper.java
        OglafRipper.java
        SinnercomicsRipper.java
        ZizkiRipper.java
        MotherlessRipper.java
        TheyiffgalleryRipper.java
        video
        ViddmeRipper.java
        VkRipper.java
        TwitchVideoRipper.java
        StickyXXXRipper.java
        CliphunterRipper.java
        PornhubRipper.java
        MotherlessVideoRipper.java
        VidearnRipper.java
        YuvutuRipper.java
        BlackbrickroadofozRipper.java
        FuraffinityRipper.java
        RedgifsRipper.java
        Tubex6Ripper.java
        DownloadVideoThread.java
        AbstractRipper.java
        AbstractJSONRipper.java
        VideoRipper.java
        DownloadThreadPool.java
        ui
        RipStatusComplete.java
        ClipboardUtils.java
        UpdateUtils.java
        QueueMenuMouseListener.java
        MainWindow.java
        HistoryEntry.java
        RipStatusMessage.java
        RipStatusHandler.java
        ContextMenuMouseListener.java
        HistoryMenuMouseListener.java
        History.java
        App.java
  - test
    - java
      - com
        rarchives
        ripme
        tst
        ripper
        rippers
        ErofusRipperTest.java
        VkRipperTest.java
        HentaiimageRipperTest.java
        MulemaxRipperTest.java
        RedditRipperTest.java
        AerisdiesRipperTest.java
        tamindirmp3Test.java
        NewsfilterRipperTest.java
        MastodonRipperTest.java
        ImgboxRipperTest.java
        TapasticRipperTest.java
        RedgifsRipperTest.java
        ListalRipperTest.java
        SinnercomicsRipperTest.java
        SankakuComplexRipperTest.java
        FivehundredpxRipperTest.java
        BcfakesRipperTest.java
        MotherlessRipperTest.java
        MyhentaicomicsRipperTest.java
        FuskatorRipperTest.java
        YoupornRipperTest.java
        MyhentaigalleryRipperTest.java
        ImgurRipperTest.java
        WordpressComicRipperTest.java
        EhentaiRipperTest.java
        PorncomixRipperTest.java
        ChanRipperTest.java
        ImagevenueRipperTest.java
        ImagefapRipperTest.java
        BooruRipperTest.java
        VidbleRipperTest.java
        DrawcrowdRipperTest.java
        MastodonXyzRipperTest.java
        HentaifoundryRipperTest.java
        BaraagRipperTest.java
        GfycatporntubeRipperTest.java
        ArtAlleyRipperTest.java
        NatalieMuRipperTest.java
        EroShareRipperTest.java
        LusciousRipperTest.java
        GfycatRipperTest.java
        VscoRipperTest.java
        NfsfwRipperTest.java
        ArtstnRipperTest.java
        SinfestRipperTest.java
        TheyiffgalleryRipperTest.java
        ModelmayhemRipperTest.java
        KingcomixRipperTest.java
        PawooRipperTest.java
        PornpicsRipperTest.java
        PhotobucketRipperTest.java
        FlickrRipperTest.java
        PahealRipperTest.java
        DuckmoviesRipperTest.java
        HbrowseRipperTest.java
        PornhubRipperTest.java
        NhentaiRipperTest.java
        ErotivRipperTest.java
        Tubex6RipperTest.java
        Rule34RipperTest.java
        ImagearnRipperTest.java
        ViewcomicRipperTest.java
        RulePornRipperTest.java
        CheveretoRipperTest.java
        AllporncomicRipperTest.java
        HentaifoxRipperTest.java
        HypnohubRipperTest.java
        JagodibujaRipperTest.java
        BlackbrickroadofozRipperTest.java
        StaRipperTest.java
        NewgroundsRipperTest.java
        XhamsterRipperTest.java
        FemjoyhunterRipperTest.java
        E621RipperTest.java
        HqpornerRipperTest.java
        VideoRippersTest.java
        HentaicafeRipperTest.java
        YuvutuRipperTest.java
        MangadexRipperTest.java
        PorncomixDotOneRipperTest.java
        BatoRipperTest.java
        HentaidudeRipperTest.java
        DynastyscansRipperTest.java
        StickyXXXRipperTest.java
        ShesFreakyRipperTest.java
        TsuminoRipperTest.java
        JabArchivesRipperTest.java
        OglafRipperTest.java
        ComicextraRipperTest.java
        EightmusesRipperTest.java
        TwitterRipperTest.java
        DeviantartRipperTest.java
        EromeRipperTest.java
        TumblrRipperTest.java
        HitomiRipperTest.java
        ManganeloRipperTest.java
        ArtStationRipperTest.java
        ModelxRipperTest.java
        SmuttyRipperTest.java
        XcartxRipperTest.java
        MyreadingmangaRipperTest.java
        XvideosRipperTest.java
        SpankBangRipperTest.java
        ImagebamRipperTest.java
        WebtoonsRipperTest.java
        XlecxRipperTest.java
        ZizkiRipperTest.java
        TwodgalleriesRipperTest.java
        ThechiveRipperTest.java
        InstagramRipperTest.java
        RippersTest.java
        FuraffinityRipperTest.java
        PichunterRipperTest.java
        DribbbleRipperTest.java
        CfakeRipperTest.java
        PicstatioRipperTest.java
        Hentai2readRipperTest.java
        MeituriRipperTest.java
        NudeGalsRipperTest.java
        FolioRipperTest.java
        GirlsOfDesireRipperTest.java
        TeenplanetRipperTest.java
        ui
        LabelsBundlesTest.java
        RipStatusMessageTest.java
        proxyTest.java
        Base64Test.java
        UtilsTest.java
        AppTest.java
        AbstractRipperTest.java
  - LabelsBundle_zh_CN.properties
- utils
  - style.sh
  - stylefix.sh
- pom.xml
- release.py
- deploy.ps1
- deploy.bat
- patch.py
- CONTRIBUTING.md
- build.bat
- SECURITY.md
- workspace.code-workspace
- .travis.yml
- README.md
- .gitignore
- LICENSE.txt
- build.sh
- ripme.json
- .project
- .vscode
  - settings.json

package com.rarchives.ripme.ripper.rippers;

import com.rarchives.ripme.ripper.AbstractHTMLRipper;
import com.rarchives.ripme.ripper.rippers.ripperhelpers.ChanSite;
import com.rarchives.ripme.utils.Http;
import com.rarchives.ripme.utils.RipUtils;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.rarchives.ripme.utils.Utils;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class ChanRipper extends AbstractHTMLRipper {
    private static List<ChanSite> bakedin_explicit_domains = Arrays.asList(
            new ChanSite("boards.4chan.org",   Arrays.asList("4cdn.org", "is.4chan.org", "is2.4chan.org", "is3.4chan.org")),
            new ChanSite("boards.4channel.org",   Arrays.asList("4cdn.org", "is.4chan.org", "is2.4chan.org", "is3.4chan.org")),
            new ChanSite("4archive.org",  "imgur.com"),
            new ChanSite("archive.4plebs.org", "img.4plebs.org"),
            new ChanSite("yuki.la", "ii.yuki.la"),
            new ChanSite("55chan.org"),
            new ChanSite("desuchan.net"),
            new ChanSite("boards.420chan.org"),
            new ChanSite("7chan.org"),
            new ChanSite("desuarchive.org", "desu-usergeneratedcontent.xyz"),
            new ChanSite("8ch.net", "media.8ch.net"),
            new ChanSite("thebarchive.com"),
            new ChanSite("archiveofsins.com"),
            new ChanSite("archive.nyafuu.org"),
            new ChanSite("rbt.asia")
        );
    private static List<ChanSite> user_give_explicit_domains = getChansFromConfig(Utils.getConfigString("chans.chan_sites", null));
    private static List<ChanSite> explicit_domains = new ArrayList<>();

    /**
     * reads a string in the format of site1[cdn|cdn2|cdn3], site2[cdn]
     */
    public static List<ChanSite> getChansFromConfig(String rawChanString) {
        List<ChanSite> userChans = new ArrayList<>();
        if (rawChanString != null) {
            String[] listOfChans = rawChanString.split(",");
            for (String chanInfo : listOfChans) {
                // If this is true we're parsing a chan with cdns
                if (chanInfo.contains("[")) {
                    String siteUrl = chanInfo.split("\\[")[0];
                    String[] cdns = chanInfo.replaceAll(siteUrl + "\\[", "").replaceAll("]", "").split("\\|");
                    LOGGER.debug("site url: " + siteUrl);
                    LOGGER.debug("cdn: " + Arrays.toString(cdns));
                    userChans.add(new ChanSite(siteUrl, Arrays.asList(cdns)));
                } else {
                    // We're parsing a site without cdns
                    LOGGER.debug("site: " + chanInfo);
                    userChans.add(new ChanSite(chanInfo));
                }
            }
            return userChans;
        }
        return null;
    }

    private static List<String> url_piece_blacklist = Arrays.asList(
        "=http",
        "http://imgops.com/",
        "iqdb.org",
        "saucenao.com"
        );

    private ChanSite chanSite;
    private Boolean generalChanSite = true;

    public ChanRipper(URL url) throws IOException {
        super(url);
        for (ChanSite _chanSite : explicit_domains) {
            LOGGER.info(_chanSite.domains);
            if (_chanSite.domains.contains(url.getHost())) {
                chanSite = _chanSite;
                generalChanSite = false;
            }
        }
        if (chanSite == null) {
            chanSite = new ChanSite(Arrays.asList(url.getHost()));
        }
    }

    @Override
    public String getHost() {
        String host = this.url.getHost();
        host = host.substring(0, host.lastIndexOf('.'));
        if (host.contains(".")) {
            // Host has subdomain (www)
            host = host.substring(host.lastIndexOf('.') + 1);
        }
        String board = this.url.toExternalForm().split("/")[3];
        return host + "_" + board;
    }

    @Override
    public String getAlbumTitle(URL url) throws MalformedURLException {
        try {
            // Attempt to use album title as GID
            Document doc = getFirstPage();
            try {
                String subject = doc.select(".post.op > .postinfo > .subject").first().text();
                return getHost() + "_" + getGID(url) + "_" + subject;
            } catch (NullPointerException e) {
                LOGGER.warn("Failed to get thread title from " + url);
            }
        } catch (Exception e) {
            // Fall back to default album naming convention
            LOGGER.warn("Failed to get album title from " + url, e);
        }
        // Fall back on the GID
        return getHost() + "_" + getGID(url);
    }

    @Override
    public boolean canRip(URL url) {
        explicit_domains.addAll(bakedin_explicit_domains);
        if (user_give_explicit_domains != null) {
            explicit_domains.addAll(user_give_explicit_domains);
        }
        for (ChanSite _chanSite : explicit_domains) {
            if (_chanSite.domains.contains(url.getHost())) {
                return true;
            }
        }

        return false;
    }

    /**
     * For example the archives are all known. (Check 4chan-x)
     * Should be based on the software the specific chan uses.
     * FoolFuuka uses the same (url) layout as 4chan
     *
     * @param url
     * @return
     *      The thread id in string form
     * @throws java.net.MalformedURLException */
    @Override
    public String getGID(URL url) throws MalformedURLException {
        Pattern p;
        Matcher m;

        String u = url.toExternalForm();
        if (u.contains("/thread/") || u.contains("/res/") || u.contains("yuki.la") || u.contains("55chan.org")) {
            p = Pattern.compile("^.*\\.[a-z]{1,4}/[a-zA-Z0-9]+/(thread|res)/([0-9]+)(\\.html|\\.php)?.*$");
            m = p.matcher(u);
            if (m.matches()) {
                return m.group(2);
            }

            // Drawchan is weird, has drawchan.net/dc/dw/res/####.html
            p = Pattern.compile("^.*\\.[a-z]{1,3}/[a-zA-Z0-9]+/[a-zA-Z0-9]+/res/([0-9]+)(\\.html|\\.php)?.*$");
            m = p.matcher(u);
            if (m.matches()) {
                return m.group(1);
            }
            // xchan
            p = Pattern.compile("^.*\\.[a-z]{1,3}/board/[a-zA-Z0-9]+/thread/([0-9]+)/?.*$");
            m = p.matcher(u);
            if (m.matches()) {
                return m.group(1);
            }

            // yuki.la
            p = Pattern.compile("https?://yuki.la/[a-zA-Z0-9]+/([0-9]+)");
            m = p.matcher(u);
            if (m.matches()) {
                return m.group(1);
            }

            //55chan.org
            p = Pattern.compile("https?://55chan.org/[a-z0-9]+/(res|thread)/[0-9]+.html");
            m = p.matcher(u);
            if (m.matches()) {
                return m.group(1);
            }
        }

        throw new MalformedURLException(
                "Expected *chan URL formats: "
                        + ".*/@/(res|thread)/####.html"
                        + " Got: " + u);
    }

    @Override
    public String getDomain() {
        return this.url.getHost();
    }

    @Override
    public Document getFirstPage() throws IOException {
        return Http.url(this.url).get();
    }

    private boolean isURLBlacklisted(String url) {
        for (String blacklist_item : url_piece_blacklist) {
            if (url.contains(blacklist_item)) {
                LOGGER.debug("Skipping link that contains '"+blacklist_item+"': " + url);
                return true;
            }
        }
        return false;
    }
    @Override
    public List<String> getURLsFromPage(Document page) {
        List<String> imageURLs = new ArrayList<>();
        Pattern p; Matcher m;
        for (Element link : page.select("a")) {
            if (!link.hasAttr("href")) {
                continue;
            }
            String href = link.attr("href").trim();

            if (isURLBlacklisted(href)) {
                continue;
            }
            //Check all blacklist items
            Boolean self_hosted = false;
            if (!generalChanSite) {
                for (String cdnDomain : chanSite.cdnDomains) {
                    if (href.contains(cdnDomain)) {
                        self_hosted = true;
                    }
                }
            }

            if (self_hosted || generalChanSite) {
                p = Pattern.compile("^.*\\.(jpg|jpeg|png|gif|apng|webp|tif|tiff|webm|mp4)$", Pattern.CASE_INSENSITIVE);
                m = p.matcher(href);
                if (m.matches()) {
                    if (href.startsWith("//")) {
                        href = "http:" + href;
                    }
                    if (href.startsWith("/")) {
                        href = "http://" + this.url.getHost() + href;
                    }
                    // Don't download the same URL twice
                    if (imageURLs.contains(href)) {
                        LOGGER.debug("Already attempted: " + href);
                        continue;
                    }
                    imageURLs.add(href);
                    if (isThisATest()) {
                        break;
                    }
                }
            } else {
                //Copied code from RedditRipper, getFilesFromURL should also implement stuff like flickr albums
                URL originalURL;
                try {
                    originalURL = new URL(href);
                } catch (MalformedURLException e) {
                    continue;
                }

                List<URL> urls = RipUtils.getFilesFromURL(originalURL);
                for (URL imageurl : urls) {
                    imageURLs.add(imageurl.toString());
                }
            }

            if (isStopped()) {
                break;
            }
        }
        return imageURLs;
    }

    @Override
    public void downloadURL(URL url, int index) {
        addURLToDownload(url, getPrefix(index));
    }
}