java source code of EHentaiRipper

ripme-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - ISSUE_TEMPLATE.md
  - workflows
    - maven.yml
- src
  - main
    - resources
      - LabelsBundle_es_ES.properties
      - LabelsBundle_porrisavvo_FI.properties
      - LabelsBundle_ru_RU.properties
      - LabelsBundle.properties
      - LabelsBundle_fr_CH.properties
      - log4j.properties
      - icon.ico
      - LabelsBundle_it_IT.properties
      - rip.properties
      - log4j.file.properties
      - LabelsBundle_en_US.properties
      - LabelsBundle_kr_KR.properties
      - LabelsBundle_ar_AR.properties
      - LabelsBundle_pl_PL.properties
      - LabelsBundle_pt_PT.properties
      - camera.wav
      - LabelsBundle_pt_BR.properties
      - LabelsBundle_fi_FI.properties
      - LabelsBundle_nl_NL.properties
      - LabelsBundle_de_DE.properties
      - LabelsBundle_in_ID.properties
    - java
      - com
        rarchives
        ripme
        utils
        Proxy.java
        Base64.java
        Utils.java
        UTF8Control.java
        RipUtils.java
        Http.java
        ripper
        AbstractSingleFileRipper.java
        DownloadFileThread.java
        AlbumRipper.java
        AbstractHTMLRipper.java
        RipperInterface.java
        rippers
        MeituriRipper.java
        DynastyscansRipper.java
        YoupornRipper.java
        TwitterRipper.java
        BatoRipper.java
        ImagefapRipper.java
        ripperhelpers
        ChanSite.java
        ModelmayhemRipper.java
        TumblrRipper.java
        GfycatporntubeRipper.java
        PorncomixDotOneRipper.java
        TwodgalleriesRipper.java
        TeenplanetRipper.java
        HypnohubRipper.java
        RulePornRipper.java
        XlecxRipper.java
        ArtstnRipper.java
        DribbbleRipper.java
        ImagevenueRipper.java
        VkRipper.java
        MastodonXyzRipper.java
        BaraagRipper.java
        MulemaxRipper.java
        EroShareRipper.java
        ArtAlleyRipper.java
        PornpicsRipper.java
        RedditRipper.java
        LusciousRipper.java
        FlickrRipper.java
        PicstatioRipper.java
        FreeComicOnlineRipper.java
        JabArchivesRipper.java
        ThechiveRipper.java
        CheveretoRipper.java
        TapasticRipper.java
        ErofusRipper.java
        XhamsterRipper.java
        MyhentaigalleryRipper.java
        HentaifoundryRipper.java
        InstagramRipper.java
        SpankbangRipper.java
        ImagearnRipper.java
        FivehundredpxRipper.java
        ComicextraRipper.java
        XvideosRipper.java
        BcfakesRipper.java
        HentaiimageRipper.java
        SmuttyRipper.java
        DuckmoviesRipper.java
        WebtoonsRipper.java
        MastodonRipper.java
        PornhubRipper.java
        NfsfwRipper.java
        NhentaiRipper.java
        HentaidudeRipper.java
        NewsfilterRipper.java
        DeviantartRipper.java
        NewgroundsRipper.java
        KingcomixRipper.java
        VidbleRipper.java
        ImgurRipper.java
        ListalRipper.java
        XcartxRipper.java
        HqpornerRipper.java
        TsuminoRipper.java
        GirlsOfDesireRipper.java
        PawooRipper.java
        DrawcrowdRipper.java
        tamindirmp3.java
        Rule34Ripper.java
        Hentai2readRipper.java
        HitomiRipper.java
        PahealRipper.java
        ImagebamRipper.java
        ImgboxRipper.java
        E621Ripper.java
        SinfestRipper.java
        MangadexRipper.java
        AerisdiesRipper.java
        ReadcomicRipper.java
        MyhentaicomicsRipper.java
        StaRipper.java
        VscoRipper.java
        EHentaiRipper.java
        NatalieMuRipper.java
        ViewcomicRipper.java
        ManganeloRipper.java
        ModelxRipper.java
        BooruRipper.java
        PorncomixRipper.java
        ArtStationRipper.java
        PhotobucketRipper.java
        CfakeRipper.java
        AllporncomicRipper.java
        SankakuComplexRipper.java
        FemjoyhunterRipper.java
        HentaiCafeRipper.java
        FitnakedgirlsRipper.java
        EightmusesRipper.java
        PichunterRipper.java
        HbrowseRipper.java
        EromeRipper.java
        JagodibujaRipper.java
        HentaifoxRipper.java
        WordpressComicRipper.java
        NudeGalsRipper.java
        GfycatRipper.java
        DerpiRipper.java
        FolioRipper.java
        ErotivRipper.java
        FuskatorRipper.java
        YuvutuRipper.java
        ShesFreakyRipper.java
        MyreadingmangaRipper.java
        ChanRipper.java
        OglafRipper.java
        SinnercomicsRipper.java
        ZizkiRipper.java
        MotherlessRipper.java
        TheyiffgalleryRipper.java
        video
        ViddmeRipper.java
        VkRipper.java
        TwitchVideoRipper.java
        StickyXXXRipper.java
        CliphunterRipper.java
        PornhubRipper.java
        MotherlessVideoRipper.java
        VidearnRipper.java
        YuvutuRipper.java
        BlackbrickroadofozRipper.java
        FuraffinityRipper.java
        RedgifsRipper.java
        Tubex6Ripper.java
        DownloadVideoThread.java
        AbstractRipper.java
        AbstractJSONRipper.java
        VideoRipper.java
        DownloadThreadPool.java
        ui
        RipStatusComplete.java
        ClipboardUtils.java
        UpdateUtils.java
        QueueMenuMouseListener.java
        MainWindow.java
        HistoryEntry.java
        RipStatusMessage.java
        RipStatusHandler.java
        ContextMenuMouseListener.java
        HistoryMenuMouseListener.java
        History.java
        App.java
  - test
    - java
      - com
        rarchives
        ripme
        tst
        ripper
        rippers
        ErofusRipperTest.java
        VkRipperTest.java
        HentaiimageRipperTest.java
        MulemaxRipperTest.java
        RedditRipperTest.java
        AerisdiesRipperTest.java
        tamindirmp3Test.java
        NewsfilterRipperTest.java
        MastodonRipperTest.java
        ImgboxRipperTest.java
        TapasticRipperTest.java
        RedgifsRipperTest.java
        ListalRipperTest.java
        SinnercomicsRipperTest.java
        SankakuComplexRipperTest.java
        FivehundredpxRipperTest.java
        BcfakesRipperTest.java
        MotherlessRipperTest.java
        MyhentaicomicsRipperTest.java
        FuskatorRipperTest.java
        YoupornRipperTest.java
        MyhentaigalleryRipperTest.java
        ImgurRipperTest.java
        WordpressComicRipperTest.java
        EhentaiRipperTest.java
        PorncomixRipperTest.java
        ChanRipperTest.java
        ImagevenueRipperTest.java
        ImagefapRipperTest.java
        BooruRipperTest.java
        VidbleRipperTest.java
        DrawcrowdRipperTest.java
        MastodonXyzRipperTest.java
        HentaifoundryRipperTest.java
        BaraagRipperTest.java
        GfycatporntubeRipperTest.java
        ArtAlleyRipperTest.java
        NatalieMuRipperTest.java
        EroShareRipperTest.java
        LusciousRipperTest.java
        GfycatRipperTest.java
        VscoRipperTest.java
        NfsfwRipperTest.java
        ArtstnRipperTest.java
        SinfestRipperTest.java
        TheyiffgalleryRipperTest.java
        ModelmayhemRipperTest.java
        KingcomixRipperTest.java
        PawooRipperTest.java
        PornpicsRipperTest.java
        PhotobucketRipperTest.java
        FlickrRipperTest.java
        PahealRipperTest.java
        DuckmoviesRipperTest.java
        HbrowseRipperTest.java
        PornhubRipperTest.java
        NhentaiRipperTest.java
        ErotivRipperTest.java
        Tubex6RipperTest.java
        Rule34RipperTest.java
        ImagearnRipperTest.java
        ViewcomicRipperTest.java
        RulePornRipperTest.java
        CheveretoRipperTest.java
        AllporncomicRipperTest.java
        HentaifoxRipperTest.java
        HypnohubRipperTest.java
        JagodibujaRipperTest.java
        BlackbrickroadofozRipperTest.java
        StaRipperTest.java
        NewgroundsRipperTest.java
        XhamsterRipperTest.java
        FemjoyhunterRipperTest.java
        E621RipperTest.java
        HqpornerRipperTest.java
        VideoRippersTest.java
        HentaicafeRipperTest.java
        YuvutuRipperTest.java
        MangadexRipperTest.java
        PorncomixDotOneRipperTest.java
        BatoRipperTest.java
        HentaidudeRipperTest.java
        DynastyscansRipperTest.java
        StickyXXXRipperTest.java
        ShesFreakyRipperTest.java
        TsuminoRipperTest.java
        JabArchivesRipperTest.java
        OglafRipperTest.java
        ComicextraRipperTest.java
        EightmusesRipperTest.java
        TwitterRipperTest.java
        DeviantartRipperTest.java
        EromeRipperTest.java
        TumblrRipperTest.java
        HitomiRipperTest.java
        ManganeloRipperTest.java
        ArtStationRipperTest.java
        ModelxRipperTest.java
        SmuttyRipperTest.java
        XcartxRipperTest.java
        MyreadingmangaRipperTest.java
        XvideosRipperTest.java
        SpankBangRipperTest.java
        ImagebamRipperTest.java
        WebtoonsRipperTest.java
        XlecxRipperTest.java
        ZizkiRipperTest.java
        TwodgalleriesRipperTest.java
        ThechiveRipperTest.java
        InstagramRipperTest.java
        RippersTest.java
        FuraffinityRipperTest.java
        PichunterRipperTest.java
        DribbbleRipperTest.java
        CfakeRipperTest.java
        PicstatioRipperTest.java
        Hentai2readRipperTest.java
        MeituriRipperTest.java
        NudeGalsRipperTest.java
        FolioRipperTest.java
        GirlsOfDesireRipperTest.java
        TeenplanetRipperTest.java
        ui
        LabelsBundlesTest.java
        RipStatusMessageTest.java
        proxyTest.java
        Base64Test.java
        UtilsTest.java
        AppTest.java
        AbstractRipperTest.java
  - LabelsBundle_zh_CN.properties
- utils
  - style.sh
  - stylefix.sh
- pom.xml
- release.py
- deploy.ps1
- deploy.bat
- patch.py
- CONTRIBUTING.md
- build.bat
- SECURITY.md
- workspace.code-workspace
- .travis.yml
- README.md
- .gitignore
- LICENSE.txt
- build.sh
- ripme.json
- .project
- .vscode
  - settings.json

package com.rarchives.ripme.ripper.rippers;

import java.io.File;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import com.rarchives.ripme.ui.RipStatusMessage;
import com.rarchives.ripme.utils.RipUtils;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.rarchives.ripme.ripper.AbstractHTMLRipper;
import com.rarchives.ripme.ripper.DownloadThreadPool;
import com.rarchives.ripme.ui.RipStatusMessage.STATUS;
import com.rarchives.ripme.utils.Http;
import com.rarchives.ripme.utils.Utils;

public class EHentaiRipper extends AbstractHTMLRipper {
    // All sleep times are in milliseconds
    private static final int PAGE_SLEEP_TIME     = 3000;
    private static final int IMAGE_SLEEP_TIME    = 1500;
    private static final int IP_BLOCK_SLEEP_TIME = 60  * 1000;

    private String lastURL = null;

    // Thread pool for finding direct image links from "image" pages (html)
    private DownloadThreadPool ehentaiThreadPool = new DownloadThreadPool("ehentai");
    @Override
    public DownloadThreadPool getThreadPool() {
        return ehentaiThreadPool;
    }

    // Current HTML document
    private Document albumDoc = null;

    private static final Map<String,String> cookies = new HashMap<>();
    static {
        cookies.put("nw", "1");
        cookies.put("tip", "1");
    }

    public EHentaiRipper(URL url) throws IOException {
        super(url);
    }

    @Override
    public String getHost() {
        return "e-hentai";
    }

    @Override
    public String getDomain() {
        return "e-hentai.org";
    }

    public String getAlbumTitle(URL url) throws MalformedURLException {
        try {
            // Attempt to use album title as GID
            if (albumDoc == null) {
                albumDoc = getPageWithRetries(url);
            }
            Elements elems = albumDoc.select("#gn");
            return getHost() + "_" + elems.first().text();
        } catch (Exception e) {
            // Fall back to default album naming convention
            LOGGER.warn("Failed to get album title from " + url, e);
        }
        return super.getAlbumTitle(url);
    }

    @Override
    public String getGID(URL url) throws MalformedURLException {
        Pattern p;
        Matcher m;

        p = Pattern.compile("^https?://e-hentai\\.org/g/([0-9]+)/([a-fA-F0-9]+)/?");
        m = p.matcher(url.toExternalForm());
        if (m.matches()) {
            return m.group(1) + "-" + m.group(2);
        }

        throw new MalformedURLException(
                "Expected e-hentai.org gallery format: "
                        + "http://e-hentai.org/g/####/####/"
                        + " Got: " + url);
    }

    /**
     * Attempts to get page, checks for IP ban, waits.
     * @param url
     * @return Page document
     * @throws IOException If page loading errors, or if retries are exhausted
     */
    private Document getPageWithRetries(URL url) throws IOException {
        Document doc;
        int retries = 3;
        while (true) {
            sendUpdate(STATUS.LOADING_RESOURCE, url.toExternalForm());
            LOGGER.info("Retrieving " + url);
            doc = Http.url(url)
                      .referrer(this.url)
                      .cookies(cookies)
                      .get();
            if (doc.toString().contains("IP address will be automatically banned")) {
                if (retries == 0) {
                    throw new IOException("Hit rate limit and maximum number of retries, giving up");
                }
                LOGGER.warn("Hit rate limit while loading " + url + ", sleeping for " + IP_BLOCK_SLEEP_TIME + "ms, " + retries + " retries remaining");
                retries--;
                try {
                    Thread.sleep(IP_BLOCK_SLEEP_TIME);
                } catch (InterruptedException e) {
                    throw new IOException("Interrupted while waiting for rate limit to subside");
                }
            }
            else {
                return doc;
            }
        }
    }

    public List<String> getTags(Document doc) {
        List<String> tags = new ArrayList<>();
        LOGGER.info("Getting tags");
        for (Element tag : doc.select("td > div > a")) {
            LOGGER.info("Found tag " + tag.text());
            tags.add(tag.text());
        }
        return tags;
    }


    @Override
    public Document getFirstPage() throws IOException {
        if (albumDoc == null) {
            albumDoc = getPageWithRetries(this.url);
        }
        this.lastURL = this.url.toExternalForm();
        LOGGER.info("Checking blacklist");
        String blacklistedTag = RipUtils.checkTags(Utils.getConfigStringArray("ehentai.blacklist.tags"), getTags(albumDoc));
        if (blacklistedTag != null) {
            sendUpdate(RipStatusMessage.STATUS.DOWNLOAD_WARN, "Skipping " + url.toExternalForm() + " as it " +
                    "contains the blacklisted tag \"" + blacklistedTag + "\"");
            return null;
        }
        return albumDoc;
    }

    @Override
    public Document getNextPage(Document doc) throws IOException {
        // Check if we've stopped
        if (isStopped()) {
            throw new IOException("Ripping interrupted");
        }
        // Find next page
        Elements hrefs = doc.select(".ptt a");
        if (hrefs.isEmpty()) {
            LOGGER.info("doc: " + doc.html());
            throw new IOException("No navigation links found");
        }
        // Ensure next page is different from the current page
        String nextURL = hrefs.last().attr("href");
        if (nextURL.equals(this.lastURL)) {
            LOGGER.info("lastURL = nextURL : " + nextURL);
            throw new IOException("Reached last page of results");
        }
        // Sleep before loading next page
        sleep(PAGE_SLEEP_TIME);
        // Load next page
        Document nextPage = getPageWithRetries(new URL(nextURL));
        this.lastURL = nextURL;
        return nextPage;
    }

    @Override
    public List<String> getURLsFromPage(Document page) {
        List<String> imageURLs = new ArrayList<>();
        Elements thumbs = page.select("#gdt > .gdtm a");
        // Iterate over images on page
        for (Element thumb : thumbs) {
            imageURLs.add(thumb.attr("href"));
        }
        return imageURLs;
    }

    @Override
    public void downloadURL(URL url, int index) {
        EHentaiImageThread t = new EHentaiImageThread(url, index, this.workingDir);
        ehentaiThreadPool.addThread(t);
        try {
            Thread.sleep(IMAGE_SLEEP_TIME);
        }
        catch (InterruptedException e) {
            LOGGER.warn("Interrupted while waiting to load next image", e);
        }
    }

    /**
     * Helper class to find and download images found on "image" pages
     *
     * Handles case when site has IP-banned the user.
     */
    private class EHentaiImageThread extends Thread {
        private URL url;
        private int index;
        private File workingDir;

        EHentaiImageThread(URL url, int index, File workingDir) {
            super();
            this.url = url;
            this.index = index;
            this.workingDir = workingDir;
        }

        @Override
        public void run() {
            fetchImage();
        }

        private void fetchImage() {
            try {
                Document doc = getPageWithRetries(this.url);

                // Find image
                Elements images = doc.select(".sni > a > img");
                if (images.isEmpty()) {
                    // Attempt to find image elsewise (Issue #41)
                    images = doc.select("img#img");
                    if (images.isEmpty()) {
                        LOGGER.warn("Image not found at " + this.url);
                        return;
                    }
                }
                Element image = images.first();
                String imgsrc = image.attr("src");
                LOGGER.info("Found URL " + imgsrc + " via " + images.get(0));
                Pattern p = Pattern.compile("^http://.*/ehg/image.php.*&n=([^&]+).*$");
                Matcher m = p.matcher(imgsrc);
                if (m.matches()) {
                    // Manually discover filename from URL
                    String savePath = this.workingDir + File.separator;
                    if (Utils.getConfigBoolean("download.save_order", true)) {
                        savePath += String.format("%03d_", index);
                    }
                    savePath += m.group(1);
                    addURLToDownload(new URL(imgsrc), new File(savePath));
                }
                else {
                    // Provide prefix and let the AbstractRipper "guess" the filename
                    String prefix = "";
                    if (Utils.getConfigBoolean("download.save_order", true)) {
                        prefix = String.format("%03d_", index);
                    }
                    addURLToDownload(new URL(imgsrc), prefix);
                }
            } catch (IOException e) {
                LOGGER.error("[!] Exception while loading/parsing " + this.url, e);
            }
        }
    }
}