Project: anthelion (GitHub Link)

anthelion-master
- src
  - plugin
    - headings
      - src
        java
        org
        apache
        nutch
        parse
        headings
        HeadingsParseFilter.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - build.xml
    - subcollection
      - src
        test
        org
        apache
        nutch
        collection
        TestSubcollection.java
        java
        org
        apache
        nutch
        collection
        Subcollection.java
        CollectionManager.java
        package.html
        indexer
        subcollection
        SubcollectionIndexingFilter.java
      - build.xml
      - README.txt
      - ivy.xml
      - plugin.xml
    - creativecommons
      - src
        web
        include
        style.html
        footer.html
        header.html
        search.jsp
        web.xml
        test
        org
        creativecommons
        nutch
        TestCCParseFilter.java
        java
        org
        creativecommons
        nutch
        CCIndexingFilter.java
        CCParseFilter.java
        package.html
      - build.xml
      - README.txt
      - data
        anchor.html
        rel.html
        rdf.html
      - ivy.xml
      - conf
        nutch-site.xml
        crawl-urlfilter.txt
      - plugin.xml
    - parse-zip
      - src
        test
        org
        apache
        nutch
        parse
        zip
        TestZipParser.java
        java
        org
        apache
        nutch
        parse
        zip
        ZipParser.java
        ZipTextExtractor.java
      - build.xml
      - sample
      - ivy.xml
      - plugin.xml
    - lib-http
      - src
        test
        org
        apache
        nutch
        protocol
        http
        api
        TestRobotRulesParser.java
        java
        org
        apache
        nutch
        protocol
        http
        api
        BlockedException.java
        HttpBase.java
        RobotRulesParser.java
        HttpException.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-prefix
      - src
        java
        org
        apache
        nutch
        urlfilter
        prefix
        PrefixURLFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - index-basic
      - src
        java
        org
        apache
        nutch
        indexer
        basic
        package.html
        BasicIndexingFilter.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - protocol-ftp
      - src
        java
        org
        apache
        nutch
        protocol
        ftp
        Client.java
        FtpExceptionCanNotHaveDataConnection.java
        FtpError.java
        FtpExceptionUnknownForcedDataClose.java
        FtpException.java
        FtpResponse.java
        FtpExceptionControlClosedByForcedDataClose.java
        Ftp.java
        PrintCommandListener.java
        package.html
        FtpExceptionBadSystResponse.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - language-identifier
      - src
        test
        org
        apache
        nutch
        analysis
        lang
        da.test
        pt.test
        test-referencial.txt
        en.test
        es.test
        nl.test
        el.test
        it.test
        de.test
        fr.test
        fi.test
        TestHTMLLanguageParser.java
        sv.test
        java
        org
        apache
        nutch
        analysis
        lang
        langmappings.properties
        LanguageIndexingFilter.java
        HTMLLanguageParser.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - scoring-link
      - src
        java
        org
        apache
        nutch
        scoring
        link
        LinkAnalysisScoringFilter.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-automaton
      - src
        test
        org
        apache
        nutch
        urlfilter
        automaton
        TestAutomatonURLFilter.java
        java
        org
        apache
        nutch
        urlfilter
        automaton
        AutomatonURLFilter.java
        package.html
      - build.xml
      - sample
        Benchmarks.urls
        WholeWebCrawling.rules
        IntranetCrawling.urls
        IntranetCrawling.rules
        WholeWebCrawling.urls
        Benchmarks.rules
      - ivy.xml
      - plugin.xml
    - index-anchor
      - src
        test
        org
        apache
        nutch
        indexer
        anchor
        TestAnchorIndexingFilter.java
        java
        org
        apache
        nutch
        indexer
        anchor
        AnchorIndexingFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - plugin.dtd
    - parse-swf
      - src
        test
        org
        apache
        nutch
        parse
        swf
        TestSWFParser.java
        java
        org
        apache
        nutch
        parse
        swf
        SWFParser.java
      - build.xml
      - sample
        test2.swf
        test1.swf
        test3.txt
        test2.txt
        test3.swf
        test1.txt
      - lib
        javaswf.jar
        javaswf-LICENSE.txt
      - ivy.xml
      - plugin.xml
    - protocol-file
      - src
        test
        org
        apache
        nutch
        protocol
        file
        TestProtocolFile.java
        java
        org
        apache
        nutch
        protocol
        file
        FileError.java
        File.java
        FileResponse.java
        FileException.java
        package.html
      - build.xml
      - sample
        testprotocolfile_(encoded).txt
        testprotocolfile.txt
      - ivy.xml
      - plugin.xml
    - parse-js
      - src
        java
        org
        apache
        nutch
        parse
        js
        JSParseFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlnormalizer-pass
      - src
        test
        org
        apache
        nutch
        net
        urlnormalizer
        pass
        TestPassURLNormalizer.java
        java
        org
        apache
        nutch
        net
        urlnormalizer
        pass
        PassURLNormalizer.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - scoring-opic
      - src
        java
        org
        apache
        nutch
        scoring
        opic
        OPICScoringFilter.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-validator
      - src
        java
        org
        apache
        nutch
        urlfilter
        validator
        UrlValidator.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - parse-html
      - src
        test
        org
        apache
        nutch
        parse
        html
        TestDOMContentUtils.java
        TestRobotsMetaProcessor.java
        java
        org
        apache
        nutch
        parse
        html
        DOMContentUtils.java
        DOMBuilder.java
        XMLCharacterRecognizer.java
        HTMLMetaProcessor.java
        HtmlParser.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlnormalizer-regex
      - src
        test
        org
        apache
        nutch
        net
        urlnormalizer
        regex
        TestRegexURLNormalizer.java
        java
        org
        apache
        nutch
        net
        urlnormalizer
        regex
        RegexURLNormalizer.java
      - build.xml
      - sample
        regex-normalize-default.xml
        regex-normalize-scope1.xml
        regex-normalize-scope1.test
        regex-normalize-default.test
      - ivy.xml
      - plugin.xml
    - parse-anth
      - src
        java
        com
        yahoo
        research
        petar
        any23
        Any23Extractor.java
        BasicTripleHandler.java
        AnthelionParser.java
        scoring
        classifier
        NutchOnlineClassifier.java
        AnthelionScoringFilter.java
        parsing
        WdcParser.java
        FilterableTripleHandler.java
        indexing
        TripleExtractor.java
        org
        apache
        nutch
        parse
        html
        DOMContentUtils.java
        DOMBuilder.java
        XMLCharacterRecognizer.java
        HTMLMetaProcessor.java
        HtmlParser.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlnormalizer-basic
      - src
        test
        org
        apache
        nutch
        net
        urlnormalizer
        basic
        TestBasicURLNormalizer.java
        java
        org
        apache
        nutch
        net
        urlnormalizer
        basic
        BasicURLNormalizer.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - parse-tika
      - src
        test
        org
        apache
        nutch
        tika
        TestMSWordParser.java
        TestPdfParser.java
        TestOOParser.java
        TestRTFParser.java
        TestFeedParser.java
        java
        org
        apache
        nutch
        parse
        tika
        DOMContentUtils.java
        DOMBuilder.java
        XMLCharacterRecognizer.java
        TikaParser.java
        HTMLMetaProcessor.java
      - build.xml
      - sample
        test.rtf
        nutch.html
        rsstest.rss
        ootest.sxw
        ootest.txt
        ootest.odt
      - ivy.xml
      - build-ivy.xml
      - plugin.xml
    - feed
      - src
        test
        org
        apache
        nutch
        parse
        feed
        TestFeedParser.java
        java
        org
        apache
        nutch
        parse
        feed
        FeedParser.java
        indexer
        feed
        FeedIndexingFilter.java
      - build.xml
      - sample
        rsstest.rss
      - ivy.xml
      - plugin.xml
    - lib-nekohtml
      - build.xml
      - ivy.xml
      - plugin.xml
    - index-static
      - src
        java
        org
        apache
        nutch
        indexer
        staticfield
        package.html
        StaticFieldIndexer.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlnormalizer-host
      - src
        test
        org
        apache
        nutch
        net
        urlnormalizer
        host
        TestHostURLNormalizer.java
        java
        org
        apache
        nutch
        net
        urlnormalizer
        host
        HostURLNormalizer.java
      - build.xml
      - data
        hosts.txt
      - ivy.xml
      - plugin.xml
    - parse-metatags
      - src
        test
        org
        apache
        nutch
        parse
        html
        TestMetatagParser.java
        java
        org
        apache
        nutch
        parse
        MetaTagsParser.java
      - build.xml
      - sample
        testMetatags.html
      - README.txt
      - ivy.xml
      - plugin.xml
    - parse-ext
      - src
        test
        org
        apache
        nutch
        parse
        ext
        TestExtParser.java
        java
        org
        apache
        nutch
        parse
        ext
        ExtParser.java
      - build.xml
      - ivy.xml
      - command
      - plugin.xml
    - protocol-httpclient
      - src
        test
        org
        apache
        nutch
        protocol
        httpclient
        TestProtocolHttpClient.java
        conf
        nutch-site-test.xml
        httpclient-auth-test.xml
        java
        org
        apache
        nutch
        protocol
        httpclient
        HttpResponse.java
        HttpAuthenticationException.java
        DummyX509TrustManager.java
        HttpBasicAuthentication.java
        Http.java
        package.html
        DummySSLProtocolSocketFactory.java
        HttpAuthenticationFactory.java
        HttpAuthentication.java
      - build.xml
      - jsp
        cookies.jsp
        ntlm.jsp
        digest.jsp
        basic.jsp
        noauth.jsp
      - ivy.xml
      - plugin.xml
    - index-more
      - src
        test
        org
        apache
        nutch
        indexer
        more
        TestMoreIndexingFilter.java
        java
        org
        apache
        nutch
        indexer
        more
        MoreIndexingFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - build-plugin.xml
    - tld
      - src
        java
        org
        apache
        nutch
        scoring
        tld
        TLDScoringFilter.java
        package.html
        indexer
        tld
        TLDIndexingFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-domain
      - src
        test
        org
        apache
        nutch
        urlfilter
        domain
        TestDomainURLFilter.java
        java
        org
        apache
        nutch
        urlfilter
        domain
        DomainURLFilter.java
        package.html
      - build.xml
      - data
        hosts.txt
      - ivy.xml
      - plugin.xml
    - nutch-extensionpoints
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-suffix
      - src
        test
        org
        apache
        nutch
        urlfilter
        suffix
        TestSuffixURLFilter.java
        java
        org
        apache
        nutch
        urlfilter
        suffix
        SuffixURLFilter.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - microformats-reltag
      - src
        java
        org
        apache
        nutch
        microformats
        reltag
        RelTagParser.java
        RelTagIndexingFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - protocol-http
      - src
        java
        org
        apache
        nutch
        protocol
        http
        HttpResponse.java
        Http.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlmeta
      - src
        java
        org
        apache
        nutch
        scoring
        urlmeta
        URLMetaScoringFilter.java
        package.html
        indexer
        urlmeta
        URLMetaIndexingFilter.java
        package.html
      - build.xml
      - ivy.xml
      - plugin.xml
    - lib-regex-filter
      - src
        test
        org
        apache
        nutch
        urlfilter
        api
        RegexURLFilterBaseTest.java
        java
        org
        apache
        nutch
        urlfilter
        api
        RegexURLFilterBase.java
        RegexRule.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - lib-xml
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-domainblacklist
      - src
        test
        org
        apache
        nutch
        urlfilter
        domainblacklist
        TestDomainBlacklistURLFilter.java
        java
        org
        apache
        nutch
        urlfilter
        domainblacklist
        DomainBlacklistURLFilter.java
      - build.xml
      - data
        hosts.txt
      - ivy.xml
      - plugin.xml
    - index-metadata
      - src
        java
        org
        apache
        nutch
        indexer
        metadata
        MetadataIndexer.java
      - build.xml
      - ivy.xml
      - plugin.xml
    - urlfilter-regex
      - src
        test
        org
        apache
        nutch
        urlfilter
        regex
        TestRegexURLFilter.java
        java
        org
        apache
        nutch
        urlfilter
        regex
        RegexURLFilter.java
        package.html
      - build.xml
      - sample
        Benchmarks.urls
        WholeWebCrawling.rules
        IntranetCrawling.urls
        IntranetCrawling.rules
        WholeWebCrawling.urls
        Benchmarks.rules
      - ivy.xml
      - plugin.xml
  - testresources
    - testcrawl
      - segments
        20060919213635
        crawl_generate
        part-00000
        .part-00000.crc
        content
        part-00000
        index
        .index.crc
        data
        .data.crc
        crawl_fetch
        part-00000
        index
        .index.crc
        data
        .data.crc
        parse_data
        part-00000
        index
        .index.crc
        data
        .data.crc
        parse_text
        part-00000
        index
        .index.crc
        data
        .data.crc
        crawl_parse
        part-00000
        .part-00000.crc
        20060919213643
        crawl_generate
        part-00000
        .part-00000.crc
        content
        part-00000
        index
        .index.crc
        data
        .data.crc
        crawl_fetch
        part-00000
        index
        .index.crc
        data
        .data.crc
        parse_data
        part-00000
        index
        .index.crc
        data
        .data.crc
        parse_text
        part-00000
        index
        .index.crc
        data
        .data.crc
        crawl_parse
        part-00000
        .part-00000.crc
      - index
        _0.fdt
        _0.tii
        _0.f1
        segments
        _0.tis
        _0.f4
        _0.fnm
        _0.fdx
        _0.f5
        deletable
        _0.f2
        _0.f0
        _0.frq
        _0.prx
        _0.f3
      - linkdb
        current
        part-00000
        index
        .index.crc
        data
        .data.crc
      - crawldb
        current
        part-00000
        index
        .index.crc
        data
        .data.crc
      - indexes
        part-00000
        .segments.crc
        _j.f3
        segments
        commit.lock
        _j.fdx
        _j.f0
        _j.tii
        deletable
        _j.fdt
        _j.frq
        index.done
        write.lock
        _j.tis
        _j.f5
        _j.f2
        _j.f1
        .index.done.crc
        _j.f4
        _j.fnm
        _j.prx
    - fetch-test-site
      - robots.txt
      - pageb.html
      - nested_spider_trap.html
      - exception.html
      - dup_of_pagea.html
      - pagea.html
      - index.html
  - test
    - log4j.properties
    - nutch-site.xml
    - domain-urlfilter.txt
    - crawl-tests.xml
    - filter-all.txt
    - org
      - apache
        nutch
        plugin
        TestPluginSystem.java
        ITestExtension.java
        HelloWorldExtension.java
        SimpleTestPlugin.java
        net
        TestURLNormalizers.java
        TestURLFilters.java
        metadata
        TestSpellCheckedMetadata.java
        TestMetadata.java
        parse
        parse-plugin-test.xml
        TestParseText.java
        TestParseData.java
        TestParserFactory.java
        TestOutlinkExtractor.java
        util
        TestGZIPUtils.java
        TestStringUtil.java
        TestNodeWalker.java
        TestEncodingDetector.java
        TestURLUtil.java
        WritableTestUtils.java
        TestSuffixStringMatcher.java
        TestPrefixStringMatcher.java
        crawl
        CrawlDBTestUtil.java
        TestLinkDbMerger.java
        DummyWritable.java
        TestCrawlDbMerger.java
        TestSignatureFactory.java
        TestGenerator.java
        TestInjector.java
        segment
        TestSegmentMerger.java
        indexer
        TestIndexingFilters.java
        protocol
        TestContent.java
        TestProtocolFactory.java
        fetcher
        TestFetcher.java
  - java
    - overview.html
    - org
      - apache
        nutch
        plugin
        PluginRepository.java
        PluginClassLoader.java
        Pluggable.java
        PluginDescriptor.java
        Plugin.java
        PluginRuntimeException.java
        Extension.java
        PluginManifestParser.java
        MissingDependencyException.java
        CircularDependencyException.java
        package.html
        ExtensionPoint.java
        net
        protocols
        HttpDateFormat.java
        ProtocolException.java
        Response.java
        URLFilterException.java
        URLFilterChecker.java
        URLNormalizers.java
        URLFilters.java
        URLFilter.java
        URLNormalizerChecker.java
        URLNormalizer.java
        metadata
        DublinCore.java
        CreativeCommons.java
        MetaWrapper.java
        Nutch.java
        Metadata.java
        Feed.java
        SpellCheckedMetadata.java
        HttpHeaders.java
        package.html
        scoring
        ScoringFilter.java
        ScoringFilters.java
        webgraph
        LinkRank.java
        Loops.java
        LinkDatum.java
        WebGraph.java
        Node.java
        NodeDumper.java
        LoopReader.java
        LinkDumper.java
        NodeReader.java
        ScoreUpdater.java
        ScoringFilterException.java
        parse
        ParseOutputFormat.java
        ParseResult.java
        Parser.java
        ParserNotFound.java
        ParseText.java
        HtmlParseFilters.java
        ParseUtil.java
        HTMLMetaTags.java
        ParserChecker.java
        OutlinkExtractor.java
        ParseData.java
        Parse.java
        ParseSegment.java
        ParsePluginsReader.java
        ParseCallable.java
        Outlink.java
        ParseImpl.java
        ParserFactory.java
        ParseStatus.java
        HtmlParseFilter.java
        ParsePluginList.java
        ParseException.java
        util
        GZIPUtils.java
        TimingUtil.java
        SuffixStringMatcher.java
        StringUtil.java
        HadoopFSUtil.java
        DomUtil.java
        TrieStringMatcher.java
        CommandRunner.java
        URLUtil.java
        NutchJob.java
        NodeWalker.java
        NutchConfiguration.java
        EncodingDetector.java
        FSUtils.java
        domain
        DomainSuffixes.java
        TopLevelDomain.java
        DomainSuffixesReader.java
        DomainSuffix.java
        DomainStatistics.java
        package.html
        LockUtil.java
        MimeUtil.java
        DeflateUtils.java
        GenericWritableConfigurable.java
        ObjectCache.java
        PrefixStringMatcher.java
        crawl
        MapWritable.java
        CrawlDbReducer.java
        CrawlDbMerger.java
        AdaptiveFetchSchedule.java
        CrawlDbFilter.java
        MimeAdaptiveFetchSchedule.java
        LinkDbReader.java
        Inlink.java
        LinkDbMerger.java
        CrawlDb.java
        URLPartitioner.java
        AbstractFetchSchedule.java
        Inlinks.java
        Crawl.java
        CrawlDatum.java
        NutchWritable.java
        FetchScheduleFactory.java
        SignatureFactory.java
        LinkDbFilter.java
        SignatureComparator.java
        Generator.java
        Injector.java
        LinkDb.java
        MD5Signature.java
        package.html
        DefaultFetchSchedule.java
        CrawlDbReader.java
        Signature.java
        TextProfileSignature.java
        FetchSchedule.java
        segment
        SegmentPart.java
        SegmentReader.java
        SegmentMergeFilters.java
        SegmentMerger.java
        ContentAsTextInputFormat.java
        SegmentMergeFilter.java
        indexer
        NutchIndexWriter.java
        NutchIndexWriterFactory.java
        IndexingFilters.java
        IndexingFiltersChecker.java
        NutchIndexAction.java
        NutchDocument.java
        IndexingFilter.java
        solr
        SolrWriter.java
        SolrMappingReader.java
        SolrUtils.java
        SolrClean.java
        SolrConstants.java
        SolrDeleteDuplicates.java
        SolrIndexer.java
        IndexerOutputFormat.java
        IndexerMapReduce.java
        IndexingException.java
        NutchField.java
        package.html
        protocol
        ProtocolFactory.java
        ProtocolOutput.java
        ProtocolException.java
        Content.java
        ProtocolStatus.java
        ProtocolNotFound.java
        Protocol.java
        RobotRules.java
        EmptyRobotRules.java
        tools
        FreeGenerator.java
        DmozParser.java
        proxy
        TestbedProxy.java
        FakeHandler.java
        NotFoundHandler.java
        SegmentHandler.java
        DelayHandler.java
        AbstractTestbedHandler.java
        LogDebugHandler.java
        ResolveUrls.java
        CrawlDBScanner.java
        Benchmark.java
        arc
        ArcSegmentCreator.java
        ArcInputFormat.java
        ArcRecordReader.java
        fetcher
        FetcherOutput.java
        Fetcher.java
        OldFetcher.java
        FetcherOutputFormat.java
        package.html
  - bin
    - crawl
    - nutch
- build.xml
- ivy
  - mvn.template
  - ivy.xml
  - ivysettings.xml
  - ivy-configurations.xml
- anth_classifier_baseline.properties
- CHANGES_nutch.txt
- README_nutch.txt
- lib
  - original-any23-1.2.0-SNAPSHOT.jar
  - native
    - README.txt
- default.properties
- NOTICE_nutch.txt
- dmoz
  - seed1k.txt
  - seed.txt
  - seed10.txt
  - seed5K.txt
- documentation
- anthelion
  - src
    - main
      - java
        com
        yahoo
        research
        petar
        anthelion
        nutch
        classifier
        NutchOnlineClassifier.java
        robme
        anthelion
        simulation
        CCFakeCrawler.java
        BFSCrawler.java
        FakeCrawler.java
        models
        ClassificationMode.java
        AnthHost.java
        AnthURL.java
        HostValueUpdateNecessity.java
        banditfunction
        DomainHolisticFunction.java
        SuccessRateBestScoreFunction.java
        DomainSuccessRateFunction.java
        ThompsonBestScoreFunction.java
        AbsolutGoodFunction.java
        AbsoluteGoodBestScoreFunction.java
        BestScoreFunction.java
        NegativeAbsolutBadFunction.java
        DomainValueFunction.java
        ThompsonSampling.java
        ClassificationResult.java
        ClassifierEnum.java
        util
        DataSetReducer.java
        DomainSpecificEvaluation.java
        DataSetShuffler.java
        classifier
        RandomBinaryClassifier.java
        framework
        UrlPuller.java
        AnthBandit.java
        AnthProcessor.java
        FeedbackPusher.java
        AnthOnlineClassifier.java
        UrlPusher.java
        mao
        DataManipulationFilter.java
        HolisticEvaluation.java
        FilterEvaluation.java
        ReduceDimensionFilter.java
        ShuffledFilterEvaluation.java
  - library_licence.info
  - pom.xml
  - config
    - baseline.properties
    - random.properties
    - holistic.properties
  - README.md
  - .gitignore
  - doc
- README.md
- urls
  - seed.txt
- .gitignore
- docs
  - api
    - package-list
    - overview-summary.html
    - overview-frame.html
    - resources
      - inherit.gif
    - overview-tree.html
    - serialized-form.html
    - help-doc.html
    - constant-values.html
    - deprecated-list.html
    - allclasses-frame.html
    - allclasses-noframe.html
    - index.html
    - org
      - creativecommons
        nutch
        package-frame.html
        class-use
        CCParseFilter.html
        CCParseFilter.Walker.html
        CCIndexingFilter.html
        package-tree.html
        CCParseFilter.html
        CCParseFilter.Walker.html
        package-summary.html
        package-use.html
        CCIndexingFilter.html
      - apache
        nutch
        plugin
        package-frame.html
        PluginRepository.html
        CircularDependencyException.html
        class-use
        PluginRepository.html
        CircularDependencyException.html
        PluginManifestParser.html
        Plugin.html
        PluginDescriptor.html
        PluginClassLoader.html
        PluginRuntimeException.html
        MissingDependencyException.html
        Pluggable.html
        Extension.html
        ExtensionPoint.html
        package-tree.html
        PluginManifestParser.html
        Plugin.html
        PluginDescriptor.html
        PluginClassLoader.html
        PluginRuntimeException.html
        doc-files
        plugin.dtd
        MissingDependencyException.html
        Pluggable.html
        Extension.html
        package-summary.html
        ExtensionPoint.html
        package-use.html
        net
        package-frame.html
        URLNormalizer.html
        urlnormalizer
        pass
        PassURLNormalizer.html
        package-frame.html
        class-use
        PassURLNormalizer.html
        package-tree.html
        package-summary.html
        package-use.html
        regex
        package-frame.html
        class-use
        RegexURLNormalizer.html
        package-tree.html
        RegexURLNormalizer.html
        package-summary.html
        package-use.html
        basic
        package-frame.html
        class-use
        BasicURLNormalizer.html
        package-tree.html
        BasicURLNormalizer.html
        package-summary.html
        package-use.html
        protocols
        package-frame.html
        ProtocolException.html
        class-use
        ProtocolException.html
        HttpDateFormat.html
        Response.html
        package-tree.html
        HttpDateFormat.html
        Response.html
        package-summary.html
        package-use.html
        class-use
        URLNormalizer.html
        URLFilterChecker.html
        URLNormalizers.html
        URLFilters.html
        URLFilterException.html
        URLNormalizerChecker.html
        URLFilter.html
        package-tree.html
        URLFilterChecker.html
        URLNormalizers.html
        URLFilters.html
        URLFilterException.html
        URLNormalizerChecker.html
        package-summary.html
        package-use.html
        URLFilter.html
        metadata
        package-frame.html
        Metadata.html
        class-use
        Metadata.html
        Feed.html
        MetaWrapper.html
        Nutch.html
        DublinCore.html
        SpellCheckedMetadata.html
        CreativeCommons.html
        HttpHeaders.html
        package-tree.html
        Feed.html
        MetaWrapper.html
        Nutch.html
        DublinCore.html
        SpellCheckedMetadata.html
        CreativeCommons.html
        HttpHeaders.html
        package-summary.html
        package-use.html
        scoring
        package-frame.html
        opic
        package-frame.html
        class-use
        OPICScoringFilter.html
        package-tree.html
        OPICScoringFilter.html
        package-summary.html
        package-use.html
        class-use
        ScoringFilterException.html
        ScoringFilters.html
        ScoringFilter.html
        package-tree.html
        ScoringFilterException.html
        link
        package-frame.html
        class-use
        LinkAnalysisScoringFilter.html
        LinkAnalysisScoringFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        ScoringFilters.html
        webgraph
        package-frame.html
        LinkDumper.LinkNodes.html
        NodeDumper.html
        Loops.LoopSet.html
        Loops.Looper.html
        NodeDumper.Sorter.html
        WebGraph.OutlinkDb.html
        class-use
        LinkDumper.LinkNodes.html
        NodeDumper.html
        Loops.LoopSet.html
        Loops.Looper.html
        NodeDumper.Sorter.html
        WebGraph.OutlinkDb.html
        LinkDumper.html
        Loops.Route.html
        ScoreUpdater.html
        LinkRank.html
        Loops.Initializer.html
        LinkDumper.Inverter.html
        NodeDumper.Dumper.html
        NodeReader.html
        LinkDumper.Reader.html
        LoopReader.html
        LinkDumper.Merger.html
        WebGraph.html
        LinkDatum.html
        Loops.Finalizer.html
        LinkDumper.LinkNode.html
        Node.html
        Loops.html
        package-tree.html
        LinkDumper.html
        Loops.Route.html
        ScoreUpdater.html
        LinkRank.html
        Loops.Initializer.html
        LinkDumper.Inverter.html
        NodeDumper.Dumper.html
        NodeReader.html
        LinkDumper.Reader.html
        LoopReader.html
        LinkDumper.Merger.html
        WebGraph.html
        LinkDatum.html
        Loops.Finalizer.html
        package-summary.html
        LinkDumper.LinkNode.html
        package-use.html
        Node.html
        Loops.html
        tld
        package-frame.html
        class-use
        TLDScoringFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        TLDScoringFilter.html
        ScoringFilter.html
        package-summary.html
        urlmeta
        package-frame.html
        class-use
        URLMetaScoringFilter.html
        package-tree.html
        URLMetaScoringFilter.html
        package-summary.html
        package-use.html
        package-use.html
        parse
        ParseOutputFormat.html
        package-frame.html
        headings
        package-frame.html
        class-use
        HeadingsParseFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        HeadingsParseFilter.html
        ParseException.html
        ParseImpl.html
        ParseSegment.html
        class-use
        ParseOutputFormat.html
        ParseException.html
        ParseImpl.html
        ParseSegment.html
        HtmlParseFilters.html
        MetaTagsParser.html
        HtmlParseFilter.html
        ParserNotFound.html
        HTMLMetaTags.html
        ParserFactory.html
        ParseUtil.html
        ParseStatus.html
        Outlink.html
        Parse.html
        ParseText.html
        OutlinkExtractor.html
        ParserChecker.html
        ParseData.html
        ParseResult.html
        Parser.html
        html
        package-frame.html
        HTMLMetaProcessor.html
        DOMContentUtils.LinkParams.html
        class-use
        HTMLMetaProcessor.html
        DOMContentUtils.LinkParams.html
        XMLCharacterRecognizer.html
        DOMBuilder.html
        HtmlParser.html
        DOMContentUtils.html
        XMLCharacterRecognizer.html
        package-tree.html
        DOMBuilder.html
        HtmlParser.html
        DOMContentUtils.html
        package-summary.html
        package-use.html
        package-tree.html
        HtmlParseFilters.html
        swf
        package-frame.html
        SWFParser.html
        class-use
        SWFParser.html
        package-tree.html
        package-summary.html
        package-use.html
        MetaTagsParser.html
        HtmlParseFilter.html
        ParserNotFound.html
        HTMLMetaTags.html
        zip
        package-frame.html
        ZipTextExtractor.html
        class-use
        ZipTextExtractor.html
        ZipParser.html
        package-tree.html
        package-summary.html
        package-use.html
        ZipParser.html
        ParserFactory.html
        ParseUtil.html
        ParseStatus.html
        Outlink.html
        Parse.html
        feed
        package-frame.html
        FeedParser.html
        class-use
        FeedParser.html
        package-tree.html
        package-summary.html
        package-use.html
        ParseText.html
        OutlinkExtractor.html
        ext
        package-frame.html
        class-use
        ExtParser.html
        package-tree.html
        ExtParser.html
        package-summary.html
        package-use.html
        js
        package-frame.html
        JSParseFilter.html
        class-use
        JSParseFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        tika
        package-frame.html
        class-use
        TikaParser.html
        package-tree.html
        TikaParser.html
        package-summary.html
        package-use.html
        ParserChecker.html
        package-summary.html
        ParseData.html
        ParseResult.html
        package-use.html
        Parser.html
        util
        package-frame.html
        GZIPUtils.html
        DeflateUtils.html
        LockUtil.html
        CommandRunner.html
        class-use
        GZIPUtils.html
        DeflateUtils.html
        LockUtil.html
        CommandRunner.html
        TimingUtil.html
        HadoopFSUtil.html
        NodeWalker.html
        EncodingDetector.html
        MimeUtil.html
        GenericWritableConfigurable.html
        NutchJob.html
        DomUtil.html
        TrieStringMatcher.TrieNode.html
        ObjectCache.html
        URLUtil.html
        PrefixStringMatcher.html
        SuffixStringMatcher.html
        NutchConfiguration.html
        StringUtil.html
        FSUtils.html
        TrieStringMatcher.html
        package-tree.html
        TimingUtil.html
        HadoopFSUtil.html
        NodeWalker.html
        EncodingDetector.html
        MimeUtil.html
        GenericWritableConfigurable.html
        NutchJob.html
        DomUtil.html
        TrieStringMatcher.TrieNode.html
        ObjectCache.html
        URLUtil.html
        domain
        package-frame.html
        DomainStatistics.html
        TopLevelDomain.html
        TopLevelDomain.Type.html
        class-use
        DomainStatistics.html
        TopLevelDomain.html
        TopLevelDomain.Type.html
        DomainSuffix.Status.html
        DomainSuffix.html
        DomainStatistics.DomainStatisticsCombiner.html
        DomainSuffixes.html
        DomainStatistics.MyCounter.html
        package-tree.html
        DomainSuffix.Status.html
        DomainSuffix.html
        DomainStatistics.DomainStatisticsCombiner.html
        DomainSuffixes.html
        package-summary.html
        package-use.html
        DomainStatistics.MyCounter.html
        PrefixStringMatcher.html
        SuffixStringMatcher.html
        NutchConfiguration.html
        StringUtil.html
        FSUtils.html
        package-summary.html
        TrieStringMatcher.html
        package-use.html
        collection
        package-frame.html
        class-use
        Subcollection.html
        CollectionManager.html
        package-tree.html
        Subcollection.html
        package-summary.html
        package-use.html
        CollectionManager.html
        microformats
        reltag
        package-frame.html
        class-use
        RelTagParser.html
        RelTagIndexingFilter.html
        package-tree.html
        RelTagParser.html
        RelTagIndexingFilter.html
        package-summary.html
        package-use.html
        crawl
        package-frame.html
        MapWritable.html
        FetchSchedule.html
        MD5Signature.html
        CrawlDbReader.CrawlDbStatMapper.html
        SignatureFactory.html
        CrawlDb.html
        CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html
        Generator.html
        FetchScheduleFactory.html
        AbstractFetchSchedule.html
        CrawlDbMerger.Merger.html
        CrawlDbReader.CrawlDbStatReducer.html
        Generator.HashComparator.html
        Crawl.html
        CrawlDbReader.CrawlDbTopNReducer.html
        class-use
        MapWritable.html
        FetchSchedule.html
        MD5Signature.html
        CrawlDbReader.CrawlDbStatMapper.html
        SignatureFactory.html
        CrawlDb.html
        CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html
        Generator.html
        FetchScheduleFactory.html
        AbstractFetchSchedule.html
        CrawlDbMerger.Merger.html
        CrawlDbReader.CrawlDbStatReducer.html
        Generator.HashComparator.html
        Crawl.html
        CrawlDbReader.CrawlDbTopNReducer.html
        CrawlDbFilter.html
        CrawlDbReader.CrawlDbStatCombiner.html
        URLPartitioner.html
        Inlinks.html
        CrawlDatum.Comparator.html
        Generator.GeneratorOutputFormat.html
        CrawlDbReader.CrawlDbDumpMapper.html
        Injector.html
        Injector.InjectReducer.html
        LinkDbReader.html
        Injector.InjectMapper.html
        Generator.PartitionReducer.html
        LinkDbFilter.html
        CrawlDbReader.CrawlDbTopNMapper.html
        CrawlDbReducer.html
        CrawlDbReader.CrawlDatumCsvOutputFormat.html
        Inlink.html
        TextProfileSignature.html
        Generator.Selector.html
        AdaptiveFetchSchedule.html
        NutchWritable.html
        MimeAdaptiveFetchSchedule.html
        Generator.SelectorEntry.html
        CrawlDbReader.html
        CrawlDbMerger.html
        LinkDb.html
        Generator.CrawlDbUpdater.html
        LinkDbMerger.html
        Generator.DecreasingFloatComparator.html
        SignatureComparator.html
        Signature.html
        DefaultFetchSchedule.html
        Generator.SelectorInverseMapper.html
        CrawlDbFilter.html
        package-tree.html
        CrawlDbReader.CrawlDbStatCombiner.html
        URLPartitioner.html
        Inlinks.html
        CrawlDatum.Comparator.html
        Generator.GeneratorOutputFormat.html
        CrawlDatum.html
        CrawlDbReader.CrawlDbDumpMapper.html
        Injector.html
        Injector.InjectReducer.html
        LinkDbReader.html
        Injector.InjectMapper.html
        Generator.PartitionReducer.html
        LinkDbFilter.html
        CrawlDbReader.CrawlDbTopNMapper.html
        CrawlDbReducer.html
        CrawlDbReader.CrawlDatumCsvOutputFormat.html
        Inlink.html
        TextProfileSignature.html
        Generator.Selector.html
        AdaptiveFetchSchedule.html
        NutchWritable.html
        MimeAdaptiveFetchSchedule.html
        Generator.SelectorEntry.html
        package-summary.html
        CrawlDbReader.html
        CrawlDbMerger.html
        LinkDb.html
        Generator.CrawlDbUpdater.html
        package-use.html
        LinkDbMerger.html
        Generator.DecreasingFloatComparator.html
        SignatureComparator.html
        Signature.html
        DefaultFetchSchedule.html
        Generator.SelectorInverseMapper.html
        urlfilter
        prefix
        package-frame.html
        class-use
        PrefixURLFilter.html
        package-tree.html
        PrefixURLFilter.html
        package-summary.html
        package-use.html
        automaton
        package-frame.html
        class-use
        AutomatonURLFilter.html
        package-tree.html
        AutomatonURLFilter.html
        package-summary.html
        package-use.html
        regex
        package-frame.html
        class-use
        RegexURLFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        RegexURLFilter.html
        api
        package-frame.html
        class-use
        RegexURLFilterBase.html
        RegexRule.html
        package-tree.html
        RegexURLFilterBase.html
        package-summary.html
        RegexRule.html
        package-use.html
        validator
        package-frame.html
        class-use
        UrlValidator.html
        package-tree.html
        UrlValidator.html
        package-summary.html
        package-use.html
        domainblacklist
        package-frame.html
        class-use
        DomainBlacklistURLFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        DomainBlacklistURLFilter.html
        domain
        package-frame.html
        class-use
        DomainURLFilter.html
        package-tree.html
        DomainURLFilter.html
        package-summary.html
        package-use.html
        suffix
        package-frame.html
        class-use
        SuffixURLFilter.html
        package-tree.html
        SuffixURLFilter.html
        package-summary.html
        package-use.html
        analysis
        lang
        package-frame.html
        HTMLLanguageParser.html
        LanguageIndexingFilter.html
        class-use
        HTMLLanguageParser.html
        LanguageIndexingFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        segment
        package-frame.html
        SegmentMerger.html
        SegmentReader.html
        class-use
        SegmentMerger.html
        SegmentReader.html
        SegmentPart.html
        SegmentMergeFilters.html
        SegmentMergeFilter.html
        SegmentReader.TextOutputFormat.html
        SegmentMerger.SegmentOutputFormat.html
        SegmentReader.SegmentReaderStats.html
        ContentAsTextInputFormat.html
        SegmentReader.InputCompatMapper.html
        SegmentMerger.ObjectInputFormat.html
        package-tree.html
        SegmentPart.html
        SegmentMergeFilters.html
        SegmentMergeFilter.html
        SegmentReader.TextOutputFormat.html
        SegmentMerger.SegmentOutputFormat.html
        SegmentReader.SegmentReaderStats.html
        ContentAsTextInputFormat.html
        SegmentReader.InputCompatMapper.html
        package-summary.html
        SegmentMerger.ObjectInputFormat.html
        package-use.html
        indexer
        package-frame.html
        IndexerOutputFormat.html
        subcollection
        package-frame.html
        class-use
        SubcollectionIndexingFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        SubcollectionIndexingFilter.html
        NutchIndexWriterFactory.html
        IndexingException.html
        NutchIndexWriter.html
        IndexingFiltersChecker.html
        class-use
        IndexerOutputFormat.html
        NutchIndexWriterFactory.html
        IndexingException.html
        NutchIndexWriter.html
        IndexingFiltersChecker.html
        IndexingFilter.html
        NutchField.html
        IndexingFilters.html
        NutchDocument.html
        IndexerMapReduce.html
        IndexingFilter.html
        package-tree.html
        more
        package-frame.html
        MoreIndexingFilter.html
        class-use
        MoreIndexingFilter.html
        package-tree.html
        package-summary.html
        package-use.html
        metadata
        package-frame.html
        class-use
        MetadataIndexer.html
        package-tree.html
        MetadataIndexer.html
        package-summary.html
        package-use.html
        NutchField.html
        IndexingFilters.html
        anchor
        package-frame.html
        class-use
        AnchorIndexingFilter.html
        package-tree.html
        AnchorIndexingFilter.html
        package-summary.html
        package-use.html
        feed
        package-frame.html
        class-use
        FeedIndexingFilter.html
        package-tree.html
        FeedIndexingFilter.html
        package-summary.html
        package-use.html
        staticfield
        package-frame.html
        class-use
        StaticFieldIndexer.html
        package-tree.html
        StaticFieldIndexer.html
        package-summary.html
        package-use.html
        basic
        package-frame.html
        class-use
        BasicIndexingFilter.html
        package-tree.html
        BasicIndexingFilter.html
        package-summary.html
        package-use.html
        solr
        package-frame.html
        SolrMappingReader.html
        class-use
        SolrMappingReader.html
        SolrDeleteDuplicates.SolrInputFormat.html
        SolrUtils.html
        SolrWriter.html
        SolrDeleteDuplicates.SolrInputSplit.html
        SolrClean.html
        SolrClean.SolrDeleter.html
        SolrConstants.html
        SolrIndexer.html
        SolrDeleteDuplicates.SolrRecord.html
        SolrClean.DBFilter.html
        SolrDeleteDuplicates.html
        SolrDeleteDuplicates.SolrInputFormat.html
        SolrUtils.html
        package-tree.html
        SolrWriter.html
        SolrDeleteDuplicates.SolrInputSplit.html
        SolrClean.html
        SolrClean.SolrDeleter.html
        SolrConstants.html
        SolrIndexer.html
        SolrDeleteDuplicates.SolrRecord.html
        SolrClean.DBFilter.html
        package-summary.html
        SolrDeleteDuplicates.html
        package-use.html
        tld
        package-frame.html
        class-use
        TLDIndexingFilter.html
        package-tree.html
        TLDIndexingFilter.html
        package-summary.html
        package-use.html
        NutchDocument.html
        package-summary.html
        urlmeta
        package-frame.html
        class-use
        URLMetaIndexingFilter.html
        package-tree.html
        URLMetaIndexingFilter.html
        package-summary.html
        package-use.html
        package-use.html
        IndexerMapReduce.html
        protocol
        package-frame.html
        ProtocolException.html
        class-use
        ProtocolException.html
        RobotRules.html
        ProtocolNotFound.html
        Protocol.html
        ProtocolStatus.html
        ProtocolFactory.html
        Content.html
        ProtocolOutput.html
        EmptyRobotRules.html
        package-tree.html
        RobotRules.html
        ProtocolNotFound.html
        Protocol.html
        ftp
        FtpExceptionBadSystResponse.html
        package-frame.html
        FtpExceptionControlClosedByForcedDataClose.html
        FtpResponse.html
        FtpError.html
        FtpExceptionUnknownForcedDataClose.html
        class-use
        FtpExceptionBadSystResponse.html
        FtpExceptionControlClosedByForcedDataClose.html
        FtpResponse.html
        FtpError.html
        FtpExceptionUnknownForcedDataClose.html
        FtpException.html
        FtpExceptionCanNotHaveDataConnection.html
        Ftp.html
        Client.html
        PrintCommandListener.html
        package-tree.html
        FtpException.html
        FtpExceptionCanNotHaveDataConnection.html
        Ftp.html
        Client.html
        PrintCommandListener.html
        package-summary.html
        package-use.html
        file
        File.html
        package-frame.html
        FileResponse.html
        FileException.html
        class-use
        File.html
        FileResponse.html
        FileException.html
        FileError.html
        package-tree.html
        FileError.html
        package-summary.html
        package-use.html
        httpclient
        HttpAuthenticationFactory.html
        package-frame.html
        DummyX509TrustManager.html
        class-use
        HttpAuthenticationFactory.html
        DummyX509TrustManager.html
        HttpResponse.html
        HttpAuthenticationException.html
        HttpBasicAuthentication.html
        HttpAuthentication.html
        Http.html
        DummySSLProtocolSocketFactory.html
        package-tree.html
        HttpResponse.html
        HttpAuthenticationException.html
        HttpBasicAuthentication.html
        HttpAuthentication.html
        Http.html
        DummySSLProtocolSocketFactory.html
        package-summary.html
        package-use.html
        ProtocolStatus.html
        ProtocolFactory.html
        Content.html
        http
        package-frame.html
        class-use
        HttpResponse.html
        Http.html
        package-tree.html
        HttpResponse.html
        api
        package-frame.html
        class-use
        RobotRulesParser.RobotRuleSet.html
        HttpException.html
        RobotRulesParser.html
        BlockedException.html
        HttpBase.html
        package-tree.html
        RobotRulesParser.RobotRuleSet.html
        HttpException.html
        RobotRulesParser.html
        BlockedException.html
        package-summary.html
        package-use.html
        HttpBase.html
        Http.html
        package-summary.html
        package-use.html
        ProtocolOutput.html
        package-summary.html
        package-use.html
        EmptyRobotRules.html
        tools
        package-frame.html
        class-use
        Benchmark.BenchmarkResults.html
        FreeGenerator.html
        DmozParser.html
        FreeGenerator.FG.html
        Benchmark.html
        CrawlDBScanner.html
        ResolveUrls.html
        package-tree.html
        proxy
        package-frame.html
        DelayHandler.html
        class-use
        DelayHandler.html
        NotFoundHandler.html
        AbstractTestbedHandler.html
        TestbedProxy.html
        FakeHandler.html
        SegmentHandler.html
        LogDebugHandler.html
        package-tree.html
        NotFoundHandler.html
        AbstractTestbedHandler.html
        TestbedProxy.html
        package-summary.html
        package-use.html
        FakeHandler.html
        SegmentHandler.html
        LogDebugHandler.html
        Benchmark.BenchmarkResults.html
        FreeGenerator.html
        DmozParser.html
        FreeGenerator.FG.html
        arc
        package-frame.html
        class-use
        ArcRecordReader.html
        ArcInputFormat.html
        ArcSegmentCreator.html
        package-tree.html
        ArcRecordReader.html
        ArcInputFormat.html
        package-summary.html
        ArcSegmentCreator.html
        package-use.html
        Benchmark.html
        CrawlDBScanner.html
        package-summary.html
        package-use.html
        ResolveUrls.html
        fetcher
        package-frame.html
        Fetcher.InputFormat.html
        OldFetcher.html
        class-use
        Fetcher.InputFormat.html
        OldFetcher.html
        FetcherOutput.html
        Fetcher.html
        OldFetcher.InputFormat.html
        FetcherOutputFormat.html
        package-tree.html
        FetcherOutput.html
        Fetcher.html
        OldFetcher.InputFormat.html
        package-summary.html
        package-use.html
        FetcherOutputFormat.html
    - stylesheet.css
- LICENSE.txt
- conf
  - nutch-conf.xsl
  - domainblacklist-urlfilter.txt
  - prefix-urlfilter.txt
  - log4j.properties
  - domain-suffixes.xsd
  - nutch-site.xml
  - nutch-anth.xml
  - domain-suffixes.xml
  - host-urlnormalizer.txt
  - httpclient-auth.xml
  - solrindex-mapping.xml
  - regex-urlfilter.txt
  - parse-plugins.dtd
  - subcollections.xml
  - domain-urlfilter.txt
  - adaptive-mimetypes.txt
  - automaton-urlfilter.txt
  - schema.xml
  - regex-normalize.xml
  - schema-solr4.xml
  - nutch-default.xml
  - configuration.xsl
  - suffix-urlfilter.txt
  - parse-plugins.xml

nutch-anth

Anthelion is a Nutch plugin for focused crawling of semantic data. The project is an open-source project released under the Apache License 2.0.

Note: This project contains the complete Nutch 1.6 distribution. The plugin itself can be found in /src/plugin/parse-anth

[Nutch-Anthelion Plugin](#nutch-anthelion plugin)
- [Plugin Overview] (#plugin-overview)
- [Usage and Development] (#usage-and-development)
- [Some Results] (#some-results)
- [3rd Party Libraries] (#3rd-party-libraries)
Anthelion
References

Nutch-Anthelion Plugin

The plugin uses an online learning approach to predict data-rich web pages based on the context of the page as well as using feedback from the extraction of metadata from previously seen pages [1].

Plugin Overview

To perform the focused crawling the plugin implements three extensions:

AnthelionScoringFilter (implements the ScoringFilter interface): wraps around the Anthelion online classifier to classify newly discovered outlinks, as relevant or not. This extension gives score to each outlink, which is then used in the Generate stage, i.e., the URLs for the next fetch cycle are selected based on the score. This extension also pushes feedback to the classifier for the already parsed web pages. The online classifier can be configured and tuned (see [Usage and Development](#usage and development)).
WdcParser (implements the Parser interface): This extension parses the web page content and tries to extract semantic data. The parser is adaptation of an already existing Nutch parser plugin implemented in [2]. The parser is based on the any23 library and is able to extract Microdata, Microformats and RDFa annotation from HTML. The extracted triples are stored in the Content field.
TripleExtractor (implements the IndexingFilter interface): This extension stores new fields to the index that can be later used for querying.

An overview of the complete crawling process using the Anthelion plugin is given in the following figure.

Anthelion Architecture

Usage and Development

As mentioned in the beginning of the document this project contains the complete Nutch 1.6 code, including the plugin. If you download the complete project, there is no need for any changes and settings. If you want to download only the plugin, please download only the nutch-anth.zip from the root of the folder and go to step 2 of the configuration. If you want to contribute to the plugin and/or want to use the sources with another version of Nutch, please follow the following instructions:

Download and copy the /src/plugin/parse-anth folder into your Nutch's plugins directory.
Enable the plugin in conf/nutch-site.xml by adding parse-anth in the plugin.includes property.
Copy the properties from nutch-anth.xml to conf/nutch-site.xml.

3.1. Download the baseline.properties file and set the property anth.scoring.classifier.PropsFilePath conf/nutch-site.xml to point to the file. This file contains all configurations for the online classifier.
In order for ant to compile and deploy the plugin you need to edit the src/plugin/build.xml, by adding the following line in the deploy target:
```
<ant dir="parse-anth" target="deploy"/>
```

Add the following lines in conf/parse-plugins.xml:

<mimeType name="text/html">
        <plugin id="parse-anth" />
    </mimeType>

        <mimeType name="application/xhtml+xml">
        <plugin id="parse-anth" />
    </mimeType>

Add the following line in the alias property in conf/parse-plugins.xml:

<alias name="parse-anth" extension-id="com.yahoo.research.parsing.WdcParser" />

Copy the lib folder into the root of the Nutch distribution.
Run mvn package inside the anthelion folder. This will create the jar "Anthelion-1.0.0-jar-with-dependencies.jar". Copy the jar to src/plugin/parse-anth/lib.
Add the following field in conf/schema.xml (also add it to the Solr schema.xml, if you are using Solr):
```
<field name="containsSem" type="text_general" stored="true" indexed="true"/>
```
Run ant in the root of your folder.

Some Results

In order to evaluate the focused crawler we measure the precision of the crawled pages, i.e., the ratio of the number of crawled web pages that contain semantic data and the total number of crawled web pages. So far, we have evaluated using three different seeds sample, and several different configurations. An overview is given in the following table.

#seeds nutch options standard scoring anthelion scoring

#total pages #sem pages precision #total pages #sem pages precision

2 -depth 3 -topN 15 17 2 0.12 22 7 0.32

10 -depth 8 -topN 15 99 2 0.02 49 11 0.22

1000 -depth 4 -topN 1000 3200 212 0.07 2910 1469 0.50

1000 -depth 5 -topN 2000 8240 511 0.06 9781 7587 0.78

The pairwise comparison is given in the following chart:

Architecture

3rd Party Libraries

The Anthelion plugin uses several 3rd party open source libraries and tools. Here we summarize the tools used, their purpose, and the licenses under which they're released.

This project includes the sources of Apache Nutch 1.6 (Apache License 2.0 - http://www.apache.org/licenses/LICENSE-2.0)
- http://nutch.apache.org/
Apache Any23 1.2 (Apache License 2.0 - http://www.apache.org/licenses/LICENSE-2.0)
- Used for extraction of semantic annotation from HTML.
- https://any23.apache.org/
- More information about the 3rd party dependencies used in the any23 library can be found here
The classes com.yahoo.research.parsing.WdcParser and com.yahoo.research.parsing.FilterableTripleHandler are modified versions of existing Nutch plugins (Apache License 2.0 - http://www.apache.org/licenses/LICENSE-2.0)
- Used for parsing the crawled web pages
- Hellman et al. [2]; https://www.assembla.com/spaces/commondata/subversion/source/HEAD/extractorNutch
For the libraries and tools used in Anthelion, please check the Anthelion [README file] (https://github.com/yahoo/anthelion/blob/master/anthelion/README.md).

Anthelion

For more details about the Anthelion project please check the Anthelion [README file] (https://github.com/yahoo/anthelion/blob/master/anthelion/README.md).

References

[1]. Meusel, Robert, Peter Mika, and Roi Blanco. "Focused Crawling for Structured Data." Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014.

[2]. Hellmann, Sebastian, et al. "Knowledge Base Creation, Enrichment and Repair." Linked Open Data--Creating Knowledge Out of Interlinked Data. Springer International Publishing, 2014. 45-69.

Troubleshooting

(TODO)

#seeds	nutch options	standard scoring			anthelion scoring
#seeds	nutch options	#total pages	#sem pages	precision	#total pages	#sem pages	precision
2	-depth 3 -topN 15	17	2	0.12	22	7	0.32
10	-depth 8 -topN 15	99	2	0.02	49	11	0.22
1000	-depth 4 -topN 1000	3200	212	0.07	2910	1469	0.50
1000	-depth 5 -topN 2000	8240	511	0.06	9781	7587	0.78