java source code of PatentDocument

act-master
- dev_tools
  - live_templates
    - user.xml
  - file_templates
    - JavaIOTemplate.java
  - environment
    - init-sbt-project.sh
    - build.sbt.template
    - migrate-repo-n-rewrite-hist.txt
    - README-env.txt
    - git-bare-repo-blob-sizes.sh
- bioreactor
  - src
    - main
      - resources
        com.twentyn.bioreactor
        pH
        reading.json
        log4j2.xml
      - java
        com
        twentyn
        bioreactor
        sensors
        PHSensorData.java
        SensorData.java
        Sensor.java
        DOSensorData.java
        TempSensorData.java
        pH
        MotorPinConfiguration.java
        ControlSystem.java
        util
        Time.java
        json
        DateTimeSerde.java
      - other
        com
        20n
        arduino
        phMeterI2CConnector.ino
        phMeterSerialConnector.ino
    - test
      - java
        com
        twentyn
        bioreactor
        util
        json
        DateTimeSerdeTest.java
  - project
    - Build.scala
    - plugins.sbt
  - README.md
  - build.sbt
- LICENSE
- reachables
  - src
    - main
      - resources
        reachables_input_files
        my_cofactors_file.txt
        valid_starting_points.txt
        application.conf
        log4j.properties
        log4j2.xml
        mksvgs.sh
        leishcyc.biopax-level3.owl.diff
        download_nc_files_from_gdrive
        download_nc_files_from_gdrive
        requirements.txt
        mksvgs-batch.sh
        com
        act
        biointerpretation
        cofactorremoval
        cofactors.json
        fake_cofactors.json
        l2expansion
        desalting
        desalting_ros.json
        desalter_constants.txt
        mechanisminspection
        blacklisted_inchis.json
        validated_reactions.json
        lcms
        db
        20160219T1106_standard_ion_result.sql
        20151012T1125_create_tables.sql
        20160304T1111_ms1_for_well_and_mass_charge.sql
        20160304T1835_curated_standard_metlin_ion.sql
        20160210T1254_ms1_for_well_and_mass_charge.sql
        20151102T1118_wells_lcms_feeding.sql
        20160304T1836_standard_ion_result.sql
        20151217T1241_wells_standard_add_concentration.sql
        chemspider-vendors
        step2_construct_contributor_tsv.sh
        step1_retrieve_chemspider_sources_page.sh
        vendors_from_csid.sh
        step4_tag_contributor_category.sh
        step5_join_vendors.sh
        vendors_from_inchi.sh
        step3_retrieve_all_contributor_pages.sh
        act
        installer
        reachablesexplorer
        templates
        Mediawiki.ftl
        MediaWikiPathways.ftl
        bing
        usage_terms.txt
      - scala
        reachables.scala
        initdb.scala
        scripts.scala
        lcms.scala
        com
        act
        workflow
        CLI.scala
        tool_manager
        workflow
        ExampleWorkflow.scala
        workflow_mixins
        base
        WorkingDirectoryUtility.scala
        HmmerResultSetOperations.scala
        WriteProteinSequenceToFasta.scala
        spark
        SparkRdd.scala
        mongo
        sequence_db
        ConditionalToSequence.scala
        QueryByReactionId.scala
        QueryBySequenceId.scala
        MongoWorkflowUtilities.scala
        chemical_db
        QueryChemicals.scala
        Keyword.scala
        reaction_db
        QueryByEcNumber.scala
        QueryByRo.scala
        cross_db
        ReactionsToSubstratesAndProducts.scala
        SequenceIdToRxnInchis.scala
        composite
        SarTreeConstructor.scala
        EcnumToSequences.scala
        RoToSequences.scala
        Workflow.scala
        tool_wrappers
        JavaJobWrapper.scala
        ScalaJobWrapper.scala
        ClustalOmegaWrapper.scala
        HmmerWrapper.scala
        ToolWrapper.scala
        ShellWrapper.scala
        SparkWrapper.scala
        jobs
        ShellJob.scala
        Job.scala
        ScalaJob.scala
        JavaJob.scala
        HeaderJob.scala
        management
        utility
        LoggingController.scala
        CanceleableFuture.scala
        AtomicLatch.scala
        JobManager.scala
        reachables
        PathwayConstructor.scala
        Cascade.scala
        ReachRxn.scala
        Waterfall.scala
        cascades.scala
        Path.scala
        Falls.scala
        biointerpretation
        UntargetedMetabolomicsWorkflow.scala
        l2expansion
        sparkprojectors
        BasicSparkROProjector.scala
        utility
        ProjectionResult.scala
        ProjectorCliHelper.scala
        FileSparkRoProjector.scala
        DatabaseSparkRoProjector.scala
        SparkProjectionInstance.scala
        io_handlers
        BasicProjectorInput.scala
        ReadFromSubstrateFile.scala
        BasicProjectorOutput.scala
        WriteToReachablesDatabase.scala
        WriteToJson.scala
        BasicFileProjectorOutput.scala
        ReadFromDatabase.scala
        WriteToDatabase.scala
        ReachablesSparkRoProjector.scala
        SparkSingleSubstrateROProjector.scala
        SparkSubstrateExpansionDriverWorkflow.scala
        rsmiles
        processing
        ReactionProcessing.scala
        single_sar_construction
        SarGenerationSandbox.scala
        SarProjection.scala
        AbstractReactionSarSearcher.scala
        SingleSarReactionsPipeline.scala
        SingleSarChemicals.scala
        AbstractReactionsToL3ProjectionWorkflow.scala
        DataSerializationJsonProtocol.scala
        chemicals
        abstract_chemicals
        AbstractChemicalsToReactions.scala
        AbstractReactions.scala
        AbstractChemicals.scala
        JsonInformationTypes.scala
        cluster_sar_construction
        ReactionRoAssignment.scala
        ConstructSarsFromPredictionCorpus.scala
        networkanalysis
        NetworkBuilderFlow.scala
        NetworkAnalysisFlow.scala
        NetworkVisualizationFlow.scala
        PrecursorAnalysisFlow.scala
        metadata
        RankPathway.scala
        analysis
        proteome
        proteome_workflow
        OrganismBasedRoToLcmsScoring.scala
        RoToProteinPredictionFlow.scala
        RoToFastaFlow.scala
        EcnumToFastaFlow.scala
        EcnumToProteinPredictionFlow.scala
        files
        Hmm.scala
        AlignedFastaFileParser.scala
        HmmResultParser.scala
        MultipleHmmFile.scala
        scripts
        Readme.md
        OddSequencesToProteinPredictionFlow.scala
        chemicals
        ChemicalSimilarity.scala
        molecules
        MoleculeConversions.scala
        MoleculeImporter.scala
        MoleculeExporter.scala
        MoleculeFormat.scala
        InchiClustering.scala
        lcms
        UntargetedMetabolomics.scala
        MoleculeFinder.scala
        README.md
        similarity.scala
        cmdline.scala
        CmdLineParser.scala
        costmodel.scala
        act
        shared
        ChemicalSymbols.scala
        EnumChemFormulae.scala
        MassToFormula.scala
        TextToRxns.scala
        EnumPolyPeptides.scala
        postprocess_reachables.scala
      - python
        DeepLearningLcmsPeak
        bucketed_deep.py
        dynamic_differential_deep.py
        pip_req.txt
        netcdf
        netcdf_parser.py
        __init__.py
        Readme.md
        bucketed_differential_deep.py
        dynamic_peaks
        lcms_autoencoder.py
        __init__.py
        aligner.py
        cluster.py
        modules
        utility
        utility.py
        magic.py
        __init__.py
        __init__.py
        conda_req.txt
        bucketed_peaks
        __init__.py
        cluster.py
        modules
        utility
        utility_functions.py
        magic.py
        __init__.py
        lcms_autoencoder.py
        __init__.py
        preprocessing
        LcmsPreprocessing.py
        __init__.py
        __init__.py
        LICENSE.txt
        Wiki
        generate_category_pages.py
      - java
        com
        act
        utils
        ProcessRunner.java
        TSVWriter.java
        TSVParser.java
        rocksdb
        DBUtil.java
        RocksDBAndHandles.java
        ColumnFamilyEnumeration.java
        CLIUtil.java
        parser
        UniprotInterpreter.java
        GenbankInterpreter.java
        reachables
        ComputeReachablesTree.java
        GlobalParams.java
        WavefrontExpansion.java
        Edge.java
        TargetSelection.java
        Node.java
        OutdatedWavefrontExpansion.java
        Tree.java
        ConditionalReachable.java
        ReactionPath.java
        SteppedTask.java
        ConditionalReachabilityInterpreter.java
        CladeTraversal.java
        Network.java
        ActData.java
        LoadAct.java
        EnvCond.java
        InorderTraverse.java
        biointerpretation
        cofactorremoval
        CofactorRemover.java
        FakeCofactorMapping.java
        FakeCofactorFinder.java
        CofactorsCorpus.java
        Cofactor.java
        ReactionCofactorRemover.java
        FakeCofactorCorpus.java
        sarinference
        SarTreeNodeList.java
        SarTreeNode.java
        SarTree.java
        LibMcsClustering.java
        SarTreeBasedCalculator.java
        BestSarFinder.java
        SarHitPercentageCalculator.java
        ProductScorer.java
        l2expansion
        PredictionSeed.java
        ReactionsTransformer.java
        L2ExpansionDriver.java
        ChemicalsTransformer.java
        PredictionGenerator.java
        SingleSubstrateRoExpander.java
        SingleSubstrateSarExpander.java
        PredictionCorpusRenderer.java
        L2Expander.java
        L2RenderingDriver.java
        AllPredictionsGenerator.java
        TwoSubstrateRoExpander.java
        L2PredictionCorpus.java
        L2PredictionCorpusOperations.java
        L2FilteringDriver.java
        L2PredictionChemical.java
        ValidReactionSubstratesIterator.java
        L2InchiCorpus.java
        L2Prediction.java
        sars
        OneSubstrateSubstructureSar.java
        ReactionGroupCharacterizer.java
        SerializableReactor.java
        ExpandedReactionSearcher.java
        SarGenerationDriver.java
        SarCorpusBuilder.java
        FullReactionBuilder.java
        Sar.java
        ReactionGroupCorpus.java
        NoSar.java
        DbAPI.java
        OneSubstrateOneRoCharacterizer.java
        SarCorpus.java
        SarFactory.java
        ReactionGroup.java
        McsCalculator.java
        OneSubstrateCarbonCountSar.java
        SeqDBReactionGrouper.java
        CharacterizedGroup.java
        analytics
        ReactionCountProvenance.java
        ReactionDeletion.java
        BiointerpretationProcessor.java
        networkanalysis
        ImmutableNetwork.java
        MetabolismNetwork.java
        NetworkNode.java
        InchiMetabolite.java
        GraphViz
        DotColor.java
        DotEdge.java
        PrecursorReportVisualizer.java
        DotNode.java
        DotGraph.java
        NetworkBuilder.java
        PrecursorAnalysis.java
        InchiStructure.java
        NetworkStats.java
        PrecursorReport.java
        LcmsTSVParser.java
        NetworkEdge.java
        metadata
        ProteinMetadataFactory.java
        ProteinMetadataComparator.java
        Localization.java
        ProteinMetadata.java
        Host.java
        Genus.java
        sequencemerging
        SequenceMerger.java
        desalting
        ChemicalDesalter.java
        DesaltingRO.java
        Desalter.java
        ReactionDesalter.java
        ROTestCase.java
        DesaltingROCorpus.java
        Utils
        ReactionComponent.java
        OrgMinimalPrefixGenerator.java
        ReactionProjector.java
        reactionmerging
        ReactionMerger.java
        mechanisminspection
        BlacklistedInchisCorpus.java
        LabelledReaction.java
        ReactionRenderer.java
        LabelledReactionsCorpus.java
        ErosCorpus.java
        BlacklistedInchi.java
        ReactionValidator.java
        MechanisticValidator.java
        Ero.java
        BiointerpretationDriver.java
        ProductExtractor.java
        analysis
        similarity
        SaccharideSearch.java
        ROBinning.java
        SubstructureSearch.java
        UmamiSearch.java
        SimilarityAnalysis.java
        FattyAcidSearch.java
        surfactant
        SurfactantAnalysis.java
        AnalysisDriver.java
        AtomSplit.java
        SurfactantLabeler.java
        jobs
        JavaRunnable.java
        DocumentDuplicatorExample.java
        FileChecker.java
        lcms
        MS2.java
        plotter
        WriteAndPlotMS1Results.java
        Gnuplotter.java
        LCMS2mzMLParser.java
        db
        analysis
        HitOrMissSingleSampleFilterAndTransformer.java
        ConfigurableAnalysis.java
        ScanData.java
        Utils.java
        IonSearchAnalysis.java
        IonDetectionAnalysis.java
        WaveformAnalysis.java
        HitOrMissReplicateFilterAndTransformer.java
        FeedingAnalysis.java
        BestMoleculesPickerFromLCMSIonAnalysis.java
        StandardIonAnalysis.java
        AnalysisHelper.java
        ChemicalToMapOfMetlinIonsToIntensityTimeValues.java
        HitOrMissFilterAndTransformer.java
        PathwayProductAnalysis.java
        io
        LoadConstructAnalysisTableIntoDB.java
        report
        IonAnalysisInterchangeModel.java
        IonAnalysisInterchangeModelOperations.java
        LoadStandardIonAnalysisTableIntoDB.java
        DB.java
        ExportPlateCompositionFromDB.java
        PrintConstructInfo.java
        LoadTSVIntoDB.java
        LoadPlateCompositionIntoDB.java
        writer
        PlateCompositionWriter.java
        ExportStandardIonResultsFromDB.java
        parser
        PlateCompositionParser.java
        ConstructAnalysisFileParser.java
        model
        FeedingLCMSWell.java
        InductionWell.java
        BaseDBModel.java
        StandardWell.java
        DeliveredStrainWell.java
        StandardIonResult.java
        ChemicalOfInterest.java
        Plate.java
        ConstructEntry.java
        CuratedChemical.java
        ChemicalAssociatedWithPathway.java
        ScanFile.java
        MS1ScanForWellAndMassCharge.java
        PlateWell.java
        PregrowthWell.java
        CuratedStandardMetlinIon.java
        DBFieldEnumeration.java
        LCMSWell.java
        MS2Simple.java
        LCMSSpectrum.java
        v2
        ElementIsotope.java
        TraceIndexExtractor.java
        MZCollisionCounter.java
        Isotope.java
        TraceIndexAnalyzer.java
        MoleculeSupport.java
        MassChargeCalculator.java
        LcmsIonCalculator.java
        LcmsCommonElements.java
        LcmsPeakSpectrum.java
        Metabolite.java
        MetaboliteCorpus.java
        MolecularStructure.java
        LcmsMetabolite.java
        IsotopeCalculator.java
        LcmsElementIsotope.java
        LcmsChemicalFormula.java
        FixedWindowDetectedPeak.java
        ChemicalFormula.java
        LcmsIon.java
        LcmsElement.java
        IonCalculator.java
        MassToRawMetaboliteMap.java
        MassToRawMetaboliteMapParser.java
        PeakSpectrum.java
        DetectedPeak.java
        Ion.java
        Element.java
        RawMetabolite.java
        fullindex
        MZWindow.java
        Builder.java
        Searcher.java
        Utils.java
        TMzI.java
        ColumnFamilies.java
        LcmsIsotopeCalculatorFactory.java
        LcmsIsotope.java
        LcmsIsotopeCalculator.java
        LCMS2MZSelection.java
        LCMSmzMLParser.java
        MS1.java
        CompareTwoNetCDFAroundMass.java
        MzMLParser.java
        LCMSNetCDFParser.java
        AnimateNetCDFAroundMass.java
        MassCalculator2.java
        XZ.java
        LCMSParser.java
        MassCalculator.java
        ExtractFromNetCDFAroundMass.java
        twentyn
        patentExtractor
        PatentProcessor.java
        Util.java
        PatentCorpusReader.java
        Runner.java
        PatentDocument.java
        PatentDocumentFeatures.java
        patentTextProcessor
        WordCountProcessor.java
        chemicalClassifier
        Runner.java
        patentSearch
        DocumentIndexer.java
        DocumentSearch.java
        Searcher.java
        patentScorer
        Utils.java
        ScoreMerger.java
        PatentScorer.java
        PatentModel.java
        org
        twentyn
        proteintodna
        SlidingWindowOptimizer.java
        CodonIndexer.java
        RBSChooser3.java
        DNAOrgECNum.java
        ProteinsToDNA2.java
        Translator.java
        RBSOption.java
        HairpinCounter.java
        Mrna.java
        Construct.java
        SequenceUtils.java
        DNADesign.java
        FileUtils.java
        ProteinToDNADriver.java
        README.md
        Host.java
        ProteinInformation.java
        SequenceChecker.java
        act
        installer
        metacyc
        Resource.java
        SeenButNotHandled.java
        NXT.java
        BPElement.java
        BioPaxFile.java
        annotations
        BioSource.java
        Term.java
        Stoichiometry.java
        DeltaG.java
        JsonHelper.java
        OrganismComposition.java
        entities
        SmallMolecule.java
        SmallMoleculeRef.java
        ProteinRNARef.java
        ChemicalStructure.java
        Complex.java
        Protein.java
        RNA.java
        processes
        Conversion.java
        Catalysis.java
        Modulation.java
        Pathway.java
        BiochemicalPathwayStep.java
        OrganismCompositionMongoWriter.java
        references
        Publication.java
        Provenance.java
        Evidence.java
        Unification.java
        Relationship.java
        MetaCyc.java
        PubmedParser.java
        ChemSpider.java
        pubchem
        PubchemTTLMerger.java
        PubchemMeshSynonyms.java
        PubchemSynonymType.java
        PubchemSynonymFinder.java
        MeshTermType.java
        PubchemParser.java
        PubchemSynonyms.java
        PubchemEntry.java
        ChemicalParser.java
        wikipedia
        ImportantChemicalsWikipedia.java
        UniprotInstaller.java
        kegg
        KeggParser.java
        ImportantChemicals.java
        Main.java
        genbank
        Genbank.java
        GenbankEntry.java
        ChEBIParser.java
        sequence
        MetacycEntry.java
        SwissProtEntry.java
        UniprotSeqEntryFactory.java
        GenbankSeqEntry.java
        SequenceEntry.java
        UniprotSeqEntry.java
        GenbankSeqEntryFactory.java
        BrendaEntry.java
        GenBankEntry.java
        SwissProt.java
        GenbankInstaller.java
        reachablesexplorer
        PhysiochemicalProperties.java
        WordCloudGenerator.java
        Precursor.java
        FreemarkerRenderer.java
        WikiWebServicesExporter.java
        SynonymData.java
        PhysiochemicalPropertiesCalculator.java
        SequenceData.java
        PrecursorData.java
        ReachablesProjectionUpdate.java
        PatentSummary.java
        ReachablesProjectionResult.java
        InchiDescriptor.java
        Reachable.java
        Loader.java
        MoleculeRenderer.java
        PatentFinder.java
        PubmedDBCreator.java
        HMDBParser.java
        brenda
        BrendaSQL.java
        BrendaSupportingEntries.java
        BrendaChebiOntology.java
        BrendaRxnEntry.java
        FromBrendaDB.java
        SQLConnection.java
        CustomParseException.java
        SeqIdentMapper.java
        patents
        FTO.java
        FTO_GoogleNonAPISearch.java
        WebData.java
        bing
        NamesOfMolecule.java
        UsageTermsCorpus.java
        MoleculeCorpus.java
        BingSearcher.java
        SearchResult.java
        UsageTermUrlSet.java
        NameSearchResults.java
        BingSearchRanker.java
        BingSearchResults.java
        server
        DBIterator.java
        PubmedEntry.java
        BingCacheMongoDB.java
        NoSQLAPI.java
        Logger.java
        MongoDB.java
        shared
        GenePubmedCaseStudy.java
        Reaction.java
        Parameters.java
        AAMFailException.java
        Configuration.java
        Cofactor.java
        Chemical.java
        helpers
        InchiMapKey.java
        BitArray.java
        NotSoLargeMap.java
        LargeMapKey.java
        MongoDBToJSON.java
        T.java
        XMLToImportantChemicals.java
        P.java
        ReactionType.java
        Seq.java
        FieldVerifier.java
        CannotProcessChemicalStructureException.java
        RONode.java
        Organism.java
        SMARTSCanonicalizationException.java
        OperatorInferFailException.java
        Path.java
        NoSMILES4InChiException.java
        SimplifiedReaction.java
        sar
        SAR.java
        SARConstraint.java
        MalFormedReactionException.java
        FattyAcidEnablers.java
        ConsistentInChI.java
      - r
        RWordCloudGenerator.R
        costModelUI
        server.R
        ui.R
        README.md
        LCMSDataVisualisation
        lcms_config_traces.R
        lcms_single_trace.R
        lcms_multi_traces.R
        lcms_plot.R
        lcms_interface.R
        lcms_data.R
        app.R
        molecule_renderer.R
        README.md
        mz_scope.R
        lcms_lib.R
        LICENSE.txt
        plot_parameters.R
        TextToRxnsUI
        text_to_rxns.R
        app.R
        README.md
    - test
      - resources
        com
        act
        utils
        parser
        genbank_test.gb.gz
        genbank_test_dna.gb
        genbank_test_protein.gb
        biointerpretation
        desalting
        lcms
        mass_calculator_test_cases.txt
        sampleIonAnalysisInterchangeModel.json
        derivativeSampleIonAnalysisInterchangeModel.json
        act
        installer
        uniprot_installer_test_3.xml
        uniprot_installer_test_8.xml
        genbank_installer_test_protein.gb
        pubchem
        CompoundTest.xml.gz
        rdf_synonyms
        pc_synonym2compound_test1.ttl.gz
        pc_synonym_topic_test1.ttl.gz
        pc_synonym_type_test1.ttl.gz
        pc_synonym_value_test1.ttl.gz
        uniprot_installer_test_2.xml
        HMDB01859.xml
        uniprot_installer_test_5.xml
        sequence
        genbank_test_dna.gb
        genbank_test_protein.gb
        genbank_test_protein_2.gb
        uniprot_test_1.xml
        uniprot_installer_test_6.xml
        genbank_installer_test_dna.gb
        uniprot_installer_test_7.xml
        uniprot_installer_test_4.xml
        uniprot_installer_test_9.xml
        uniprot_installer_test_1.xml
      - scala
        com
        act
        workflow
        tool_manager
        workflow
        workflow_mixins
        mongo
        chemicals_db
        QueryChemicalsTest.scala
        cross_db
        ReactionsToSubstratesAndProductsTest.scala
        tool_wrappers
        ShellWrapperTest.scala
        jobs
        JobsTest.scala
        management
        JobManagerTest.scala
        biointerpretation
        rsmiles
        single_sar_construction
        SingleSarChemicalsTest.scala
        AbstractReactionSarSearcherTest.scala
        analysis
        proteome
        files
        HmmResultParserTest.scala
        chemicals
        ChemicalSimilarityTest.scala
        molecules
        MoleculeFormatTest.scala
        lcms
        v2
        LcmsIonCalculatorTest.scala
        LcmsElementTest.scala
        UntargetedMetabolomicsTest.scala
        act
        shared
        MassToFormulaTest.scala
        TextToRxnsTest.scala
      - java
        com
        act
        utils
        MockRocksDBAndHandles.java
        parser
        GenbankInterpreterTest.java
        biointerpretation
        BiointerpretationProcessorTest.java
        cofactorremoval
        CofactorRemoverTest.java
        l2expansion
        ChemicalsTransformerTest.java
        ReactionsTransformerTest.java
        SingleSubstrateRoExpanderTest.java
        sars
        ExpandedReactionSearcherTest.java
        SeqDBReactionGrouperTest.java
        OneSubstrateSubstructureSarTest.java
        FullReactionBuilderTest.java
        McsCalculatorTest.java
        networkanalysis
        PrecursorReportTest.java
        MetabolismNetworkTest.java
        test
        util
        MockedNoSQLAPI.java
        TestUtils.java
        MockedMongoDB.java
        sequencemerging
        SequenceMergerTest.java
        reachables
        WavefrontExpansionTest.java
        desalting
        DesalterTest.java
        ReactionDesalterTest.java
        Utils
        OrgMinimalPrefixGeneratorTest.java
        analysis
        RoBinningTest.java
        reactionmerging
        ReactionMergerTest.java
        mechanisminspection
        MechanisticValidatorTest.java
        ErosCorpusTest.java
        LabelledReactionTest.java
        ReactionProjectorTest.java
        lcms
        v2
        MassToRawMetaboliteMapParserTest.java
        MassChargeCalculatorTest.java
        LcmsChemicalFormulaTest.java
        fullindex
        SearcherTest.java
        BuilderTest.java
        MassCalculator2Test.java
        IonAnalysisInterchangeModelTest.java
        act
        installer
        UniprotInstallerTest.java
        pubchem
        PubchemParserTest.java
        PubchemTTLMergerTest.java
        wikipedia
        ImportantChemicalsWikipediaTest.java
        HMDBParserTest.java
        sequence
        GenbankSeqEntryTest.java
        UniprotSeqEntryTest.java
        brenda
        BrendaChebiOntologyTest.java
        GenbankInstallerTest.java
  - project
    - Build.scala
    - plugins.sbt
  - .sbtopts
  - README.md
  - build.sbt
- wikiServices
  - src
    - main
      - resources
        jetty-logging.properties
        log4j.properties
        log4j2.xml
        com
        twentyn
        reachables
        order
        templates
        OrderSubmitted.ftl
        OrderForm.ftl
        OrderInvalid.ftl
      - java
        com
        twentyn
        search
        substructure
        Service.java
        ServiceConfig.java
        SubstructureSearch.java
        reachables
        order
        Service.java
        ServiceConfig.java
        TargetMolecule.java
    - test
      - java
        com
        twentyn
        search
        substructure
        SearchTest.java
  - populate_wiki
  - project
    - plugins.sbt
  - service
    - orders_service.initd
    - orders_config.json
    - substructure_config.json
    - site-wiki-ssl
    - README.md
    - substructure_search.initd
    - assets
      - img
      - favicon.ico
      - fonts
        glyphicons-halflings-regular.woff
        glyphicons-halflings-regular.eot
        glyphicons-halflings-regular.woff2
        glyphicons-halflings-regular.ttf
        glyphicons-halflings-regular.svg
      - js
        bootstrap.min.js
        bootstrap.js
      - css
        bootstrap.min.css
        bootstrap.css
        bootstrap-theme.min.css
        bootstrap-theme.css
  - create_wiki_data
  - README.md
  - frontend
    - src
      - App.js
      - App.test.js
      - App.css
      - index.css
      - index.js
    - public
      - favicon.ico
      - index.html
      - static
        js
        bootstrap.min.js
        bootstrap.js
        npm.js
        css
        bootstrap-theme.css.map
        bootstrap.min.css
        bootstrap.css
        bootstrap-theme.min.css
        bootstrap-theme.css
        bootstrap-theme.min.css.map
        assets
        img
    - README.md
    - package.json
    - .gitignore
  - build.sbt
  - wiki_front_matter
    - pages
      - All_Chemicals
      - Main_Page
      - Introduction
    - images
- README.md
- scripts
  - azure
    - spawn_vm
    - proxy.pac
    - reachables_wiki_with_content
      - parameters.json
      - template.json
      - generate_uuid
    - spark_worker_west2
      - parameters.json
      - template.json
    - dev_west2
      - parameters.json
      - template.json
    - ds12_v2_worker
      - parameters.json
      - template.json
    - install_java
    - add_user
    - README.md
    - ds11_v2_worker
      - parameters.json
      - template.json
    - spark_master_west2
      - parameters.json
      - template.json
    - reachables_wiki
      - parameters.json
      - template.json
      - generate_uuid
    - spark_driver_west2
      - parameters.json
      - template.json
    - install_spark
- .gitignore

/*************************************************************************
*                                                                        *
*  This file is part of the 20n/act project.                             *
*  20n/act enables DNA prediction for synthetic biology/bioengineering.  *
*  Copyright (C) 2017 20n Labs, Inc.                                     *
*                                                                        *
*  Please direct all queries to [email protected].                             *
*                                                                        *
*  This program is free software: you can redistribute it and/or modify  *
*  it under the terms of the GNU General Public License as published by  *
*  the Free Software Foundation, either version 3 of the License, or     *
*  (at your option) any later version.                                   *
*                                                                        *
*  This program is distributed in the hope that it will be useful,       *
*  but WITHOUT ANY WARRANTY; without even the implied warranty of        *
*  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the         *
*  GNU General Public License for more details.                          *
*                                                                        *
*  You should have received a copy of the GNU General Public License     *
*  along with this program.  If not, see <http://www.gnu.org/licenses/>. *
*                                                                        *
*************************************************************************/

package com.twentyn.patentExtractor;

import com.fasterxml.jackson.annotation.JsonProperty;
import org.apache.commons.io.input.ReaderInputStream;
import org.apache.commons.lang3.StringUtils;
import org.apache.logging.log4j.LogManager;
import org.apache.logging.log4j.Logger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.TextNode;
import org.jsoup.select.NodeTraversor;
import org.jsoup.select.NodeVisitor;
import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.transform.TransformerConfigurationException;
import javax.xml.transform.TransformerException;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathExpression;
import javax.xml.xpath.XPathExpressionException;
import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedList;
import java.util.List;
import java.util.regex.Pattern;
import java.util.zip.GZIPInputStream;

/**
 * This class represents parts of a USPTO patent document that are relevant to 20's use cases.  It can extract
 * information from the USPTO's XML documents and convert it to a POJO that can then be serialized as JSON.  Use this
 * as the basis for any processing of patent text.
 */
public class PatentDocument {

  public static final Logger LOGGER = LogManager.getLogger(PatentDocument.class);

  // See http://www.uspto.gov/learning-and-resources/xml-resources.
  public static final String DTD2014 = "v4.5 2014-04-03";
  public static final String DTD2013 = "v4.4 2013-05-16";
  public static final String DTD2012 = "v4.3 2012-12-04";
  public static final String DTD2006 = "v4.2 2006-08-23";
  public static final String DTD2005 = "v4.1 2005-08-25";
  public static final String DTD2004 = "v40 2004-12-02";

  public static final String DTD2014_APP = "v4.4 2014-04-03";
  public static final String DTD2012_APP = "v4.3 2012-12-04";
  public static final String DTD2006_APP = "v4.2 2006-08-23";
  public static final String DTD2005_APP = "v4.1 2005-08-25";
  public static final String DTD2004_APP = "v4.0 2004-12-02";

  public static final String PATH_DTD_VERSION = "/us-patent-grant/@dtd-version";
  public static final String PATH_DTD_VERSION_APP = "/us-patent-application/@dtd-version";
  public static final String[] PATHS_TEXT = {
      "//description",
      "//invention-title",
      "//abstract",
  };
  public static final String PATH_CLAIMS = "//claims";

  public static final String
      PATH_KEY_FILE_ID = "fileId",
      PATH_KEY_TITLE = "title",
      PATH_KEY_DATE = "date",
      PATH_KEY_MAIN_CLASSIFICATION = "classification",
      PATH_KEY_FURTHER_CLASSIFICATIONS = "further_classifications",
      PATH_KEY_SEARCHED_CLASSIFICATIONS = "referenced_classifications";

  // TODO: is there a type-safe way of building an object from XPath with a map of functions?
  public static final HashMap<String, String> PATHS_2013 = new HashMap<String, String>() {{
    put(PATH_KEY_FILE_ID, "/us-patent-grant/@file");
    put(PATH_KEY_TITLE, "/us-patent-grant/us-bibliographic-data-grant/invention-title");
    put(PATH_KEY_DATE, "/us-patent-grant/@date-publ");
    put(PATH_KEY_MAIN_CLASSIFICATION,
        "/us-patent-grant/us-bibliographic-data-grant/classification-national/main-classification/text()");
    put(PATH_KEY_FURTHER_CLASSIFICATIONS,
        "/us-patent-grant/us-bibliographic-data-grant/classification-national/further-classification");
    put(PATH_KEY_SEARCHED_CLASSIFICATIONS,
        "/us-patent-grant/us-bibliographic-data-grant/us-field-of-classification-search/classification-national[./country/text()='US']/main-classification");
  }};

  public static final HashMap<String, String> PATHS_2004 = new HashMap<String, String>() {{
    put(PATH_KEY_FILE_ID, "/us-patent-grant/@file");
    put(PATH_KEY_TITLE, "/us-patent-grant/us-bibliographic-data-grant/invention-title");
    put(PATH_KEY_DATE, "/us-patent-grant/@date-publ");
    put(PATH_KEY_MAIN_CLASSIFICATION,
        "/us-patent-grant/us-bibliographic-data-grant/classification-national/main-classification/text()");
    put(PATH_KEY_FURTHER_CLASSIFICATIONS,
        "/us-patent-grant/us-bibliographic-data-grant/classification-national/further-classification");
    put(PATH_KEY_SEARCHED_CLASSIFICATIONS,
        "/us-patent-grant/us-bibliographic-data-grant/field-of-search/classification-national[./country/text()='US']/main-classification");
  }};

  public static final HashMap<String, String> PATHS_2014_APP = new HashMap<String, String>() {{
    put(PATH_KEY_FILE_ID, "/us-patent-application/@file");
    put(PATH_KEY_TITLE, "/us-patent-application/us-bibliographic-data-application/invention-title");
    put(PATH_KEY_DATE, "/us-patent-application/@date-publ");
    put(PATH_KEY_MAIN_CLASSIFICATION,
        "/us-patent-application/us-bibliographic-data-application/classification-national/main-classification/text()");
    put(PATH_KEY_FURTHER_CLASSIFICATIONS,
        "/us-patent-application/us-bibliographic-data-application/classification-national/further-classification");
    put(PATH_KEY_SEARCHED_CLASSIFICATIONS, // Note: doesn't exist, but left for ease of use.
        "/us-patent-application/us-bibliographic-data-application/us-field-of-classification-search/classification-national[./country/text()='US']/main-classification");
  }};

  public static final HashMap<String, HashMap<String, String>> VERSION_MAP =
      new HashMap<String, HashMap<String, String>>() {{
        put(DTD2014, PATHS_2013); // All the 2013 paths work with the 2014 DTD.
        put(DTD2013, PATHS_2013);
        put(DTD2012, PATHS_2013); // All the 2013 paths work with the 2012 DTD.
        put(DTD2006, PATHS_2013); // All the 2013 paths work with the 2006 DTD.
        put(DTD2005, PATHS_2013); // All the 2013 paths work with the 2005 DTD.
        put(DTD2004, PATHS_2004);
        put(DTD2014_APP, PATHS_2014_APP);
        put(DTD2012_APP, PATHS_2014_APP); // All the 2014 app paths work with the 2012 app DTD.
        put(DTD2006_APP, PATHS_2014_APP); // All the 2014 app paths work with the 2006 app DTD.
        put(DTD2005_APP, PATHS_2014_APP); // All the 2014 app paths work with the 2005 app DTD, though the classifications might be different.
        put(DTD2004_APP, PATHS_2014_APP); // All the 2014 app paths work with the 2005 app DTD assuming searched classifications are always empty.
      }};

  private static final Pattern GZIP_PATTERN = Pattern.compile("\\.gz$");

  public static class HtmlVisitor implements NodeVisitor {
    // Based on https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/HtmlToPlainText.java
    private static final HashSet<String> SEGMENTING_NODES = new HashSet<String>() {{
      addAll(Arrays.asList(
          "p", "h1", "h2", "h3", "h4", "h5", "h6", "dt", "dd", "tr", "li", "body", "div", // HTML entities
          "row", "claim" // patent-specific entities
      ));
    }};
    private static final Pattern SPACE_PATTERN = Pattern.compile("^\\s+$");

    private StringBuilder segmentBuilder = new StringBuilder();
    private List<String> textSegments = new LinkedList<>();

    @Override
    public void head(org.jsoup.nodes.Node node, int i) {
      // This borrows a page from HtmlToPlainText's book.
      if (node instanceof TextNode) {
        String text = ((TextNode) node).text();
        if (text != null && text.length() > 0) {
          segmentBuilder.append(((TextNode) node).text());
        }
      }
    }

    @Override
    public void tail(org.jsoup.nodes.Node node, int i) {
      String nodeName = node.nodeName();
      if (nodeName.equals("a")) {
        // Same as Jsoup's HtmlToPlainText.
        segmentBuilder.append(String.format(" <%s>", node.absUrl("href")));
      } else if (SEGMENTING_NODES.contains(nodeName) && segmentBuilder.length() > 0) {
        String segmentText = segmentBuilder.toString();
        // Ignore blank lines, as we'll be tagging each line separately.
        if (!SPACE_PATTERN.matcher(segmentText).matches()) {
          this.textSegments.add(segmentText);
        }
        // TODO: is it better to drop the old one than clear the existing?
        segmentBuilder.setLength(0);
      }
    }

    public List<String> getTextContent() {
      return this.textSegments;
    }
  }

  private static List<String> extractTextFromHTML(DocumentBuilder docBuilder, NodeList textNodes)
      throws ParserConfigurationException, TransformerConfigurationException,
      TransformerException, XPathExpressionException {
    List<String> allTextList = new ArrayList<>(0);
    if (textNodes != null) {
      for (int i = 0; i < textNodes.getLength(); i++) {
        Node n = textNodes.item(i);
                    /* This extremely around-the-horn approach to handling text content is due to the mix of HTML and
                     * XML in the patent body.  We use Jsoup to parse the HTML entities we find in the body, and use
                     * its extremely convenient NodeVisitor API to recursively traverse the document and extract the
                     * text content in reasonable chunks.
                     */
        Document contentsDoc = Util.nodeToDocument(docBuilder, "body", n);
        String docText = Util.documentToString(contentsDoc);
        // With help from http://stackoverflow.com/questions/832620/stripping-html-tags-in-java
        org.jsoup.nodes.Document htmlDoc = Jsoup.parse(docText);
        HtmlVisitor visitor = new HtmlVisitor();
        NodeTraversor traversor = new NodeTraversor(visitor);
        traversor.traverse(htmlDoc);
        List<String> textSegments = visitor.getTextContent();
        allTextList.addAll(textSegments);
      }
    }
    return allTextList;
  }

  /**
   * Extracts the text content from text fields in a patent XML document.
   *
   * @param docBuilder A document builder to use when constructing intermediate XML/HTML documents in the extraction
   *                   process.
   * @param paths      A list of XPath paths from which to exactract text.
   * @param xpath      An XPath instance to use when running XPath queries.
   * @param doc        The XML document from which to extract text.
   * @return A list of strings representing the textual content of the document.  These could be sentences,
   * paragraphs, or larger text units, but should represent some sort of structure in the document's text.
   * @throws ParserConfigurationException
   * @throws TransformerConfigurationException
   * @throws TransformerException
   * @throws XPathExpressionException
   */
  private static List<String> getRelevantDocumentText(DocumentBuilder docBuilder, String[] paths,
                                                      XPath xpath, Document doc)
      throws ParserConfigurationException, TransformerConfigurationException,
      TransformerException, XPathExpressionException {
    List<String> allTextList = new ArrayList<>(0);
    for (String path : paths) {
      XPathExpression exp = xpath.compile(path);
      NodeList textNodes = (NodeList) exp.evaluate(doc, XPathConstants.NODESET);
      allTextList.addAll(extractTextFromHTML(docBuilder, textNodes));
    }

    return allTextList;
  }

  /**
   * Converts an XML file into a patent document object, extracting relevant fields from the patent XML.
   *
   * @param inputPath A path to the file to be read.
   * @return A patent object if the XML can be read, or null otherwise.
   * @throws IOException                  Thrown on file I/O errors.
   * @throws ParserConfigurationException Thrown when the XML parser cannot be configured correctly.
   * @throws SAXException                 Thrown on XML parser errors.
   * @throws XPathExpressionException     Thrown when XPath fails to handle queries against the specified document.
   */
  // TODO: logging?
  // TODO: are @nullable and @non-null annotations still a thing?
  // TODO: prolly belongs in a factory.
  public static PatentDocument patentDocumentFromXMLFile(File inputPath)
      throws IOException, ParserConfigurationException,
      SAXException, TransformerConfigurationException,
      TransformerException, XPathExpressionException {
    InputStream iStream = null;

    iStream = new BufferedInputStream(new FileInputStream(inputPath));
    if (GZIP_PATTERN.matcher(inputPath.getName()).find()) {
      iStream = new GZIPInputStream(iStream);
    }
    return patentDocumentFromXMLStream(iStream);
  }

  /**
   * Converts a string of XML into a patent document object, extracting relevant fields from the patent XML.
   *
   * @param text The XML string to parse and extract.
   * @return A patent object if the XML can be read, or null otherwise.
   * @throws IOException
   * @throws ParserConfigurationException
   * @throws SAXException
   * @throws TransformerConfigurationException
   * @throws TransformerException
   * @throws XPathExpressionException
   */
  public static PatentDocument patentDocumentFromXMLString(String text)
      throws IOException, ParserConfigurationException,
      SAXException, TransformerConfigurationException,
      TransformerException, XPathExpressionException {
    StringReader stringReader = new StringReader(text);
    return patentDocumentFromXMLStream(new ReaderInputStream(stringReader));
  }

  public static PatentDocument patentDocumentFromXMLStream(InputStream iStream)
      throws IOException, ParserConfigurationException,
      SAXException, TransformerConfigurationException,
      TransformerException, XPathExpressionException {

    // Create XPath objects for validating that this document is actually a patent.
    XPath xpath = Util.getXPathFactory().newXPath();
    XPathExpression versionXPath = xpath.compile(PATH_DTD_VERSION);
    XPathExpression versionXPathApp = xpath.compile(PATH_DTD_VERSION_APP);

    DocumentBuilderFactory docFactory = Util.mkDocBuilderFactory();
    DocumentBuilder docBuilder = docFactory.newDocumentBuilder();
    Document doc = docBuilder.parse(iStream);

    Util.DocumentType docType = Util.identifyDocType(doc);
    if (docType != Util.DocumentType.PATENT && docType != Util.DocumentType.APPLICATION) {
      LOGGER.warn("Found unexpected document type: " + docType);
      return null;
    }

    boolean isApplication = docType == Util.DocumentType.APPLICATION;
    // Yes this is in fact the way suggested by the XPath API.
    String version;
    if (!isApplication) {
      version = (String) versionXPath.evaluate(doc, XPathConstants.STRING);
    } else {
      version = (String) versionXPathApp.evaluate(doc, XPathConstants.STRING);
    }

    if (version == null || !VERSION_MAP.containsKey(version)) {
      LOGGER.warn(String.format("Unrecognized patent DTD version: %s", version));
      return null;
    }

    HashMap<String, String> paths = VERSION_MAP.get(version);

    /* Create XPath objects for extracting the fields of interest based on the version information.
     * TODO: extract these into some sharable, thread-safe place, maybe via dependency injection.
     */
    XPathExpression idXPath = xpath.compile(paths.get(PATH_KEY_FILE_ID));
    XPathExpression dateXPath = xpath.compile(paths.get(PATH_KEY_DATE));
    XPathExpression titleXPath = xpath.compile(paths.get(PATH_KEY_TITLE));
    XPathExpression classificationXPath = xpath.compile(paths.get(PATH_KEY_MAIN_CLASSIFICATION));
    XPathExpression furtherClassificationsXPath = xpath.compile(paths.get(PATH_KEY_FURTHER_CLASSIFICATIONS));
    XPathExpression searchedClassificationsXPath = xpath.compile(paths.get(PATH_KEY_SEARCHED_CLASSIFICATIONS));

    String fileId = (String) idXPath.evaluate(doc, XPathConstants.STRING);
    String date = (String) dateXPath.evaluate(doc, XPathConstants.STRING);
    NodeList titleNodes = (NodeList) titleXPath.evaluate(doc, XPathConstants.NODESET);
    String title = StringUtils.join(" ", extractTextFromHTML(docBuilder, titleNodes));
    String classification = (String) classificationXPath.evaluate(doc, XPathConstants.STRING);
    NodeList furtherClassificationNodes =
        (NodeList) furtherClassificationsXPath.evaluate(doc, XPathConstants.NODESET);
    ArrayList<String> furtherClassifications = null;
    if (furtherClassificationNodes != null) {
      furtherClassifications = new ArrayList<>(furtherClassificationNodes.getLength());
      for (int i = 0; i < furtherClassificationNodes.getLength(); i++) {
        Node n = furtherClassificationNodes.item(i);
        String txt = n.getTextContent();
        if (txt != null) {
          furtherClassifications.add(i, txt);
        }
      }
    } else {
      furtherClassifications = new ArrayList<>(0);
    }

    NodeList otherClassificationNodes =
        (NodeList) searchedClassificationsXPath.evaluate(doc, XPathConstants.NODESET);
    ArrayList<String> otherClassifications = null;
    if (otherClassificationNodes != null) {
      otherClassifications = new ArrayList<>(otherClassificationNodes.getLength());
      for (int i = 0; i < otherClassificationNodes.getLength(); i++) {
        Node n = otherClassificationNodes.item(i);
        String txt = n.getTextContent();
        if (txt != null) {
          otherClassifications.add(i, txt);
        }
      }
    } else {
      otherClassifications = new ArrayList<>(0);
    }

    // Extract text content for salient document paths.
    List<String> allTextList = getRelevantDocumentText(docBuilder, PATHS_TEXT, xpath, doc);
    List<String> claimsTextList = getRelevantDocumentText(docBuilder, new String[]{PATH_CLAIMS}, xpath, doc);

    return new PatentDocument(fileId, date, title, classification,
        furtherClassifications, otherClassifications, allTextList, claimsTextList, isApplication);
  }

  @JsonProperty("file_id")
  protected String fileId;
  @JsonProperty("grant_date")
  protected String grantDate;
  @JsonProperty("title")
  protected String title;
  @JsonProperty("primary_classification")
  protected String mainClassification;
  @JsonProperty("further_classification")
  protected List<String> furtherClassifications;
  @JsonProperty("searched_classifications")
  protected List<String> searchedClassifications;
  @JsonProperty("text_content")
  protected List<String> textContent;
  @JsonProperty("claims")
  protected List<String> claimsText;
  @JsonProperty("isApplication")
  protected Boolean isApplication;

  // TODO: this could probably use a builder if it gets more complicated.

  protected PatentDocument(String fileId, String grantDate, String title, String mainClassification,
                           List<String> furtherClassifications, List<String> searchedClassifications,
                           List<String> textContent, List<String> claimsText, Boolean isApplication) {
    this.fileId = fileId;
    this.grantDate = grantDate;
    this.title = title;
    this.mainClassification = mainClassification;
    this.furtherClassifications = furtherClassifications;
    this.searchedClassifications = searchedClassifications;
    this.textContent = textContent;
    this.claimsText = claimsText;
    this.isApplication = isApplication;
  }

  public String getFileId() {
    return fileId;
  }

  public String getGrantDate() {
    return grantDate;
  }

  public String getTitle() {
    return title;
  }

  public String getMainClassification() {
    return mainClassification;
  }

  public List<String> getFurtherClassifications() {
    return furtherClassifications;
  }

  public List<String> getSearchedClassifications() {
    return searchedClassifications;
  }

  public List<String> getTextContent() {
    return textContent;
  }

  public List<String> getClaimsText() {
    return claimsText;
  }

  public Boolean getIsApplication() {
    return isApplication;
  }
}