scala source code of WordSpliter

piflow-master
- classpath
  - piflowexternal.jar
- PiFlow_V0.6_Deployment_Instructions.md
- piflow-bin
  - classpath
    - piflowexternal.jar
  - stop.sh
  - README.txt
  - server.ip
  - example
    - flow.json
    - mockDataGroup.json
    - mockDataFlow.json
    - group.json
  - restart.sh
  - config.properties
  - start.sh
  - bin
    - piflow
  - status.sh
- PiFlow_V0.7_Deployment_Instructions.md
- piflow-server
  - src
    - main
      - resources
        application.conf
        db
        migrations
        V1.09__Init_table.sql
        V1.06__Init_table.sql
        V1.07__Init_table.sql
        V1.08__Init_table.sql
        V1.05__Init_table.sql
        log4j.properties
      - scala
        cn
        piflow
        api
        HTTPClientStartFlowSocketTextStreaming.scala
        HTTPClientStartMockDataFlow.scala
        HTTPClientStopFlowGroup.scala
        HTTPClientGetStopInfo.scala
        HTTPClientGetFlowGroupProcess.scala
        HTTPClientStartFlowFlumeStreaming.scala
        HTTPClientStopSchedule.scala
        API.scala
        HTTPClientStartFlowKafkaStreaming.scala
        HTTPClientStartScalaFlow.scala
        HTTPClientStartFlow.scala
        HTTPClientGetFlowCheckpoints.scala
        HTTPClientGetResourceInfo.scala
        HTTPClientScheduleFlowGroup.scala
        HTTPClientGetGroups.scala
        HTTPClientStartFlowByCheckPoint.scala
        HTTPClientPutPlugin.scala
        StartFlowMain.scala
        HTTPClientRemovePlugin.scala
        Scheduler.scala
        HTTPClientGetFlowGroupInfo.scala
        HTTPClientStartFlowTextFileStreaming.scala
        HTTPClientGetFlowDebugData.scala
        HTTPClientStopFlow.scala
        HTTPClientGetStops.scala
        HTTPClientGetScheduleInfo.scala
        HTTPClientStartFlowIncremental.scala
        HTTPClientGetAllPlugin.scala
        HTTPClientScheduleFlow.scala
        HTTPClientStartFlowGroup.scala
        HTTPService.scala
        HTTPClientGetFlowInfo.scala
  - pom.xml
- pom.xml
- piflow-configure
  - src
    - main
      - scala
        cn
        piflow
        conf
        ConfigurableStreamingStop.scala
        StopGroup.scala
        ConfigurableStop.scala
        Port.scala
        util
        ClassUtil.scala
        OptionUtil.scala
        MapUtil.scala
        ScalaExecutorUtil.scala
        ImageUtil.scala
        PluginManager.scala
        FileUtil.scala
        ConfigurableIncrementalStop.scala
        bean
        PropertyDescriptor.scala
        FlowBean.scala
        GroupEntryBean.scala
        PathBean.scala
        ConditionBean.scala
        StopBean.scala
        GroupBean.scala
      - java
        cn
        piflow
        conf
        util
        PluginClassLoader.java
  - pom.xml
- readMe.txt
- LICENSE
- piflow-bundle
  - src
    - main
      - resources
        microorganism
        ensembl.json
        gene.json
        embl.json
        bioSample.json
        PDB.json
        pfam.json
        swissprot.json
        interpro.json
        goldData.json
        refseq.json
        godata.json
        taxonomy.json
        biopro.json
        genbank.json
        microbe.json
        mongoDB
        getMongoDB.json
        all_8.json
        putMongoDB.json
        neo4j
        Mysql_neo4j.json
        getNeo4j.json
        memcache
        putMemcache.json
        getMemcache.json
        ComplementByMemcache.json
        test
        nlp.json
        http.json
        redis.json
        XmlStringText.json
        lda.json
        bikmeans.json
        group_schedule.json
        gbt.json
        es.json
        decisiontree.json
        CsvStringTest.json
        JsonFolderTest.json
        spider.json
        file.json
        EvaluateJsonPath.json
        flow_checkpoint.json
        word2vec.json
        flow.json
        url.json
        kafka.json
        solrGET.json
        ftpNew.json
        all_8.json
        hdfs.json
        kmeans.json
        ftp.json
        flow_route.json
        mlp.json
        bayes.json
        shellflow.json
        gaussion.json
        shellflow.sh
        hbase.json
        imageProcess.json
        FlattenXmlParser.json
        group.json
        CsvFolderTest.json
        logistic.json
        randomforest.json
        xml.json
        solr.json
        asr.json
        labelpropagation.json
        MultiFolderJsonParser.json
        increment
        mysql.json
        common
        join.json
        subtract.json
        distinct.json
        JDBC
        getOracle.json
        putOracle.json
        flow
        xml
        xmlStringParser.json
        xmlSave.json
        xmlParserFolder.json
        xmlParserColumns.json
        xmlParser.json
        script
        scala.json
        pythonWithDataFrame.json
        python.json
        shell.json
        jdbc
        MysqlWrite.json
        OracleRead.json
        MysqlRead.json
        JdbcReadFromOracle.json
        OracleWrite.json
        OracleReadByPartition.json
        ImpalaRead.json
        MysqlReadIncremental.json
        csv
        CsvStringParser.json
        CsvSaveAsOverWrite.json
        CsvSaveAsAppend.json
        CsvSaveAsError.json
        CsvParser.json
        CsvSaveAsIgnore.json
        hbase
        PutHbase.json
        ReadHbase.json
        redis
        WriteToRedis.json
        ReadFromRedis.json
        clean
        IdentityNumberClean.json
        EmailClean.json
        TitleClean.json
        ProvinceClean.json
        PhoneNumberClean.json
        graphx
        LoadGraph.json
        labelpropagation.json
        neo4j
        PutNeo4j.json
        RunCypher.json
        HiveToNeo4j.json
        streaming
        flume-streaming.conf
        flow_TextFileStreaming.json
        flow_KafkaStreaming.json
        flow_FlumeStreaming.json
        flow_SocketTextStreamingByWindow.json
        flow_SocketTextStreaming.json
        common
        route.json
        filter.json
        join.json
        merge.json
        convertSchema.json
        uuid.json
        mockData.json
        dropField.json
        fork.json
        subtract.json
        executeSql.json
        distinct.json
        selectField.json
        ftp
        UploadToFtp.json
        LoadFromFtpToHDFS.json
        file
        file.json
        regexTextProcess.json
        hdfs
        selectFileByName.json
        putHdfs.json
        saveToHdfs.json
        deleteHdfs.json
        listHdfs.json
        unzipFilesOnHdfs.json
        fileDownHdfs.json
        getHdfs.json
        es
        QueryEs.json
        PutEs.json
        http
        getUrl.json
        postUrl.json
        solr
        PutIntoSolr.json
        GetFromSolr.json
        hive
        PutHiveMode.json
        SelectHiveQL.json
        SelectHiveQLByJDBC.json
        PutHiveQL.json
        PutHiveStreaming.json
        json
        jsonSave.json
        jsonFolder.json
        jsonParser.json
        jsonStringParser.json
      - scala
        cn
        piflow
        bundle
        kafka
        WriteToKafka.scala
        ReadFromKafka.scala
        xml
        XmlStringParser.scala
        XmlParserColumns.scala
        XmlSave.scala
        XmlParser.scala
        XmlParserFolder.scala
        script
        DataFrameRowParser.scala
        ExecuteScala.scala
        ExecuteShell.scala
        ExecutePythonWithDataFrame.scala
        ExecutePython.scala
        microorganism
        BioProjetData.scala
        EmblData.scala
        Pathway.scala
        PDBData.scala
        MedlineData.scala
        RefseqData.scala
        Ensembl.scala
        BioSample.scala
        MicrobeGenomeData.scala
        GenBankData.scala
        util
        ParserGff3Data.scala
        BioProject.scala
        GoData.scala
        SwissprotData.scala
        InterproData.scala
        PfamData.scala
        GoldData.scala
        TaxonomyData.scala
        Gene.scala
        nlp
        WordSpliter.scala
        jdbc
        OracleRead.scala
        OracleWrite.scala
        ImpalaRead.scala
        OracleReadByPartition.scala
        MysqlReadIncremental.scala
        JdbcReadFromOracle.scala
        MysqlWrite.scala
        MysqlRead.scala
        asr
        ChineseSpeechRecognition.scala
        csv
        CsvParser.scala
        CsvStringParser.scala
        CsvSave.scala
        hbase
        PutHbase.scala
        ReadHbase.scala
        redis
        ReadFromRedis.scala
        WriteToRedis.scala
        clean
        ProvinceClean.scala
        PhoneNumberClean.scala
        TitleClean.scala
        IdentityNumberClean.scala
        EmailClean.scala
        graphx
        LabelPropagation.scala
        LoadGraph.scala
        imageProcess
        AnimalClassification.scala
        neo4j
        AllFieldsCleanNeo4j.scala
        RunCypher.scala
        HiveToNeo4j.scala
        PutNeo4j.scala
        elasticsearch
        PutElasticsearch.scala
        QueryElasticsearch.scala
        rdf
        CsvToNeo4J.scala
        RdfToDF.scala
        streaming
        TextFileStream.scala
        SocketTextStream.scala
        SocketTextStreamByWindow.scala
        KafkaStream.scala
        FlumeStream.scala
        common
        Route.scala
        DropField.scala
        Fork.scala
        MockData.scala
        Subtract.scala
        ConvertSchema.scala
        Merge.scala
        Trager.scala
        SelectField.scala
        Join.scala
        Filter.scala
        AddUUIDStop.scala
        Distinct.scala
        ExecuteSQLStop.scala
        util
        HiveJdbcUtil.scala
        StringUtil.scala
        Entity.scala
        XLSUtil.scala
        UnGzUtil.scala
        XmlToJson.scala
        objects
        Result.scala
        Hierarchy.scala
        Keyword.scala
        KeywordStatus.scala
        JsonUtil.scala
        CleanUtil.scala
        RedisUtil.scala
        FTPUtil.scala
        NSFCUtil.scala
        ftp
        LoadFromFtpToHDFS.scala
        UploadToFtp.scala
        file
        GetFile.scala
        RegexTextProcess.scala
        PutFile.scala
        hdfs
        SelectFilesByName.scala
        GetHdfs.scala
        SaveToHdfs.scala
        DeleteHdfs.scala
        ListHdfs.scala
        PutHdfs.scala
        FileDownHdfs.scala
        UnzipFilesOnHDFS.scala
        memcached
        GetMemcache.scala
        ComplementByMemcache.scala
        PutMemcache.scala
        python
        Test.scala
        ml_feature
        WordToVec.scala
        ml_clustering
        KmeansTraining.scala
        BisectingKMeansTraining.scala
        BisectingKMeansPrediction.scala
        GaussianMixtureTraining.scala
        KmeansPrediction.scala
        GaussianMixturePrediction.scala
        LDAPrediction.scala
        LDATraining.scala
        internetWorm
        spider.scala
        http
        PostUrl.scala
        GetUrl.scala
        solr
        PutIntoSolr.scala
        GetFromSolr.scala
        hive
        SelectHiveQLByJDBC.scala
        PutHiveMode.scala
        PutHiveQL.scala
        PutHiveStreaming.scala
        SelectHiveQL.scala
        nsfc
        xml
        ProcessXMLInAvro.scala
        XmlParserGenerateNewField.scala
        keyword
        compare
        KeywordCompareWithBias.scala
        KeywordCompare.scala
        YearlyReportMake.scala
        KeywordProcessWithBias.scala
        KeywordProcess.scala
        clean
        CardCodeClean.scala
        externalAcquisition
        CSCDSearchArticleAndExtractXML.scala
        ScopusSearchArticle.scala
        util
        parseJsonPubExtend.scala
        springer
        SpringExistedPDFProcess.scala
        distinct
        description
        RedisDistinctCachePersist.scala
        foreignKeyWash.scala
        HivePSNDistinct.scala
        HivePRDDistinct.scala
        HiveTableJoinOn.scala
        PersonIdExpansion.scala
        json
        FolderJsonParser.scala
        JsonStringParser.scala
        JsonParser.scala
        JsonSave.scala
        ml_classification
        MultilayerPerceptronPrediction.scala
        MultilayerPerceptronTraining.scala
        DecisionTreeTraining.scala
        RandomForestPrediction.scala
        GBTPrediction.scala
        RandomForestTraining.scala
        LogisticRegressionPrediction.scala
        LogisticRegressionTraining.scala
        NaiveBayesPrediction.scala
        DecisionTreePrediction.scala
        NaiveBayesTraining.scala
        GBTTraining.scala
        mongodb
        GetMongoDB.scala
        GetMongo.scala
        PutMongoDB.scala
        PutMongo.scala
      - java
        cn
        piflow
        bundle
        microorganism
        util
        CustomUniProtFormat.java
        Process.java
        CustomEMBLFormat.java
        ProcessNew.java
        ReadSection.java
        CustomGenbankFormat.java
        PDB.java
        CustomEnsemblFormat.java
        KeggPathway.java
        Pfam.java
        CustomIOTools.java
        util
        RemoteShellExecutor.java
        RemoteConnectionException.java
        XMLBuilder.java
        JedisClusterImplSer.java
        ExcelToJson.java
        com
        cscd
        webservice
        ReleaseCode.java
        SearchArticles.java
        ObjectFactory.java
        GetArticles.java
        Exception.java
        GetArticlesResponse.java
        CscdServicePortType_CscdServiceHttpSoap12Endpoint_Client.java
        CscdServiceException_Exception.java
        GetCitedInfo.java
        GetCode.java
        CscdService.java
        package-info.java
        SearchByExprRangeResponse.java
        SearchByExprRange.java
        SearchByExprResponse.java
        CscdServicePortType_CscdServiceHttpSoap11Endpoint_Client.java
        GetCitedInfoResponse.java
        CscdServiceException.java
        SearchByExpr.java
        CscdServicePortType.java
        GetCodeResponse.java
        CscdServicePortType_CscdServiceHttpEndpoint_Client.java
        SearchArticlesResponse.java
    - test
      - scala
        cn
        piflow
        bundle
        xml
        XmlParserColumnsTest.scala
        XmlSaveTest.scala
        XmlParserTest.scala
        XmlStringTest.scala
        XmlParserFolderTest.scala
        script
        ExecuteShellTest.scala
        PythonTest.scala
        ExecuteScalaTest.scala
        PythonWithDataFrameTest.scala
        microorganism
        BioSampleTest.scala
        csv
        CsvParserTest.scala
        CsvStringParserTest.scala
        CsvSaveTest.scala
        hbase
        ReadHbaseTest.scala
        PutHbaseTest.scala
        redis
        WriteToRedisTest.scala
        ReadFromRedisTest.scala
        clean
        PhoneNumberCleanTest.scala
        ProvinceCleanTest.scala
        EmailCleanTest.scala
        IdentityNumberCleanTest.scala
        TitleCleanTest.scala
        packone
        test.scala
        graphx
        LabelPropagationTest.scala
        LoadGraph.scala
        neo4j
        PutNeo4jTest.scala
        RunCypherTest.scala
        HiveToNeo4jTest.scala
        elasticsearch
        PutEsTest.scala
        QueryEsTest.scala
        test
        CscFolderTest.scala
        TaxonomyTest.scala
        StreamingTest.scala
        ShellFlowTest.scala
        HttpTest.scala
        ImageTest.scala
        CSVTest.scala
        GoldDataTest.scala
        HbaseTest.scala
        HiveTest.scala
        MultiFolderJsonParserTest.scala
        JsonFolderTest.scala
        FtpNewTest.scala
        XmlTest.scala
        CsvStringTest.scala
        ClassFindTest.scala
        GenBankTest.scala
        IncrementTest.scala
        XmlStringText.scala
        UrlTest.scala
        BioGroupDataTest.scala
        FlowTest_XX.scala
        SolrTest.scala
        FlowTest.scala
        FlattenXmlParserTest.scala
        HdfsTest.scala
        BioSampleTest.scala
        JDBCTest.scala
        StopGroupTest.scala
        EvaluateJsonPathTet.scala
        spiderTest.scala
        common
        DistinctTest.scala
        JoinTest.scala
        SubtractTest.scala
        FilterTest.scala
        ConvertSchemaTest.scala
        AddUUIDTest.scala
        SelectFieldTest.scala
        ExecuteSQLTest.scala
        ForkTest.scala
        RouteTest.scala
        DropFieldTest.scala
        MergeTest.scala
        MockDataTest.scala
        impala
        SelectImpalaTest.scala
        ftp
        LoadFromFtpToHDFSTest.scala
        emblTest.scala
        UploadToFtpTest.scala
        file
        FileTest.scala
        RegexTextProcessTest.scala
        hdfs
        SaveToHdfsTest.scala
        ListHdfsTest.scala
        GetHdfsTest.scala
        UnzipFilesonHdfsTest.scala
        SelectFilesByNameTest.scala
        FileDownhdfsHdfsTest.scala
        DeleteHdfsTest.scala
        PutHdfsTest.scala
        memcached
        Complement.scala
        GetMemcacheTest.scala
        PutMemcacheTest.scala
        JDBC
        OracleReadTest.scala
        JdbcReadFromOracleTest.scala
        OracleWriteTest.scala
        MysqlReadTest.scala
        MysqlWriteTest.scala
        MysqlReadIncrementalTest.scala
        OracleReadByPartitionTest.scala
        http
        PostUrlTest.scala
        GetUrlTest.scala
        solr
        PutIntoSolrTest.scala
        GetFromSolrTest.scala
        hive
        PutHiveQLTest.scala
        PutHiveModeTest.scala
        PutHiveStreamingTest.scala
        SelectHiveQLByJDBCTest.scala
        SelectHiveQLTest.scala
        Json
        JsonParserTest.scala
        JsonStringParserTest.scala
        JsonSaveTest.scala
        JsonFolderParserTest.scala
        mongodb
        getMongoDBTest.scala
        putMongoDBTest.scala
  - pom.xml
  - lib
    - java_memcached-release_2.6.6.jar
  - server.ip
  - config.properties
- piflow-core
  - src
    - main
      - resources
        log4j.properties
      - scala
        cn
        piflow
        GroupException.scala
        Execution.scala
        main.scala
        Condition.scala
        lib
        gate.scala
        etl.scala
        io.scala
        runner.scala
        util
        PluginState.scala
        ServerIpUtil.scala
        ConfigureUtil.scala
        HdfsUtil.scala
        FlowRunMode.scala
        idgen.scala
        FlowState.scala
        H2Util.scala
        scriptengine.scala
        GroupState.scala
        FileUtil.scala
        StopState.scala
        PropertyUtil.scala
        HdfsHelper.scala
        JsonUtil.scala
        FlowLauncher.scala
        Logging.scala
        Group.scala
        path.scala
      - java
        cn
        piflow
        util
        SecurityUtil.java
    - test
      - resources
        log4j.properties
      - javascript
        scripts.js
      - scala
        ScriptEngineTest.scala
        FlowGroupTest.scala
        FlowTest.scala
        GroupTest.scala
  - pom.xml
- PiFlow_V0.7_Componets.md
- README.md
- config.properties
- PiFlow_V0.6_User_Guide.md
- README_CN.md
- PiFlow_V0.7_User_Guide.md
- .gitignore

package cn.piflow.bundle.nlp

import cn.piflow._
import cn.piflow.conf._
import cn.piflow.conf.bean.PropertyDescriptor
import cn.piflow.conf.util.{ImageUtil, MapUtil}
import com.huaban.analysis.jieba.JiebaSegmenter.SegMode
import com.huaban.analysis.jieba._
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

import scala.collection.JavaConverters._
import scala.collection.mutable.ArrayBuffer

class WordSpliter extends ConfigurableStop {

  val authorEmail: String = "[email protected]"
  val description: String = "Word segmentation"
  val inportList: List[String] = List(Port.AnyPort.toString)
  val outportList: List[String] = List(Port.DefaultPort.toString)

  var path:String = _


  val jiebaSegmenter = new JiebaSegmenter()
  var tokenARR:ArrayBuffer[String]=ArrayBuffer()

  def segmenter(str:String): Unit ={

    var strVar = str
    //delete symbol
    strVar = strVar.replaceAll( "[\\p{P}+~$`^=|<>～｀＄＾＋＝｜＜＞￥×+\\s]" , "");

    val tokens = jiebaSegmenter.process(strVar,SegMode.SEARCH).asScala

    for (token: SegToken <- tokens){

        tokenARR += token.word

    }
  }

  def perform(in: JobInputStream, out: JobOutputStream, pec: JobContext): Unit = {

    val session: SparkSession = pec.get[SparkSession]()

    //read
    val strDF = session.read.text(path)

    //segmenter
    segmenter(strDF.head().getString(0))

    //write df
    val rows: List[Row] = tokenARR.map(each => {
      var arr:Array[String]=Array(each)
      val row: Row = Row.fromSeq(arr)
      row
    }).toList
    val rowRDD: RDD[Row] = session.sparkContext.makeRDD(rows)
    val schema: StructType = StructType(Array(
      StructField("words",StringType)
    ))
    val df: DataFrame = session.createDataFrame(rowRDD,schema)

    out.write(df)
  }

  def initialize(ctx: ProcessContext): Unit = {

  }

  def setProperties(map : Map[String, Any]) = {
    path = MapUtil.get(map,"path").asInstanceOf[String]
  }

  override def getPropertyDescriptor(): List[PropertyDescriptor] = {
    var descriptor : List[PropertyDescriptor] = List()
    val path = new PropertyDescriptor().name("path").displayName("path").description("The path of text file").defaultValue("").required(true)
    descriptor = path :: descriptor
    descriptor
  }

  override def getIcon(): Array[Byte] = {
    ImageUtil.getImage("icon/nlp/NLP.png")
  }

  override def getGroup(): List[String] = {
    List(StopGroup.Alg_NLPGroup.toString)
  }

}