java source code of Text

DataVec-master
- .github
  - PULL_REQUEST_TEMPLATE.md
  - CONTRIBUTING.md
  - ISSUE_TEMPLATE.md
- datavec-local
  - src
    - main
      - java
        org
        datavec
        local
        transforms
        functions
        SequenceRecordReaderFunction.java
        FlatMapFunctionAdapter.java
        LineRecordReaderFunction.java
        RecordReaderFunction.java
        data
        FilesAsBytesFunction.java
        RecordReaderBytesFunction.java
        SequenceRecordReaderBytesFunction.java
        EmptyRecordFunction.java
        LocalTransformProcessRecordReader.java
        BaseFlatMapFunctionAdaptee.java
        SequenceEmptyRecordFunction.java
        LocalTransformProcessSequenceRecordReader.java
        rank
        UnzipForCalculateSortedRankFunction.java
        misc
        StringToWritablesFunction.java
        ColumnToKeyPairTransform.java
        ColumnAsKeyPairFunction.java
        comparator
        Tuple2Comparator.java
        SumLongsFunction2.java
        WritablesToNDArrayFunction.java
        SequenceMergeFunction.java
        WritablesToStringFunction.java
        SequenceWritablesToStringFunction.java
        NDArrayToWritablesFunction.java
        LocalTransformExecutor.java
        sequence
        LocalSequenceTransformFunction.java
        LocalMapToPairByColumnFunction.java
        ConvertToSequenceLengthOne.java
        LocalSequenceFilterFunction.java
        LocalMapToPairByMultipleColumnsFunction.java
        LocalGroupToSequenceFunction.java
        reduce
        ReducerFunction.java
        MapToPairForReducerFunction.java
        join
        ExecuteJoinFromCoGroupFlatMapFunctionAdapter.java
        ExtractKeysFunction.java
        FilterAndFlattenJoinedValues.java
        ExecuteJoinFromCoGroupFlatMapFunction.java
        JoinedValue.java
        FilterAndFlattenJoinedValuesAdapter.java
        transform
        LocalTransformProcessFunction.java
        SequenceSplitFunctionAdapter.java
        LocalTransformProcessFunctionAdapter.java
        SequenceSplitFunction.java
        LocalTransformFunction.java
        filter
        LocalFilterFunction.java
        FilterWritablesBySchemaFunction.java
    - test
      - resources
        imagetest
        0
        b.bmp
        a.bmp
        1
        b.bmp
        a.bmp
        logback.xml
        log4j.properties
        iris.dat
        iris_tab_delim.txt
        csvsequence
        csvsequence_2.txt
        csvsequence_0.txt
        csvsequence_1.txt
        video
        shapes_0.mp4
        shapes_2.mp4
        shapes_3.mp4
        shapes_1.mp4
      - java
        org
        datavec
        local
        transforms
        LocalTransformProcessRecordReaderTests.java
        functions
        TestWritablesToStringFunctions.java
        TestNDArrayToWritablesFunction.java
        TestWritablesToNDArrayFunction.java
        TestLineRecordReaderFunction.java
        transform
        ExecutionTest.java
        rank
        TestCalculateSortedRank.java
        sequence
        TestConvertToSequence.java
        join
        TestJoin.java
        TestGeoTransforms.java
  - pom.xml
- change-spark-versions.sh
- perform-release.sh
- datavec-hadoop
  - src
    - main
      - java
        org
        datavec
        hadoop
        records
        reader
        mapfile
        MapFileSequenceRecordReader.java
        MapFileReader.java
        index
        LongIndexToKey.java
        MapFileRecordReader.java
        record
        SequenceRecordWritable.java
        RecordWritable.java
        IndexToKey.java
        writer
        mapfile
        MapFileSequenceRecordWriter.java
        MapFileRecordWriter.java
        AbstractMapFileWriter.java
        conf
        ConfigurationUtil.java
    - test
      - resources
        logback.xml
        log4j.properties
        iris.dat
        records
        reader
        SVMLightRecordReaderInput
        record_reader_input_test.txt
        conf
        example_conf
        core-site.xml
      - java
        org
        datavec
        hadoop
        records
        reader
        TestMapFileRecordReaderMultipleParts.java
        TestMapFileRecordReaderMultiplePartsSomeEmpty.java
        TestMapFileRecordReader.java
        writer
        TestMapFileRecordWriter.java
        conf
        TestConfigurationUtil.java
  - pom.xml
- datavec-geo
  - src
    - main
      - java
        org
        datavec
        api
        transform
        geo
        LocationType.java
        reduce
        geo
        CoordinatesReduction.java
        transform
        geo
        IPAddressToCoordinatesTransform.java
        CoordinatesDistanceTransform.java
        IPAddressToLocationTransform.java
        GeoIPFetcher.java
    - test
      - java
        org
        datavec
        api
        transform
        reduce
        TestGeoReduction.java
        transform
        TestGeoTransforms.java
  - pom.xml
- datavec-camel
  - src
    - main
      - resources
        META-INF
        services
        org
        apache
        camel
        component
        datavec
      - java
        org
        datavec
        camel
        component
        csv
        marshaller
        ListStringInputMarshaller.java
        DataVecEndpoint.java
        DataVecProducer.java
        DataVecMarshaller.java
        DataVecComponent.java
        DataVecConsumer.java
    - test
      - resources
        log4j.properties
        iris.dat
      - java
        org
        datavec
        camel
        component
        ListStringInputMarshaller.java
        DataVecComponentTest.java
  - pom.xml
- datavec-spark
  - src
    - main
      - spark-1
        org
        datavec
        spark
        transform
        BaseFlatMapFunctionAdaptee.java
        DataRowsFacade.java
      - java
        org
        datavec
        spark
        functions
        SequenceRecordReaderFunction.java
        pairdata
        PathToKeyConverterNumber.java
        BytesPairWritable.java
        MapToBytesPairWritableFunction.java
        PathToKeyConverter.java
        PathToKeyConverterFilename.java
        PathToKeyFunction.java
        PairSequenceRecordReaderBytesFunction.java
        FlatMapFunctionAdapter.java
        LineRecordReaderFunction.java
        RecordReaderFunction.java
        data
        FilesAsBytesFunction.java
        RecordReaderBytesFunction.java
        SequenceRecordReaderBytesFunction.java
        EmptyRecordFunction.java
        storage
        functions
        SequenceRecordSavePrepPairFunction.java
        SequenceRecordLoadPairFunction.java
        RecordLoadPairFunction.java
        RecordSavePrepPairFunction.java
        SparkStorageUtils.java
        SequenceEmptyRecordFunction.java
        util
        DataVecSparkUtil.java
        transform
        DataFrames.java
        utils
        SparkUtils.java
        SparkExport.java
        rank
        UnzipForCalculateSortedRankFunction.java
        AnalyzeSpark.java
        misc
        StringToWritablesFunction.java
        ColumnToKeyPairTransform.java
        ColumnAsKeyPairFunction.java
        comparator
        Tuple2Comparator.java
        SumLongsFunction2.java
        WritablesToNDArrayFunction.java
        SequenceMergeFunction.java
        WritablesToStringFunction.java
        SequenceWritablesToStringFunction.java
        NDArrayToWritablesFunction.java
        SparkTransformExecutor.java
        Normalization.java
        sparkfunction
        sequence
        DataFrameToSequenceMergeValue.java
        DataFrameToSequenceMergeCombiner.java
        DataFrameToSequenceCreateCombiner.java
        ToRow.java
        SequenceToRowsAdapter.java
        SequenceToRows.java
        ToRecord.java
        quality
        QualityAnalysisAddFunction.java
        categorical
        CategoricalQualityAddFunction.java
        CategoricalQualityAnalysisState.java
        CategoricalQualityMergeFunction.java
        integer
        IntegerQualityAnalysisState.java
        IntegerQualityAddFunction.java
        IntegerQualityMergeFunction.java
        bytes
        BytesQualityAnalysisState.java
        QualityAnalysisState.java
        longq
        LongQualityAddFunction.java
        LongQualityMergeFunction.java
        LongQualityAnalysisState.java
        time
        TimeQualityMergeFunction.java
        TimeQualityAnalysisState.java
        TimeQualityAddFunction.java
        real
        RealQualityAddFunction.java
        RealQualityMergeFunction.java
        RealQualityAnalysisState.java
        QualityAnalysisCombineFunction.java
        string
        StringQualityAddFunction.java
        StringQualityMergeFunction.java
        StringQualityAnalysisState.java
        sequence
        SparkMapToPairByColumnFunction.java
        ConvertToSequenceLengthOne.java
        SparkSequenceFilterFunction.java
        SparkSequenceTransformFunction.java
        SparkMapToPairByMultipleColumnsFunction.java
        SparkGroupToSequenceFunction.java
        reduce
        ReducerFunction.java
        MapToPairForReducerFunction.java
        analysis
        columns
        DoubleAnalysisCounter.java
        IntegerAnalysisCounter.java
        CategoricalAnalysisCounter.java
        NDArrayAnalysisCounter.java
        BytesAnalysisCounter.java
        LongAnalysisCounter.java
        SequenceFlatMapFunction.java
        unique
        UniqueMergeFunction.java
        UniqueAddFunction.java
        StringLengthFunction.java
        aggregate
        AnalysisAddFunction.java
        AnalysisCombineFunction.java
        CategoricalToPairFunction.java
        WritableToStringFunction.java
        histogram
        CategoricalHistogramCounter.java
        DoubleHistogramCounter.java
        StringHistogramCounter.java
        HistogramCombineFunction.java
        HistogramAddFunction.java
        NDArrayHistogramCounter.java
        HistogramCounter.java
        SelectColumnFunction.java
        seqlength
        IntToDoubleFunction.java
        SequenceLengthAnalysisCounter.java
        SequenceLengthAnalysisMergeFunction.java
        SequenceLengthAnalysisAddFunction.java
        SequenceLengthFunction.java
        SequenceFlatMapFunctionAdapter.java
        AnalysisCounter.java
        WritableToDoubleFunction.java
        string
        StringAnalysisMergeFunction.java
        StringAnalysisCounter.java
        join
        ExecuteJoinFromCoGroupFlatMapFunctionAdapter.java
        ExtractKeysFunction.java
        FilterAndFlattenJoinedValues.java
        ExecuteJoinFromCoGroupFlatMapFunction.java
        JoinedValue.java
        FilterAndFlattenJoinedValuesAdapter.java
        filter
        SparkFilterFunction.java
        FilterWritablesBySchemaFunction.java
        transform
        SequenceSplitFunctionAdapter.java
        SparkTransformProcessFunctionAdapter.java
        SparkTransformProcessFunction.java
        SequenceSplitFunction.java
        SparkTransformFunction.java
      - spark-2
        org
        datavec
        spark
        transform
        BaseFlatMapFunctionAdaptee.java
        DataRowsFacade.java
    - test
      - resources
        imagetest
        0
        b.bmp
        a.bmp
        1
        b.bmp
        a.bmp
        logback.xml
        log4j.properties
        iris.dat
        iris_tab_delim.txt
        csvsequence
        csvsequence_2.txt
        csvsequence_0.txt
        csvsequence_1.txt
        video
        shapes_0.mp4
        shapes_2.mp4
        shapes_3.mp4
        shapes_1.mp4
      - java
        org
        datavec
        spark
        TestKryoSerialization.java
        functions
        TestWritablesToStringFunctions.java
        TestSequenceRecordReaderBytesFunction.java
        TestRecordReaderBytesFunction.java
        TestRecordReaderFunction.java
        TestNDArrayToWritablesFunction.java
        TestPairSequenceRecordReaderBytesFunction.java
        TestWritablesToNDArrayFunction.java
        TestSequenceRecordReaderFunction.java
        TestLineRecordReaderFunction.java
        storage
        TestSparkStorageUtils.java
        util
        TestSparkUtil.java
        BaseSparkTest.java
        transform
        ExecutionTest.java
        rank
        TestCalculateSortedRank.java
        DataFramesTests.java
        sequence
        TestConvertToSequence.java
        analysis
        TestAnalysis.java
        NormalizationTests.java
        join
        TestJoin.java
        TestGeoTransforms.java
  - pom.xml
- pom.xml
- LICENSE
- buildmultiplescalaversions.sh
- datavec-spark-inference-parent
  - datavec-spark-inference-model
    - src
      - main
        java
        org
        datavec
        spark
        transform
        service
        DataVecTransformService.java
        ImageSparkTransform.java
        model
        Base64NDArrayBody.java
        SingleImageRecord.java
        SequenceBatchCSVRecord.java
        BatchImageRecord.java
        SingleCSVRecord.java
        BatchCSVRecord.java
        CSVSparkTransform.java
      - test
        resources
        testimages
        class1
        A.jpg
        C.jpg
        class0
        0.jpg
        2.jpg
        java
        org
        datavec
        spark
        transform
        SingleCSVRecordTest.java
        BatchCSVRecordTest.java
        SingleImageRecordTest.java
        ImageSparkTransformTest.java
        CSVSparkTransformTest.java
    - pom.xml
  - pom.xml
  - datavec-spark-inference-server
    - src
      - main
        java
        org
        datavec
        spark
        transform
        FunctionUtil.java
        TransformDataType.java
        SparkTransformServer.java
        CSVSparkTransformServer.java
        ImageSparkTransformServer.java
        SparkTransformServerChooser.java
      - test
        resources
        application.conf
        testimages
        class1
        A.jpg
        C.jpg
        class0
        0.jpg
        2.jpg
        java
        org
        datavec
        spark
        transform
        CSVSparkTransformServerTest.java
        CSVSparkTransformServerNoJsonTest.java
        SparkTransformServerTest.java
        ImageSparkTransformServerTest.java
    - pom.xml
  - datavec-spark-inference-client
    - src
      - main
        java
        org
        datavec
        spark
        transform
        client
        DataVecTransformClient.java
      - test
        resources
        application.conf
        java
        org
        datavec
        transform
        client
        DataVecTransformClientTest.java
    - pom.xml
- datavec-jdbc
  - src
    - main
      - java
        org
        datavec
        api
        util
        jdbc
        JdbcWritableConverter.java
        ResettableResultSetIterator.java
        records
        metadata
        RecordMetaDataJdbc.java
        reader
        impl
        jdbc
        JDBCRecordReader.java
    - test
      - java
        org
        datavec
        api
        records
        reader
        impl
        TestDb.java
        JDBCRecordReaderTest.java
  - pom.xml
- datavec-arrow
  - src
    - main
      - java
        org
        datavec
        arrow
        recordreader
        ArrowRecordWriter.java
        ArrowRecord.java
        ArrowWritableRecordTimeSeriesBatch.java
        ArrowRecordReader.java
        ArrowWritableRecordBatch.java
        ArrowConverter.java
    - test
      - java
        org
        datavec
        arrow
        RecordMapperTest.java
        ArrowConverterTest.java
        recordreader
        ArrowWritableRecordTimeSeriesBatchTests.java
  - pom.xml
- datavec-api
  - src
    - main
      - resources
        templates
        analysis.ftl
        sequenceplot.ftl
      - java
        org
        datavec
        api
        timeseries
        util
        TimeSeriesWritableUtils.java
        util
        jackson
        DateTimeFieldTypeSerializer.java
        DateTimeFieldTypeDeserializer.java
        ndarray
        RecordConverter.java
        DataOutputWrapperStream.java
        DataInputWrapperStream.java
        files
        FileFromPathIterator.java
        ShuffledListIterator.java
        URIUtil.java
        UriFromPathIterator.java
        RecordUtils.java
        ReflectionUtils.java
        ClassPathResource.java
        writable
        DoubleWritable.java
        BytesWritable.java
        WritableType.java
        comparator
        WritableComparator.java
        IntWritableComparator.java
        TextWritableComparator.java
        ReverseComparator.java
        LongWritableComparator.java
        DoubleWritableComparator.java
        FloatWritableComparator.java
        Comparators.java
        BooleanWritable.java
        NullWritable.java
        NDArrayWritable.java
        Writable.java
        UnsafeWritableInjector.java
        ByteWritable.java
        WritableFactory.java
        IntWritable.java
        Text.java
        FloatWritable.java
        LongWritable.java
        batch
        AbstractWritableRecordBatch.java
        NDArrayRecordBatch.java
        AbstractTimeSeriesWritableRecordBatch.java
        ArrayWritable.java
        io
        WritableComparable.java
        DataOutputBuffer.java
        WritableComparator.java
        BinaryComparable.java
        RawComparator.java
        labels
        PathLabelGenerator.java
        ParentPathLabelGenerator.java
        PathMultiLabelGenerator.java
        PatternPathLabelGenerator.java
        converters
        WritableConverterException.java
        DoubleWritableConverter.java
        FloatWritableConverter.java
        SelfWritableConverter.java
        LabelWriterConverter.java
        filters
        PathFilter.java
        BalancedPathFilter.java
        RandomPathFilter.java
        DataInputBuffer.java
        WritableUtils.java
        WritableConverter.java
        serializers
        Serializer.java
        Serialization.java
        SerializationFactory.java
        Deserializer.java
        vector
        Vectorizer.java
        exceptions
        DataVecException.java
        UnknownFormatException.java
        records
        impl
        SequenceRecord.java
        Record.java
        SequenceRecord.java
        Index.java
        Buffer.java
        metadata
        RecordMetaDataImageURI.java
        RecordMetaDataLineInterval.java
        RecordMetaDataIndex.java
        RecordMetaDataComposableMap.java
        RecordMetaDataLine.java
        RecordMetaDataInterval.java
        RecordMetaDataURI.java
        RecordMetaDataComposable.java
        RecordMetaData.java
        Record.java
        converter
        RecordReaderConverter.java
        IOUtils.java
        reader
        impl
        FileRecordReader.java
        LineRecordReader.java
        ConcatenatingRecordReader.java
        csv
        CSVSequenceRecordReader.java
        CSVVariableSlidingWindowRecordReader.java
        CSVRecordReader.java
        CSVNLinesSequenceRecordReader.java
        SerializableCSVParser.java
        CSVRegexRecordReader.java
        jackson
        JacksonRecordReader.java
        FieldSelection.java
        JacksonLineRecordReader.java
        regex
        RegexLineRecordReader.java
        RegexSequenceRecordReader.java
        misc
        MatlabRecordReader.java
        LibSvmRecordReader.java
        SVMLightRecordReader.java
        collection
        ListStringRecordReader.java
        CollectionRecordReader.java
        CollectionSequenceRecordReader.java
        inmemory
        InMemoryRecordReader.java
        InMemorySequenceRecordReader.java
        ComposableRecordReader.java
        transform
        TransformProcessSequenceRecordReader.java
        TransformProcessRecordReader.java
        SequenceRecordReader.java
        BaseRecordReader.java
        RecordReader.java
        factory
        RecordWriterFactory.java
        RecordReaderFactory.java
        writer
        impl
        FileRecordWriter.java
        csv
        CSVRecordWriter.java
        misc
        LibSvmRecordWriter.java
        SVMLightRecordWriter.java
        MatlabRecordWriter.java
        LineRecordWriter.java
        RecordWriter.java
        SequenceRecordWriter.java
        listener
        impl
        LogRecordListener.java
        RecordListener.java
        mapper
        RecordMapper.java
        split
        CollectionInputSplit.java
        OutputStreamInputSplit.java
        ListStringSplit.java
        partition
        NumberOfRecordsPartitioner.java
        PartitionMetaData.java
        Partitioner.java
        StringSplit.java
        TransformSplit.java
        FileSplit.java
        InputStreamInputSplit.java
        BaseInputSplit.java
        NumberedFileInputSplit.java
        InputSplit.java
        conf
        Configuration.java
        Configurable.java
        Configured.java
        transform
        DataAction.java
        stringreduce
        StringReducer.java
        IStringReducer.java
        ColumnType.java
        ReduceOp.java
        Distance.java
        ndarray
        NDArrayColumnsMathOpTransform.java
        NDArrayDistanceTransform.java
        NDArrayScalarOpTransform.java
        NDArrayMathFunctionTransform.java
        rank
        CalculateSortedRank.java
        metadata
        CategoricalMetaData.java
        BooleanMetaData.java
        LongMetaData.java
        IntegerMetaData.java
        FloatMetaData.java
        BinaryMetaData.java
        ColumnMetaData.java
        StringMetaData.java
        BaseColumnMetaData.java
        NDArrayMetaData.java
        TimeMetaData.java
        DoubleMetaData.java
        ui
        HtmlAnalysis.java
        DivObject.java
        components
        RenderableComponentLineChart.java
        RenderableComponent.java
        RenderableComponentHistogram.java
        RenderableComponentTable.java
        HtmlSequencePlotting.java
        ColumnOp.java
        MathOp.java
        quality
        columns
        DoubleQuality.java
        StringQuality.java
        TimeQuality.java
        ColumnQuality.java
        LongQuality.java
        CategoricalQuality.java
        BytesQuality.java
        IntegerQuality.java
        DataQualityAnalysis.java
        sequence
        merge
        SequenceMerge.java
        ConvertToSequence.java
        ReduceSequenceTransform.java
        window
        ReduceSequenceByWindowTransform.java
        TimeWindowFunction.java
        WindowFunction.java
        OverlappingTimeWindowFunction.java
        comparator
        StringComparator.java
        NumericalColumnComparator.java
        BaseColumnComparator.java
        SequenceSplit.java
        expansion
        BaseSequenceExpansionTransform.java
        trim
        SequenceTrimTransform.java
        ConvertFromSequence.java
        split
        SplitMaxLengthSequence.java
        SequenceSplitTimeSeparation.java
        SequenceComparator.java
        reduce
        impl
        GeographicMidpointReduction.java
        IAssociativeReducer.java
        AggregableReductionUtils.java
        Reducer.java
        AggregableColumnReduction.java
        ColumnReduction.java
        analysis
        columns
        LongAnalysis.java
        BytesAnalysis.java
        TimeAnalysis.java
        CategoricalAnalysis.java
        NDArrayAnalysis.java
        ColumnAnalysis.java
        NumericalColumnAnalysis.java
        DoubleAnalysis.java
        IntegerAnalysis.java
        StringAnalysis.java
        sequence
        SequenceLengthAnalysis.java
        DataAnalysis.java
        json
        TDigestSerializer.java
        TDigestDeserializer.java
        SequenceDataAnalysis.java
        ops
        DispatchWithConditionOp.java
        IAggregableReduceOp.java
        DoubleWritableOp.java
        FloatWritableOp.java
        DispatchOp.java
        ByteWritableOp.java
        IntWritableOp.java
        AggregableCheckingOp.java
        LongWritableOp.java
        AggregatorImpls.java
        StringAggregatorImpls.java
        AggregableMultiOp.java
        StringWritableOp.java
        StringReduceOp.java
        join
        Join.java
        MathFunction.java
        filter
        FilterInvalidValues.java
        BaseColumnFilter.java
        Filter.java
        ConditionFilter.java
        InvalidNumColumns.java
        schema
        Schema.java
        conversion
        TypeConversion.java
        InferredSchema.java
        SequenceSchema.java
        serde
        YamlSerializer.java
        BaseSerializer.java
        JsonMappers.java
        JsonSerializer.java
        legacy
        GenericLegacyDeserializer.java
        LegacyMappingHelper.java
        ListWrappers.java
        split
        RandomSplit.java
        SplitStrategy.java
        Transform.java
        transform
        categorical
        StringToCategoricalTransform.java
        PivotTransform.java
        CategoricalToIntegerTransform.java
        CategoricalToOneHotTransform.java
        IntegerToCategoricalTransform.java
        BaseColumnTransform.java
        nlp
        TextToTermIndexSequenceTransform.java
        TextToCharacterIndexTransform.java
        integer
        ConvertToInteger.java
        BaseIntegerTransform.java
        IntegerMathOpTransform.java
        IntegerToOneHotTransform.java
        ReplaceEmptyIntegerWithValueTransform.java
        ReplaceInvalidWithIntegerTransform.java
        IntegerColumnsMathOpTransform.java
        BaseTransform.java
        time
        TimeMathOpTransform.java
        StringToTimeTransform.java
        DeriveColumnsFromTimeTransform.java
        parse
        ParseDoubleTransform.java
        doubletransform
        StandardizeNormalizer.java
        DoubleMathOpTransform.java
        DoubleMathFunctionTransform.java
        MinMaxNormalizer.java
        BaseDoubleTransform.java
        DoubleColumnsMathOpTransform.java
        SubtractMeanNormalizer.java
        ConvertToDouble.java
        Log2Normalizer.java
        BaseColumnsMathOpTransform.java
        sequence
        SequenceMovingWindowReduceTransform.java
        SequenceDifferenceTransform.java
        SequenceOffsetTransform.java
        column
        RenameColumnsTransform.java
        DuplicateColumnsTransform.java
        ReorderColumnsTransform.java
        AddConstantColumnTransform.java
        RemoveAllColumnsExceptForTransform.java
        RemoveColumnsTransform.java
        longtransform
        LongColumnsMathOpTransform.java
        LongMathOpTransform.java
        normalize
        Normalize.java
        string
        RemoveWhiteSpaceTransform.java
        StringMapTransform.java
        ChangeCaseStringTransform.java
        ConcatenateStringColumns.java
        ConvertToString.java
        BaseStringTransform.java
        ReplaceStringTransform.java
        MapAllStringsExceptListTransform.java
        StringListToCategoricalSetTransform.java
        ReplaceEmptyStringTransform.java
        AppendStringColumnTransform.java
        StringListToCountsNDArrayTransform.java
        StringListToIndicesNDArrayTransform.java
        condition
        ConditionalCopyValueTransform.java
        ConditionalReplaceValueTransform.java
        ConditionalReplaceValueTransformWithDefault.java
        condition
        ConditionOp.java
        sequence
        SequenceLengthCondition.java
        Condition.java
        BooleanCondition.java
        column
        NullWritableColumnCondition.java
        NaNColumnCondition.java
        LongColumnCondition.java
        StringColumnCondition.java
        InvalidValueColumnCondition.java
        InfiniteColumnCondition.java
        IntegerColumnCondition.java
        BooleanColumnCondition.java
        TrivialColumnCondition.java
        ColumnCondition.java
        CategoricalColumnCondition.java
        DoubleColumnCondition.java
        TimeColumnCondition.java
        BaseColumnCondition.java
        string
        StringRegexColumnCondition.java
        SequenceConditionMode.java
        TransformProcess.java
        formats
        output
        impl
        CSVOutputFormat.java
        LibSvmOutputFormat.java
        SVMLightOutputFormat.java
        LineOutputFormat.java
        OutputFormat.java
        input
        impl
        LibSvmInputFormat.java
        SVMLightInputFormat.java
        LineInputFormat.java
        MatlabInputFormat.java
        ListStringInputFormat.java
        CSVInputFormat.java
        BaseInputFormat.java
        InputFormat.java
    - test
      - resources
        csvsequence_2.txt
        xml
        xml_test_1.txt
        xml_test_2.txt
        xml_test_0.txt
        regression_test
        100a
        transformprocess_regression_100a.json
        iris_zero_indexed.libsvm
        logtestdata
        logtestfile1.txt
        logtestfile0.txt
        logback.xml
        yaml
        yaml_test_2.txt
        yaml_test_0.txt
        yaml_test_1.txt
        iris.libsvm
        iris.dat
        tabbed.txt
        libsvm_with_multiple_missing.libsvm
        csvsequence test.txt
        csvsequence_0.txt
        issue414.csv
        iris_tab_delim.txt
        testDir
        holder.csv
        csvsequence_1.txt
        json
        json_test_0.txt
        json_test_1.txt
        json_test_2.txt
        json_test_3.txt
        svmlight
        inconsistentNumLabels.txt
        basic.txt
        multilabel.txt
        zeroIndexFeature.txt
        multioutput.txt
        noLabels.txt
        zeroIndexLabel.txt
      - java
        timeseries
        util
        TimeSeriesUtilsTest.java
        org
        datavec
        api
        util
        ClassPathResourceTest.java
        writable
        RecordConverterTest.java
        WritableTest.java
        TestNDArrayWritableAndSerialization.java
        records
        reader
        impl
        CSVVariableSlidingWindowRecordReaderTest.java
        JacksonLineRecordReaderTest.java
        SVMLightRecordReaderTest.java
        JacksonRecordReaderTest.java
        TestCollectionRecordReaders.java
        LineReaderTest.java
        LibSvmRecordReaderTest.java
        CSVNLinesSequenceRecordReaderTest.java
        FileRecordReaderTest.java
        TestConcatenatingRecordReader.java
        RegexRecordReaderTest.java
        CSVSequenceRecordReaderTest.java
        TestSerialization.java
        CSVRecordReaderTest.java
        transform
        TransformProcessRecordReaderTests.java
        writer
        impl
        SVMLightRecordWriterTest.java
        LibSvmRecordWriterTest.java
        CSVRecordWriterTest.java
        split
        FileSplitTest.java
        TransformSplitTest.java
        parittion
        PartitionerTests.java
        NumberedFileInputSplitTests.java
        InputSplitTests.java
        transform
        stringreduce
        TestReduce.java
        ui
        TestUI.java
        sequence
        TestWindowFunctions.java
        TestReduceSequenceByWindowFunction.java
        TestSequenceSplit.java
        reduce
        TestMultiOpReduce.java
        TestReductions.java
        TestTransformProcess.java
        ops
        DispatchOpTest.java
        AggregableMultiOpTest.java
        AggregatorImplsTest.java
        join
        TestJoin.java
        filter
        TestFilters.java
        schema
        TestJsonYaml.java
        TestSchemaMethods.java
        serde
        TestCustomTransformJsonYaml.java
        testClasses
        CustomTransform.java
        CustomFilter.java
        CustomCondition.java
        TestYamlJsonSerde.java
        transform
        TestTransforms.java
        ndarray
        TestNDArrayWritableTransforms.java
        TestYamlJsonSerde.java
        parse
        ParseDoubleTransformTest.java
        TestJsonYaml.java
        RegressionTestJson.java
        condition
        TestConditions.java
  - pom.xml
- datavec-excel
  - src
    - main
      - java
        org
        datavec
        poi
        excel
        ExcelRecordWriter.java
        ExcelRecordReader.java
    - test
      - resources
        testsheetheader.xlsx
        testsheet.xlsx
      - java
        org
        datavec
        poi
        excel
        ExcelRecordReaderTest.java
        ExcelRecordWriterTest.java
  - pom.xml
- runtests.sh
- VERSION
- datavec-data
  - datavec-data-nlp
    - src
      - main
        resources
        stopwords
        java
        org
        datavec
        nlp
        movingwindow
        Util.java
        ContextLabelRetriever.java
        Window.java
        Windows.java
        uima
        UimaResource.java
        metadata
        DefaultVocabCache.java
        VocabCache.java
        tokenization
        tokenizer
        Tokenizer.java
        DefaultTokenizer.java
        DefaultStreamTokenizer.java
        TokenPreProcess.java
        ConcurrentTokenizer.java
        PosUimaTokenizer.java
        preprocessor
        EndingPreProcessor.java
        UimaTokenizer.java
        tokenizerfactory
        UimaTokenizerFactory.java
        PosUimaTokenizerFactory.java
        DefaultTokenizerFactory.java
        TokenizerFactory.java
        annotator
        SentenceAnnotator.java
        StemmerAnnotator.java
        PoStagger.java
        TokenizerAnnotator.java
        reader
        TfidfRecordReader.java
        vectorizer
        AbstractTfidfVectorizer.java
        TfidfVectorizer.java
        TextVectorizer.java
        input
        TextInputFormat.java
        stopwords
        StopWords.java
      - test
        resources
        labeled
        neutral
        doc1.txt
        negative
        doc1.txt
        positive
        doc1.txt
        java
        org
        datavec
        nlp
        reader
        TfidfRecordReaderTest.java
    - pom.xml
  - pom.xml
  - datavec-data-codec
    - src
      - main
        java
        org
        datavec
        codec
        format
        input
        CodecInputFormat.java
        reader
        BaseCodecRecordReader.java
        NativeCodecRecordReader.java
        CodecRecordReader.java
      - test
        resources
        video_license.txt
        java
        org
        datavec
        codec
        reader
        CodecReaderTest.java
    - pom.xml
  - datavec-data-image
    - src
      - main
        resources
        META-INF
        services
        javax.imageio.spi.ImageReaderSpi
        javax.imageio.spi.ImageWriterSpi
        java
        org
        datavec
        image
        format
        ImageInputFormat.java
        util
        ImageUtils.java
        data
        Image.java
        ImageWritable.java
        loader
        NativeImageLoader.java
        CifarLoader.java
        LFWLoader.java
        AndroidNativeImageLoader.java
        Java2DNativeImageLoader.java
        BaseImageLoader.java
        ImageLoader.java
        recordreader
        BaseImageRecordReader.java
        ImageRecordReader.java
        VideoRecordReader.java
        objdetect
        impl
        SvhnLabelProvider.java
        VocLabelProvider.java
        ImageObjectLabelProvider.java
        ObjectDetectionRecordReader.java
        ImageObject.java
        mnist
        draw
        DrawMnist.java
        DrawReconstruction.java
        MnistDbFile.java
        MnistManager.java
        MnistImageFile.java
        MnistFetcher.java
        MnistLabelFile.java
        serde
        LegacyImageMappingHelper.java
        transform
        ImageTransform.java
        RandomCropTransform.java
        BoxImageTransform.java
        ResizeImageTransform.java
        ScaleImageTransform.java
        FlipImageTransform.java
        MultiImageTransform.java
        CropImageTransform.java
        ShowImageTransform.java
        WarpImageTransform.java
        LargestBlobCropTransform.java
        PipelineImageTransform.java
        ImageTransformProcess.java
        RotateImageTransform.java
        EqualizeHistTransform.java
        ColorConversionTransform.java
        FilterImageTransform.java
        BaseImageTransform.java
      - test
        resources
        testimages2
        mitosis.tif
        largestblobtest.jpg
        logback.xml
        testimages
        class1
        A.jpg
        C.jpg
        class0
        0.jpg
        2.jpg
        objdetect
        000012.jpg
        000019.jpg
        voc
        2007
        Annotations
        000007.xml
        000005.xml
        JPEGImages
        000007.jpg
        000005.jpg
        java
        org
        datavec
        image
        LabelGeneratorTest.java
        loader
        LoaderTests.java
        TestImageLoader.java
        TestNativeImageLoader.java
        recordreader
        TestImageRecordReader.java
        TestObjectDetectionRecordReader.java
        objdetect
        TestVocLabelProvider.java
        transform
        JsonYamlTest.java
        ResizeImageTransformTest.java
        TestImageTransform.java
    - pom.xml
  - datavec-data-audio
    - src
      - main
        java
        org
        datavec
        audio
        fingerprint
        QuickSortShort.java
        MapRank.java
        FingerprintSimilarity.java
        MapRankInteger.java
        QuickSortInteger.java
        FingerprintSimilarityComputer.java
        QuickSortDouble.java
        PairManager.java
        QuickSortIndexPreserved.java
        QuickSort.java
        MapRankDouble.java
        FingerprintManager.java
        processor
        RobustIntensityProcessor.java
        TopManyPointsProcessorChain.java
        ProcessorChain.java
        IntensityProcessor.java
        ArrayRankDouble.java
        properties
        FingerprintProperties.java
        WaveFileManager.java
        extension
        NormalizedSampleAmplitudes.java
        Spectrogram.java
        recordreader
        WavFileRecordReader.java
        BaseAudioRecordReader.java
        NativeAudioRecordReader.java
        Wave.java
        WaveHeader.java
        dsp
        FastFourierTransform.java
        Resampler.java
        WindowFunction.java
        package-info.java
        LinearInterpolation.java
        formats
        output
        WaveOutputFormat.java
        input
        WavInputFormat.java
      - test
        java
        org
        datavec
        audio
        AudioReaderTest.java
        TestFastFourierTransform.java
    - pom.xml
- .travis.yml
- README.md
- ci
  - settings.xml
  - build-linux-x86_64.sh
- change-scala-versions.sh
- .gitignore
- Jenkinsfile
- contrib
  - formatter.xml
- datavec-perf
  - src
    - main
      - java
        org
        datavec
        perf
        timing
        TimingStatistics.java
        IOTiming.java
    - test
      - resources
        largestblobtest.jpg
      - java
        org
        datavec
        datavec
        timing
        IOTimingTest.java
  - pom.xml

/*-
 *  * Copyright 2016 Skymind, Inc.
 *  *
 *  *    Licensed under the Apache License, Version 2.0 (the "License");
 *  *    you may not use this file except in compliance with the License.
 *  *    You may obtain a copy of the License at
 *  *
 *  *        http://www.apache.org/licenses/LICENSE-2.0
 *  *
 *  *    Unless required by applicable law or agreed to in writing, software
 *  *    distributed under the License is distributed on an "AS IS" BASIS,
 *  *    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 *  *    See the License for the specific language governing permissions and
 *  *    limitations under the License.
 */

package org.datavec.api.writable;


import org.datavec.api.io.BinaryComparable;
import org.datavec.api.io.WritableComparable;
import org.datavec.api.io.WritableComparator;
import org.datavec.api.io.WritableUtils;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.nio.ByteBuffer;
import java.nio.CharBuffer;
import java.nio.charset.*;
import java.text.CharacterIterator;
import java.text.StringCharacterIterator;



/** This class stores text using standard UTF8 encoding.  It provides methods
 * to serialize, deserialize, and compare texts at byte level.  The type of
 * length is integer and is serialized using zero-compressed format.  <p>In
 * addition, it provides methods for string traversal without converting the
 * byte array to a string.  <p>Also includes utilities for
 * serializing/deserialing a string, coding/decoding a string, checking if a
 * byte array contains valid UTF8 code, calculating the length of an encoded
 * string.
 */
public class Text extends BinaryComparable implements WritableComparable<BinaryComparable> {

    private static ThreadLocal<CharsetEncoder> ENCODER_FACTORY = new ThreadLocal<CharsetEncoder>() {
        protected CharsetEncoder initialValue() {
            return Charset.forName("UTF-8").newEncoder().onMalformedInput(CodingErrorAction.REPORT)
                            .onUnmappableCharacter(CodingErrorAction.REPORT);
        }
    };

    private static ThreadLocal<CharsetDecoder> DECODER_FACTORY = new ThreadLocal<CharsetDecoder>() {
        protected CharsetDecoder initialValue() {
            return Charset.forName("UTF-8").newDecoder().onMalformedInput(CodingErrorAction.REPORT)
                            .onUnmappableCharacter(CodingErrorAction.REPORT);
        }
    };

    private static final byte[] EMPTY_BYTES = new byte[0];

    private byte[] bytes;
    private int length;

    public Text() {
        bytes = EMPTY_BYTES;
    }

    /** Construct from a string.
     */
    public Text(String string) {
        set(string);
    }

    /** Construct from another text. */
    public Text(Text utf8) {
        set(utf8);
    }

    /** Construct from a byte array.
     */
    public Text(byte[] utf8) {
        set(utf8);
    }

    /**
     * Returns the raw bytes; however, only data up to {@link #getLength()} is
     * valid.
     */
    public byte[] getBytes() {
        return bytes;
    }

    /** Returns the number of bytes in the byte array */
    public int getLength() {
        return length;
    }

    /**
     * Returns the Unicode Scalar Value (32-bit integer value)
     * for the character at <code>position</code>. Note that this
     * method avoids using the converter or doing String instatiation
     * @return the Unicode scalar value at position or -1
     *          if the position is invalid or points to a
     *          trailing byte
     */
    public int charAt(int position) {
        if (position > this.length)
            return -1; // too long
        if (position < 0)
            return -1; // duh.

        ByteBuffer bb = (ByteBuffer) ByteBuffer.wrap(bytes).position(position);
        return bytesToCodePoint(bb.slice());
    }

    public int find(String what) {
        return find(what, 0);
    }

    /**
     * Finds any occurence of <code>what</code> in the backing
     * buffer, starting as position <code>start</code>. The starting
     * position is measured in bytes and the return value is in
     * terms of byte position in the buffer. The backing buffer is
     * not converted to a string for this operation.
     * @return byte position of the first occurence of the search
     *         string in the UTF-8 buffer or -1 if not found
     */
    public int find(String what, int start) {
        try {
            ByteBuffer src = ByteBuffer.wrap(this.bytes, 0, this.length);
            ByteBuffer tgt = encode(what);
            byte b = tgt.get();
            src.position(start);

            while (src.hasRemaining()) {
                if (b == src.get()) { // matching first byte
                    src.mark(); // save position in loop
                    tgt.mark(); // save position in target
                    boolean found = true;
                    int pos = src.position() - 1;
                    while (tgt.hasRemaining()) {
                        if (!src.hasRemaining()) { // src expired first
                            tgt.reset();
                            src.reset();
                            found = false;
                            break;
                        }
                        if (!(tgt.get() == src.get())) {
                            tgt.reset();
                            src.reset();
                            found = false;
                            break; // no match
                        }
                    }
                    if (found)
                        return pos;
                }
            }
            return -1; // not found
        } catch (CharacterCodingException e) {
            // can't get here
            e.printStackTrace();
            return -1;
        }
    }

    /** Set to contain the contents of a string.
     */
    public void set(String string) {
        try {
            ByteBuffer bb = encode(string, true);
            bytes = bb.array();
            length = bb.limit();
        } catch (CharacterCodingException e) {
            throw new RuntimeException("Should not have happened " + e.toString());
        }
    }

    /** Set to a utf8 byte array
     */
    public void set(byte[] utf8) {
        set(utf8, 0, utf8.length);
    }

    /** copy a text. */
    public void set(Text other) {
        set(other.getBytes(), 0, other.getLength());
    }

    /**
     * Set the Text to range of bytes
     * @param utf8 the data to copy from
     * @param start the first position of the new string
     * @param len the number of bytes of the new string
     */
    public void set(byte[] utf8, int start, int len) {
        setCapacity(len, false);
        System.arraycopy(utf8, start, bytes, 0, len);
        this.length = len;
    }

    /**
     * Append a range of bytes to the end of the given text
     * @param utf8 the data to copy from
     * @param start the first position to append from utf8
     * @param len the number of bytes to append
     */
    public void append(byte[] utf8, int start, int len) {
        setCapacity(length + len, true);
        System.arraycopy(utf8, start, bytes, length, len);
        length += len;
    }

    /**
     * Clear the string to empty.
     */
    public void clear() {
        length = 0;
    }

    /*
     * Sets the capacity of this Text object to <em>at least</em>
     * <code>len</code> bytes. If the current buffer is longer,
     * then the capacity and existing content of the buffer are
     * unchanged. If <code>len</code> is larger
     * than the current capacity, the Text object's capacity is
     * increased to match.
     * @param len the number of bytes we need
     * @param keepData should the old data be kept
     */
    private void setCapacity(int len, boolean keepData) {
        if (bytes == null || bytes.length < len) {
            byte[] newBytes = new byte[len];
            if (bytes != null && keepData) {
                System.arraycopy(bytes, 0, newBytes, 0, length);
            }
            bytes = newBytes;
        }
    }

    /**
     * Convert text back to string
     * @see java.lang.Object#toString()
     */
    public String toString() {
        try {
            return decode(bytes, 0, length);
        } catch (CharacterCodingException e) {
            throw new RuntimeException("Should not have happened " + e.toString());
        }
    }

    /** deserialize
     */
    public void readFields(DataInput in) throws IOException {
        int newLength = WritableUtils.readVInt(in);
        setCapacity(newLength, false);
        in.readFully(bytes, 0, newLength);
        length = newLength;
    }

    @Override
    public void writeType(DataOutput out) throws IOException {
        out.writeShort(WritableType.Text.typeIdx());
    }

    /** Skips over one Text in the input. */
    public static void skip(DataInput in) throws IOException {
        int length = WritableUtils.readVInt(in);
        WritableUtils.skipFully(in, length);
    }

    /** serialize
     * write this object to out
     * length uses zero-compressed encoding
     * @see Writable#write(DataOutput)
     */
    public void write(DataOutput out) throws IOException {
        WritableUtils.writeVInt(out, length);
        out.write(bytes, 0, length);
    }

    /** Returns true iff <code>o</code> is a Text with the same contents.  */
    public boolean equals(Object o) {
        return o instanceof Text && super.equals(o);
    }

    public int hashCode() {
        return super.hashCode();
    }

    /** A WritableComparator optimized for Text keys. */
    public static class Comparator extends WritableComparator {
        public Comparator() {
            super(Text.class);
        }

        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            int n1 = WritableUtils.decodeVIntSize(b1[s1]);
            int n2 = WritableUtils.decodeVIntSize(b2[s2]);
            return compareBytes(b1, s1 + n1, l1 - n1, b2, s2 + n2, l2 - n2);
        }
    }

    static {
        // register this comparator
        WritableComparator.define(Text.class, new Comparator());
    }

    /// STATIC UTILITIES FROM HERE DOWN
    /**
     * Converts the provided byte array to a String using the
     * UTF-8 encoding. If the input is malformed,
     * replace by a default value.
     */
    public static String decode(byte[] utf8) throws CharacterCodingException {
        return decode(ByteBuffer.wrap(utf8), true);
    }

    public static String decode(byte[] utf8, int start, int length) throws CharacterCodingException {
        return decode(ByteBuffer.wrap(utf8, start, length), true);
    }

    /**
     * Converts the provided byte array to a String using the
     * UTF-8 encoding. If <code>replace</code> is true, then
     * malformed input is replaced with the
     * substitution character, which is U+FFFD. Otherwise the
     * method throws a MalformedInputException.
     */
    public static String decode(byte[] utf8, int start, int length, boolean replace) throws CharacterCodingException {
        return decode(ByteBuffer.wrap(utf8, start, length), replace);
    }

    private static String decode(ByteBuffer utf8, boolean replace) throws CharacterCodingException {
        CharsetDecoder decoder = DECODER_FACTORY.get();
        if (replace) {
            decoder.onMalformedInput(java.nio.charset.CodingErrorAction.REPLACE);
            decoder.onUnmappableCharacter(CodingErrorAction.REPLACE);
        }
        String str = decoder.decode(utf8).toString();
        // set decoder back to its default value: REPORT
        if (replace) {
            decoder.onMalformedInput(CodingErrorAction.REPORT);
            decoder.onUnmappableCharacter(CodingErrorAction.REPORT);
        }
        return str;
    }

    /**
     * Converts the provided String to bytes using the
     * UTF-8 encoding. If the input is malformed,
     * invalid chars are replaced by a default value.
     * @return ByteBuffer: bytes stores at ByteBuffer.array()
     *                     and length is ByteBuffer.limit()
     */

    public static ByteBuffer encode(String string) throws CharacterCodingException {
        return encode(string, true);
    }

    /**
     * Converts the provided String to bytes using the
     * UTF-8 encoding. If <code>replace</code> is true, then
     * malformed input is replaced with the
     * substitution character, which is U+FFFD. Otherwise the
     * method throws a MalformedInputException.
     * @return ByteBuffer: bytes stores at ByteBuffer.array()
     *                     and length is ByteBuffer.limit()
     */
    public static ByteBuffer encode(String string, boolean replace) throws CharacterCodingException {
        CharsetEncoder encoder = ENCODER_FACTORY.get();
        if (replace) {
            encoder.onMalformedInput(CodingErrorAction.REPLACE);
            encoder.onUnmappableCharacter(CodingErrorAction.REPLACE);
        }
        ByteBuffer bytes = encoder.encode(CharBuffer.wrap(string.toCharArray()));
        if (replace) {
            encoder.onMalformedInput(CodingErrorAction.REPORT);
            encoder.onUnmappableCharacter(CodingErrorAction.REPORT);
        }
        return bytes;
    }

    /** Read a UTF8 encoded string from in
     */
    public static String readString(DataInput in) throws IOException {
        int length = WritableUtils.readVInt(in);
        byte[] bytes = new byte[length];
        in.readFully(bytes, 0, length);
        return decode(bytes);
    }

    /** Write a UTF8 encoded string to out
     */
    public static int writeString(DataOutput out, String s) throws IOException {
        ByteBuffer bytes = encode(s);
        int length = bytes.limit();
        WritableUtils.writeVInt(out, length);
        out.write(bytes.array(), 0, length);
        return length;
    }

    ////// states for validateUTF8

    private static final int LEAD_BYTE = 0;

    private static final int TRAIL_BYTE_1 = 1;

    private static final int TRAIL_BYTE = 2;

    /**
     * Check if a byte array contains valid utf-8
     * @param utf8 byte array
     * @throws MalformedInputException if the byte array contains invalid utf-8
     */
    public static void validateUTF8(byte[] utf8) throws MalformedInputException {
        validateUTF8(utf8, 0, utf8.length);
    }

    /**
     * Check to see if a byte array is valid utf-8
     * @param utf8 the array of bytes
     * @param start the offset of the first byte in the array
     * @param len the length of the byte sequence
     * @throws MalformedInputException if the byte array contains invalid bytes
     */
    public static void validateUTF8(byte[] utf8, int start, int len) throws MalformedInputException {
        int count = start;
        int leadByte = 0;
        int length = 0;
        int state = LEAD_BYTE;
        while (count < start + len) {
            int aByte = ((int) utf8[count] & 0xFF);

            switch (state) {
                case LEAD_BYTE:
                    leadByte = aByte;
                    length = bytesFromUTF8[aByte];

                    switch (length) {
                        case 0: // check for ASCII
                            if (leadByte > 0x7F)
                                throw new MalformedInputException(count);
                            break;
                        case 1:
                            if (leadByte < 0xC2 || leadByte > 0xDF)
                                throw new MalformedInputException(count);
                            state = TRAIL_BYTE_1;
                            break;
                        case 2:
                            if (leadByte < 0xE0 || leadByte > 0xEF)
                                throw new MalformedInputException(count);
                            state = TRAIL_BYTE_1;
                            break;
                        case 3:
                            if (leadByte < 0xF0 || leadByte > 0xF4)
                                throw new MalformedInputException(count);
                            state = TRAIL_BYTE_1;
                            break;
                        default:
                            // too long! Longest valid UTF-8 is 4 bytes (lead + three)
                            // or if < 0 we got a trail byte in the lead byte position
                            throw new MalformedInputException(count);
                    } // switch (length)
                    break;

                case TRAIL_BYTE_1:
                    if (leadByte == 0xF0 && aByte < 0x90)
                        throw new MalformedInputException(count);
                    if (leadByte == 0xF4 && aByte > 0x8F)
                        throw new MalformedInputException(count);
                    if (leadByte == 0xE0 && aByte < 0xA0)
                        throw new MalformedInputException(count);
                    if (leadByte == 0xED && aByte > 0x9F)
                        throw new MalformedInputException(count);
                    // falls through to regular trail-byte test!!
                case TRAIL_BYTE:
                    if (aByte < 0x80 || aByte > 0xBF)
                        throw new MalformedInputException(count);
                    if (--length == 0) {
                        state = LEAD_BYTE;
                    } else {
                        state = TRAIL_BYTE;
                    }
                    break;
            } // switch (state)
            count++;
        }
    }

    /**
     * Magic numbers for UTF-8. These are the number of bytes
     * that <em>follow</em> a given lead byte. Trailing bytes
     * have the value -1. The values 4 and 5 are presented in
     * this table, even though valid UTF-8 cannot include the
     * five and six byte sequences.
     */
    static final int[] bytesFromUTF8 = {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                    0, 0,
                    // trail bytes
                    -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
                    -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
                    -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
                    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
                    3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5};

    /**
     * Returns the next code point at the current position in
     * the buffer. The buffer's position will be incremented.
     * Any mark set on this buffer will be changed by this method!
     */
    public static int bytesToCodePoint(ByteBuffer bytes) {
        bytes.mark();
        byte b = bytes.get();
        bytes.reset();
        int extraBytesToRead = bytesFromUTF8[(b & 0xFF)];
        if (extraBytesToRead < 0)
            return -1; // trailing byte!
        int ch = 0;

        switch (extraBytesToRead) {
            case 5:
                ch += (bytes.get() & 0xFF);
                ch <<= 6; /* remember, illegal UTF-8 */
            case 4:
                ch += (bytes.get() & 0xFF);
                ch <<= 6; /* remember, illegal UTF-8 */
            case 3:
                ch += (bytes.get() & 0xFF);
                ch <<= 6;
            case 2:
                ch += (bytes.get() & 0xFF);
                ch <<= 6;
            case 1:
                ch += (bytes.get() & 0xFF);
                ch <<= 6;
            case 0:
                ch += (bytes.get() & 0xFF);
        }
        ch -= offsetsFromUTF8[extraBytesToRead];

        return ch;
    }


    static final int offsetsFromUTF8[] = {0x00000000, 0x00003080, 0x000E2080, 0x03C82080, 0xFA082080, 0x82082080};

    /**
     * For the given string, returns the number of UTF-8 bytes
     * required to encode the string.
     * @param string text to encode
     * @return number of UTF-8 bytes required to encode
     */
    public static int utf8Length(String string) {
        CharacterIterator iter = new StringCharacterIterator(string);
        char ch = iter.first();
        int size = 0;
        while (ch != CharacterIterator.DONE) {
            if ((ch >= 0xD800) && (ch < 0xDC00)) {
                // surrogate pair?
                char trail = iter.next();
                if ((trail > 0xDBFF) && (trail < 0xE000)) {
                    // valid pair
                    size += 4;
                } else {
                    // invalid pair
                    size += 3;
                    iter.previous(); // rewind one
                }
            } else if (ch < 0x80) {
                size++;
            } else if (ch < 0x800) {
                size += 2;
            } else {
                // ch < 0x10000, that is, the largest char value
                size += 3;
            }
            ch = iter.next();
        }
        return size;
    }


    @Override
    public double toDouble() {
        if(toString().startsWith("0x"))
            return Long.decode(toString());

        return Double.parseDouble(toString());
    }

    @Override
    public float toFloat() {
        if(toString().startsWith("0x"))
            return Integer.decode(toString());
        return Float.parseFloat(toString());
    }

    @Override
    public int toInt() {
        if(toString().startsWith("0x"))
            return Integer.decode(toString());

        return Integer.parseInt(toString());
    }

    @Override
    public long toLong() {
        if(toString().startsWith("0x"))
            return Long.decode(toString());

        return Long.parseLong(toString());
    }

    @Override
    public WritableType getType() {
        return WritableType.Text;
    }
}