java source code of IndexRUtil

indexr-master
- indexr-segment
  - src
    - main
      - cpp
        bh
        compress
        JavaCompress.h
      - java
        io
        indexr
        compress
        ArthmeticCoder.java
        bh
        BHCompressor.java
        segment
        PackRSIndexNum.java
        ColumnType.java
        index
        RSIndex_CMap.java
        RSIndex_Str_Invalid.java
        ExtIndex_Str_Hash.java
        RSIndex_Histogram.java
        RSIndex_Histogram_V2.java
        ExtIndex_SimpleBits.java
        OuterIndex_Invalid.java
        RSIndex_CMap_V2.java
        storage
        CachedSegment.java
        StorageInfoSegment.java
        DPRowSpliterator.java
        DPSegment.java
        VersionAdapter_Basic.java
        VersionAdapter.java
        ColumnNode.java
        Version.java
        UpdateColSchema.java
        itg
        SegmentMeta.java
        ColumnMeta.java
        IntegrateV1.java
        IntegratedColumn.java
        OuterIndexMeta.java
        Integrate.java
        IntegratedSegment.java
        IntegrateV2.java
        ColumnNodeMeta.java
        UpdateColSegment.java
        SortedSegmentGenerator.java
        DPColumn.java
        PackBundle.java
        StorageColumn.java
        OpenOption.java
        StorageSegment.java
        PackDurationStat.java
        PackRSIndexStr.java
        SegmentPool.java
        PackRSIndex.java
        OuterIndex.java
        RSIndexNum.java
        RSIndex.java
        PackExtIndex.java
        rt
        UTF8JsonRowCreator.java
        RTSGroup.java
        RealtimeHelper.java
        RTResources.java
        EventIgnoreStrategy.java
        Metric.java
        SortedMergeUTF8RowItr.java
        RealtimeIndex.java
        TagSetting.java
        CommitLogFetcher.java
        Fetcher.java
        RTSGroupInfo.java
        IngestThread.java
        AggType.java
        SegmentFdRowIterator.java
        AggSchema.java
        RealtimeSegment.java
        UTF8Row.java
        RealtimeSetting.java
        RTSMerge.java
        RealtimeTable.java
        InfoSegment.java
        SegmentUploader.java
        query
        SegmentRelation.java
        SegmentSelectHelper.java
        SegmentScan.java
        ColumnSchema.java
        helper
        SegmentAssigner.java
        SimpleRow.java
        SingleWork.java
        SegmentOpener.java
        RangeWork.java
        RSValue.java
        RowTraversal.java
        Row.java
        SegmentLocality.java
        Segment.java
        RSIndexStr.java
        Column.java
        SQLType.java
        cache
        ExtIndexExpiredMemCache.java
        CachedByteSlice.java
        ExtIndexMemCache.java
        MemCache.java
        IndexExpiredMemCache.java
        PackMemCache.java
        PackExpiredMemCache.java
        ExpiredMemCache.java
        DpnCache.java
        IndexMemCache.java
        SystemConfig.java
        SegmentMode.java
        pack
        DataPackType.java
        DataPackNode.java
        DataPackNode_Basic.java
        NumType.java
        DataPack.java
        DataHasher.java
        DataPackCreator_Basic.java
        VirtualDataPack.java
        NumOp.java
        PackCompressor.java
        rc
        LogicalOperator.java
        NotIn.java
        NotBetween.java
        GreaterEqual.java
        Less.java
        LessEqual.java
        ColCmpVal.java
        Or.java
        RCHelper.java
        Not.java
        NotEqual.java
        UnknownOperator.java
        Attr.java
        And.java
        Like.java
        NotLike.java
        In.java
        RCOperator.java
        Equal.java
        CmpOperator.java
        Between.java
        RoughCheck_R.java
        Greater.java
        RoughCheck_N.java
        DPValues.java
        SegmentSchema.java
        SegmentFd.java
        SegmentManager.java
      - jnaerator
        config.jnaerator
    - test
      - resources
        log4j.xml
      - java
        io
        indexr
        compress
        bh
        BHCompressTest.java
        ArithmeticCoderTest.java
        segment
        index
        RSIndexTest.java
        storage
        DPSegmentTest.java
        SortedSegmentGeneratorTest.java
        itg
        IntegratedTest.java
        TestRows.java
        rt
        UTF8RowTest.java
        query
        SegmentScanTest.java
        helper
        SimpleRowTest.java
        pack
        DataPackTest.java
        rc
        RCTest.java
    - benchmark
      - java
        test
        LoopyBenchmarks.java
        Cast.java
        Memory.java
        StopThread.java
        io
        indexr
        JNABenchmark.java
        compress
        bh
        BHCompressBenchmark.java
        util
        WildcardBenchmark.java
        segment
        pack
        SegmentBenchmark.java
        BufferSliceBenchmark.java
  - script
    - run_benchmarks_class.sh
    - build_java.sh
    - run_benchmarks.sh
  - pom.xml
  - config
    - log4j.xml
- indexr-hive
  - src
    - main
      - java
        io
        indexr
        hive
        SchemaWritable.java
        ArrayWritableObjectInspector.java
        IndexROutputFormat.java
        SegmentHelper.java
        IndexRSerde.java
        Config.java
        IndexRRecordReader.java
        IndexRInputFormat.java
        IndexRRecordWriter.java
    - test
      - java
        io
        indexr
        hive
        HiveDateTimeTest.java
  - script
    - release.sh
    - build.sh
  - pom.xml
- indexr-query-opt
  - src
    - main
      - antlr4
        io
        indexr
        query
        parsers
        RQL.g4
      - java
        io
        indexr
        query
        sql
        IndexRQL.java
        AstListener.java
        IndexRQLParseError.java
        TreeNode.java
        TaskMetrics.java
        AnalysisException.java
        Resolver.java
        IndexRStrategies.java
        expr
        Evaluable.java
        TypeCheckResult.java
        Cast.java
        project
        UnsafeProjection.java
        Projection.java
        InterpretedMutableProjection.java
        MutableProjection.java
        Greatest.java
        agg
        AggregateMode.java
        Min.java
        AggregateExpression.java
        AggregateFunction.java
        Max.java
        Count.java
        Sum.java
        Average.java
        If.java
        SortOrder.java
        InterpretedPredicate.java
        UnaryExpression.java
        Least.java
        Literal.java
        BinaryExpression.java
        predicate
        EqualTo.java
        Or.java
        Not.java
        NotEqual.java
        BinaryPredicate.java
        And.java
        In.java
        LessThan.java
        GreaterThan.java
        LessThanOrEqual.java
        Predicate.java
        GreaterThanOrEqual.java
        InSet.java
        arith
        Add.java
        BinaryArithmetic.java
        Remainder.java
        BitwiseOr.java
        BitwiseXor.java
        BitwiseAnd.java
        Divide.java
        Multiply.java
        BitwiseNot.java
        Subtract.java
        Expression.java
        attr
        UnresolvedAttribute.java
        Star.java
        PrettyAttribute.java
        UnresolvedAlias.java
        BoundReference.java
        Attribute.java
        Alias.java
        NamedExpression.java
        AttributeReference.java
        QueryContext.java
        TaskContextImpl.java
        Utils.java
        Rule.java
        Analyzer.java
        plan
        QueryPlan.java
        logical
        LPBinaryNode.java
        Limit.java
        Aggregate.java
        Filter.java
        Sort.java
        Project.java
        LogicalPlan.java
        NoOp.java
        OneRowRelation.java
        UnresolvedRelation.java
        LPUnaryNode.java
        LPLeafNode.java
        physical
        Limit.java
        Filter.java
        PPUnaryNode.java
        Sort.java
        LocalTableScan.java
        Project.java
        PPLeafNode.java
        PPBinaryNode.java
        PhysicalPlan.java
        TungstenAggregate.java
        RuleExecutor.java
        fn
        One.java
        Strategy.java
        util
        BaseOrdering.java
        InterpretedOrdering.java
        SortPrefixUtils.java
        Optimizer.java
        Catalog.java
        types
        DataType.java
        TypeConverters.java
        AbstractDataType.java
        TypeHelper.java
        UniformComparator.java
        QueryExecution.java
        row
        MutableRow.java
        UnsafeRow.java
        GenericMutableRow.java
        JoinedRow.java
        InternalRow.java
        SpecializedGetters.java
        BasicPlanner.java
        TreeNodeException.java
        CheckAnalysis.java
        UnresolvedException.java
        QueryPlanner.java
        TaskContext.java
        org
        apache
        spark
        sql
        types
        Metadata.java
        StructField.java
        StructType.java
        execution
        UnsafeFixedWidthAggregationMap.java
        UnsafeExternalRowSorter.java
        UnsafeKeyValueSorter.java
        UnsafeKVExternalSorter.java
        aggregate
        TungstenAggregationIterator.java
        AggregationIterator.java
        unsafe
        map
        BytesToBytesMap.java
        HashMapGrowthStrategy.java
        executor
        TaskMetrics.java
        OutputMetrics.java
        InputMetrics.java
        ShuffleWriteMetrics.java
        DataReadMethod.java
        ShuffleReadMetrics.java
        DataWriteMethod.java
        util
        Utils.java
        JavaUtils.java
        ByteUnit.java
        collection
        unsafe
        sort
        UnsafeSorterIterator.java
        PrefixComparator.java
        RecordPointerAndKeyPrefix.java
        UnsafeInMemorySorter.java
        UnsafeSorterSpillWriter.java
        UnsafeSorterSpillReader.java
        UnsafeExternalSorter.java
        RecordComparator.java
        UnsafeSortDataFormat.java
        UnsafeSorterSpillMerger.java
        PrefixComparators.java
        TimSort.java
        Sorter.java
        SortDataFormat.java
        memory
        MemoryMode.java
        MemoryManager.java
        MemoryConsumer.java
        TaskMemoryManager.java
  - script
    - rqlprofile.sh
    - build_query.sh
  - pom.xml
- script
  - env.sh
  - setup_all.sh
  - release_indexr-tool.sh
  - compile_indexr-query-opt.sh
  - compile_indexr-server.sh
  - release_artifact.sh
  - release_all.sh
  - compile_indexr-spark.sh
  - release_indexr-drill.sh
  - setup_lib.sh
  - setup_indexr-segment.sh
  - release_indexr-spark.sh
  - compile_indexr-hive.sh
  - compile_indexr-segment.sh
  - release_lib.sh
  - release_indexr-hive.sh
- indexr-server
  - src
    - main
      - java
        io
        indexr
        tool
        Rt2His.java
        CSVSegmentExporter.java
        UpdateColumnJob.java
        Tools.java
        FragmentMerger.java
        CSVSegmentLoader.java
        server
        ServerHelper.java
        ZkHelper.java
        FileSegmentManager.java
        rt
        RealtimeSegmentPool.java
        RealtimeConfig.java
        fetcher
        CsvFetcher.java
        TestFetcher.java
        Kafka08Fetcher.java
        ConsoleFetcher.java
        rt2his
        HiveHelper.java
        Rt2HisOnHive.java
        SegmentHelper.java
        TableSchema.java
        ZkTableManager.java
        TablePool.java
        HybridTable.java
        IndexRNode.java
        FileSegmentPool.java
        IndexRConfig.java
        IndexRNodeTest.java
        ZkWatcher.java
  - script
    - build_java.sh
  - pom.xml
  - config
    - log4j.xml
    - indexr.config.properties
- indexr-common
  - src
    - main
      - java
        io
        indexr
        plugin
        Plugins.java
        InitPlugin.java
        util
        CombinedBlockingIterator.java
        DateTimeUtil.java
        SQLLike.java
        RuntimeUtil.java
        FilterIterator.java
        AutoArray.java
        DemotedIterator.java
        DemotedList.java
        function
        PartialFunction.java
        MatchError.java
        PartialFunctions.java
        GlobalExecSrv.java
        ObjectSaver.java
        ArrayUtil.java
        InstanceTypeAssigner.java
        BitUtil.java
        PairList.java
        UniqueHasher.java
        FastMath.java
        ExtraStringUtil.java
        BitMap.java
        ByteArrayWrapper.java
        OffsetFileChannel.java
        PropertiesUtils.java
        DirectBitMap.java
        Serializable.java
        UTF8Util.java
        UTF8JsonDeserializer.java
        Wrapper.java
        Holder.java
        Lazily.java
        DirectBitMapIterator.java
        UTF16Util.java
        Reflection.java
        JsonUtil.java
        Hasher32.java
        BytesUtil.java
        IOUtil.java
        MemoryUtil.java
        Triple.java
        WeakList.java
        Trick.java
        ReferenceList.java
        DelayTask.java
        Wildcard.java
        DelayRepeatTask.java
        ObjectLoader.java
        Pair.java
        LocalKeyValue.java
        GenericCompression.java
        Strings.java
        BinarySearch.java
        BitMatrix.java
        Try.java
        ByteBufferUtil.java
        data
        ValueSetter.java
        BytePieceSetter.java
        DataType.java
        OffheapBytes.java
        BytePiece.java
        Cleanable.java
        DoubleSetter.java
        StringsStructOnByteBufferReader.java
        LikePattern.java
        Sizable.java
        FloatSetter.java
        ByteArraySetter.java
        DictStruct.java
        IntSetter.java
        LongSetter.java
        StringsStruct.java
        Freeable.java
        io
        BitInputStream.java
        BitWrappedInputStream.java
        OpenOnReadBBR.java
        DFSByteBufferReader.java
        ByteBufferWriter.java
        BitOutputStream.java
        BitWrappedOutputStream.java
        ByteSlice.java
        ByteBufferReader.java
    - test
      - resources
        log4j.xml
      - java
        io
        indexr
        plugin
        PluginTest.java
        util
        HasherTest.java
        SQLLikeTest.java
        function
        PartialFunctionTest.java
        CombinedBlockingIteratorTest.java
        WildcardTest.java
        BytesUtilTest.java
        InstanceTypeAssignerTest.java
        GenericCompressionTest.java
        UTF8UtilTest.java
        DateTimeUtilTest.java
        ReflectionTest.java
        UTF8JsonDeserializerTest.java
        LocalKeyValueTest.java
  - pom.xml
- images
  - ecosystem.jpg
  - deploy.jpg
- indexr-tool
  - example
    - example_schema.json
  - bin
    - csv_exporter.sh
    - csv_loader.sh
    - rt2his.sh
    - run_class.sh
    - upcol.sh
    - tools.sh
  - conf
    - env.sh
    - log4j.xml
    - indexr.config.properties
- pom.xml
- LICENSE
- indexr_code_style_idea.xml
- README.md
- indexr-codegen
  - src
    - main
      - java
        io
        indexr
        vlt
        codec
        pack
        PackingClassGen.java
  - pom.xml
- indexr-spark
  - src
    - main
      - java
        org
        apache
        spark
        sql
        execution
        datasources
        indexr
        SparkFilter.java
        SegmentHelper.java
        Config.java
        HackColumnVector.java
        IndexRRecordReader.java
        IndexRUtil.java
        IndexROutputWriter.java
        DefaultPackReader.java
        PackReader.java
        IndexRFileFormat.scala
  - pom.xml
- .gitignore
- indexr-vlt-segment
  - src
    - main
      - java
        io
        indexr
        plugin
        VLTPlugin.java
        vlt
        codec
        UnsafeUtil.java
        Encoding.java
        DecoderItf.java
        Codec.java
        Encoder.java
        plain
        PlainCodec.java
        EncoderItf.java
        Decoder.java
        delta
        DeltaCodec.java
        dict
        BitmapSede.java
        DictStructUtil.java
        DictCompressCodec.java
        SimpleDictCodec.java
        DictCodec.java
        ErrorCode.java
        pack
        IntPackerFactory.java
        PackingUtil.java
        IntPacker.java
        LongPacker.java
        LongPackerFactory.java
        CodecType.java
        rle
        RLEPackingHybridCodec.java
        VarInteger.java
        segment
        VersionAdapter_VLT.java
        index
        MergeBitMapUtil.java
        DictMerge.java
        OuterIndex_Inverted.java
        ExtIndex_DictBits.java
        pack
        PackCompressor_VLT.java
        DataPackNode_VLT.java
        DataPackCreator_VLT.java
    - test
      - resources
        log4j.xml
      - java
        io
        indexr
        vlt
        codec
        delta
        DeltaCodecTest.java
        dict
        DictCodecTest.java
        pack
        PackingTest.java
        rle
        RLEPackingHybridCodecTest.java
        segment
        index
        DictMergeTest.java
        storage
        DPSegmentTest_VLT.java
        SortedSegmentGeneratorTest_VLT.java
        itg
        IntegratedTest_VLT.java
  - pom.xml

package org.apache.spark.sql.execution.datasources.indexr;

import com.google.common.base.Preconditions;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.DateType;
import org.apache.spark.sql.types.DoubleType;
import org.apache.spark.sql.types.FloatType;
import org.apache.spark.sql.types.IntegerType;
import org.apache.spark.sql.types.LongType;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StringType;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.TimestampType;

import java.io.Serializable;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;

import io.indexr.io.ByteBufferReader;
import io.indexr.segment.ColumnSchema;
import io.indexr.segment.SQLType;
import io.indexr.segment.SegmentMode;
import io.indexr.segment.SegmentSchema;
import io.indexr.segment.rt.AggSchema;
import io.indexr.segment.rt.Metric;
import io.indexr.segment.rt.RealtimeHelper;
import io.indexr.segment.storage.itg.IntegratedSegment;
import io.indexr.util.Strings;
import io.indexr.util.Trick;

public class IndexRUtil {
    public static class SchemaStruct implements Serializable {
        private static final long serialVersionUID = 1L;

        public SegmentSchema schema;
        public String mode;
        public AggSchema aggSchema;

        public SchemaStruct(SegmentSchema schema, SegmentMode mode, AggSchema aggSchema) {
            this.schema = schema;
            this.mode = mode.name();
            this.aggSchema = aggSchema;
        }
    }

    @FunctionalInterface
    public static interface IsIndexed {
        boolean apply(String name);
    }

    public static SchemaStruct getSchemaStruct(List<StructField> sparkSchema, Map<String, String> options) {
        String modeStr = options.getOrDefault(Config.KEY_SEGMENT_MODE, "");
        String indexColumnsStr = options.getOrDefault(Config.KEY_INDEX_COLUMNS, "");
        String sortColumnsStr = options.getOrDefault(Config.KEY_SORT_COLUMNS, "");
        String aggGroupingStr = options.getOrDefault(Config.KEY_AGG_GROUPING, "false");
        String aggDimsStr = options.getOrDefault(Config.KEY_AGG_DIMS, "");
        String aggMetricsStr = options.getOrDefault(Config.KEY_AGG_METRICS, "");

        SegmentMode mode = SegmentMode.fromName(modeStr);

        Set<String> indexColumns = new HashSet<>();
        if (!Strings.isEmpty(indexColumnsStr)) {
            for (String s : indexColumnsStr.trim().split(",")) {
                indexColumns.add(s.trim().toLowerCase());
            }
        }

        SegmentSchema schema = sparkSchemaToIndexRSchema(sparkSchema, n -> indexColumns.contains(n.toLowerCase()));

        boolean grouping = Boolean.parseBoolean(aggGroupingStr.trim());
        List<String> sortColumns = Trick.split(sortColumnsStr, ",", String::trim);
        List<String> dims = Trick.split(aggDimsStr, ",", String::trim);
        if (dims.isEmpty()) {
            dims = sortColumns;
        }
        List<Metric> metrics = Trick.split(aggMetricsStr, ",", s -> {
            String[] ss = s.trim().split(":", 2);
            return new Metric(ss[0].trim(), ss[1].trim());
        });
        AggSchema aggSchema = new AggSchema(
                grouping,
                dims,
                metrics);

        String error = RealtimeHelper.validateSetting(schema.columns, dims, metrics, grouping);
        Preconditions.checkState(error == null, error);

        return new SchemaStruct(schema, mode, aggSchema);
    }

    public static SegmentSchema sparkSchemaToIndexRSchema(List<StructField> sparkSchema) {
        return sparkSchemaToIndexRSchema(sparkSchema, a -> false);
    }

    public static SegmentSchema sparkSchemaToIndexRSchema(List<StructField> sparkSchema, IsIndexed isIndexed) {
        List<ColumnSchema> columns = new ArrayList<>();
        for (StructField f : sparkSchema) {
            SQLType type;
            if (f.dataType() instanceof IntegerType) {
                type = SQLType.INT;
            } else if (f.dataType() instanceof LongType) {
                type = SQLType.BIGINT;
            } else if (f.dataType() instanceof FloatType) {
                type = SQLType.FLOAT;
            } else if (f.dataType() instanceof DoubleType) {
                type = SQLType.DOUBLE;
            } else if (f.dataType() instanceof StringType) {
                type = SQLType.VARCHAR;
            } else if (f.dataType() instanceof DateType) {
                type = SQLType.DATE;
            } else if (f.dataType() instanceof TimestampType) {
                type = SQLType.DATETIME;
            } else {
                throw new IllegalStateException("Unsupported type: " + f.dataType());
            }
            columns.add(new ColumnSchema(f.name(), type, isIndexed.apply(f.name())));
        }
        return new SegmentSchema(columns);
    }

    public static List<StructField> indexrSchemaToSparkSchema(SegmentSchema schema) {
        List<StructField> fields = new ArrayList<>();
        for (ColumnSchema cs : schema.getColumns()) {
            DataType dataType;
            switch (cs.getSqlType()) {
                case INT:
                    dataType = DataTypes.IntegerType;
                    break;
                case BIGINT:
                    dataType = DataTypes.LongType;
                    break;
                case FLOAT:
                    dataType = DataTypes.FloatType;
                    break;
                case DOUBLE:
                    dataType = DataTypes.DoubleType;
                    break;
                case VARCHAR:
                    dataType = DataTypes.StringType;
                    break;
                case DATE:
                    dataType = DataTypes.DateType;
                    break;
                case DATETIME:
                    dataType = DataTypes.TimestampType;
                    break;
                default:
                    throw new IllegalStateException("Unsupported type: " + cs.getSqlType());
            }
            fields.add(new StructField(cs.getName(), dataType, scala.Boolean.box(false), Metadata.empty()));
        }
        return fields;
    }

    public static List<StructField> inferSchema(List<FileStatus> files, Configuration configuration) {
        try {
            for (FileStatus fileStatus : files) {
                Path path = fileStatus.getPath();
                if (!SegmentHelper.checkSegmentByPath(path)
                        || fileStatus.getLen() == 0) {
                    continue;
                }

                FileSystem fileSystem = path.getFileSystem(configuration);
                ByteBufferReader.Opener opener = ByteBufferReader.Opener.create(fileSystem, path);
                IntegratedSegment.Fd fd = IntegratedSegment.Fd.create(path.toString(), opener);
                if (fd != null) {
                    return indexrSchemaToSparkSchema(fd.info().schema());
                }
            }
            return null;
        } catch (Exception e) {
            throw new RuntimeException(e);
        }
    }


}