tispark-master
- .github
  - pull_request_template.md
  - ISSUE_TEMPLATE
    - feature_request.md
    - bug_report.md
- tikv-client
  - BUILD
  - src
    - main
      - java
        com
        pingcap
        tikv
        catalog
        Catalog.java
        CatalogTransaction.java
        BUILD
        statistics
        ColumnStatistics.java
        CMSketch.java
        Histogram.java
        Bucket.java
        TableStatistics.java
        IndexStatistics.java
        ByteWrapper.java
        KVClient.java
        TiSession.java
        codec
        KeyUtils.java
        CodecDataInputLittleEndian.java
        TableCodec.java
        CodecDataInput.java
        Codec.java
        CodecDataOutputLittleEndian.java
        MetaCodec.java
        MyDecimal.java
        RowDecoderV2.java
        RowEncoderV2.java
        CodecDataOutput.java
        TableCodecV2.java
        TableCodecV1.java
        RowV2.java
        PDClient.java
        ReadOnlyPDClient.java
        TwoPhaseCommitter.java
        policy
        RetryPolicy.java
        RetryMaxMs.java
        Snapshot.java
        ExtendedDateTime.java
        TiDBJDBCClient.java
        streaming
        StreamingResponse.java
        util
        KeyRangeUtils.java
        FutureObserver.java
        JsonUtils.java
        CHTypeMapping.java
        RangeSplitter.java
        BackOffer.java
        Timer.java
        FastByteComparisons.java
        MemoryUtil.java
        ConcreteBackOffer.java
        BackOffFunction.java
        Pair.java
        TsoUtils.java
        ChannelFactory.java
        pd
        PDUtils.java
        PDError.java
        predicates
        TiKVScanAnalyzer.java
        SelectivityCalculator.java
        ScanSpec.java
        IndexRange.java
        PredicateUtils.java
        Main.java
        exception
        TypeException.java
        LockException.java
        InvalidCodecFormatException.java
        WriteConflictException.java
        UnsupportedTypeException.java
        TxnNotFoundException.java
        TiExpressionException.java
        CodecException.java
        TiInternalException.java
        TiBatchWriteException.java
        ConvertNotSupportException.java
        UnsupportedPartitionExprException.java
        RegionException.java
        SelectException.java
        TiClientInternalException.java
        RegionTaskException.java
        CastingException.java
        KeyException.java
        DAGRequestException.java
        ConvertOverflowException.java
        TiKVException.java
        UnsupportedSyntaxException.java
        IgnoreUnsupportedTypeException.java
        GrpcException.java
        AbstractGRPCClient.java
        TiBatchWriteUtils.java
        region
        RegionErrorReceiver.java
        AbstractRegionStoreClient.java
        TiStoreType.java
        RegionManager.java
        RegionStoreClient.java
        TiRegion.java
        event
        CacheInvalidateEvent.java
        types
        DateTimeType.java
        JsonType.java
        SetType.java
        DataType.java
        Charset.java
        MySQLType.java
        BitType.java
        Converter.java
        IntegerType.java
        DateType.java
        EnumType.java
        RealType.java
        DataTypeFactory.java
        DecimalType.java
        StringType.java
        AbstractDateTimeType.java
        TimeType.java
        TimestampType.java
        UninitializedType.java
        BytesType.java
        row
        RowReaderFactory.java
        ObjectRowImpl.java
        Row.java
        DefaultRowReader.java
        RowReader.java
        txn
        Lock.java
        TxnExpireTime.java
        TxnKVClient.java
        TxnStatus.java
        type
        ClientRPCResult.java
        BatchKeys.java
        GroupKeyResult.java
        LockResolverClientV3.java
        LockResolverClientV4.java
        LockResolverClientV2.java
        AbstractLockResolverClient.java
        ResolveLockResult.java
        Version.java
        operation
        KVErrorHandler.java
        NoopHandler.java
        iterator
        CoprocessorIterator.java
        IndexScanIterator.java
        ChunkIterator.java
        ConcreteScanIterator.java
        DAGIterator.java
        ScanIterator.java
        ErrorHandler.java
        SchemaInfer.java
        PDErrorHandler.java
        columnar
        TiCoreTime.java
        TiRowColumnVector.java
        TiColumnVector.java
        TiChunk.java
        BatchedTiChunkColumnVector.java
        datatypes
        CHType.java
        CHTypeNumber.java
        CHTypeMyDateTime.java
        CHTypeString.java
        CHTypeMyDate.java
        CHTypeDate.java
        CHTypeDecimal.java
        CHTypeDateTime.java
        AutoGrowByteBuffer.java
        CHTypeFixedString.java
        TiChunkColumnVector.java
        TiBlockColumnVector.java
        BytePairWrapper.java
        tools
        RegionUtils.java
        allocator
        RowIDAllocator.java
        StoreVersion.java
        meta
        TiViewInfo.java
        TiColumnInfo.java
        TiTimestamp.java
        TiTableInfo.java
        TiPartitionDef.java
        TiDAGRequest.java
        TiPartitionInfo.java
        Collation.java
        IndexType.java
        TiDBInfo.java
        TiIndexColumn.java
        TiPartitionExpr.java
        CIStr.java
        TiUserIdentity.java
        SchemaState.java
        TiIndexInfo.java
        TiFlashReplicaInfo.java
        expression
        LogicalBinaryExpression.java
        Constant.java
        Blocklist.java
        Visitor.java
        Not.java
        visitor
        MetaResolver.java
        IndexMatcher.java
        PseudoCostCalculator.java
        PrunedPartitionBuilder.java
        ProtoConverter.java
        DefaultVisitor.java
        IndexRangeSetBuilder.java
        RangeSetBuilder.java
        ColumnMatcher.java
        SupportedExpressionValidator.java
        PartAndFilterExprRewriter.java
        AggregateFunction.java
        TypeBlocklist.java
        StringRegExpression.java
        ExpressionBlocklist.java
        ByItem.java
        IsNull.java
        ComparisonBinaryExpression.java
        FuncCallExpr.java
        FuncCallExprEval.java
        ColumnRef.java
        RangeColumnPartitionPruner.java
        RangePartitionPruner.java
        ArithmeticBinaryExpression.java
        Expression.java
        PartitionPruner.java
        key
        TypedKey.java
        KeyRangeBuilder.java
        StatisticsKeyRangeBuilder.java
        IndexKey.java
        RowKey.java
        IndexScanKeyRangeBuilder.java
        CompoundKey.java
        Key.java
        parser
        TiParser.java
        MySqlParser.g4
        AstBuilder.java
        CaseChangingCharStream.java
        MySqlLexer.g4
        TTLManager.java
        TiConfiguration.java
    - test
      - resources
        log4j.properties
      - java
        com
        pingcap
        tikv
        rule.bzl
        catalog
        CatalogTransactionTest.java
        CatalogTest.java
        BUILD
        PDClientTest.java
        codec
        CodecTest.java
        TableCodecTest.java
        TableCodecV1Test.java
        MyDecimalTest.java
        KeyUtilsTest.java
        TableCodecV2Test.java
        KVMockServer.java
        TiConfigurationTest.java
        MockServerTest.java
        RegionManagerTest.java
        util
        RangeSplitterTest.java
        ReflectionWrapper.java
        predicates
        PredicateUtilsTest.java
        IndexMatcherTest.java
        TiKVScanAnalyzerTest.java
        types
        RealTypeTest.java
        DataTypeFactoryTest.java
        IntegerTypeTest.java
        DecimalTypeTest.java
        ConverterTest.java
        RegionStoreClientTest.java
        txn
        LockResolverSIV3OneRowTest.java
        LockResolverSIV4OneRowTest.java
        LockResolverTest.java
        LockResolverSIV4TwoRowTest.java
        LockResolverSITest.java
        LockResolverSIV3TwoRowTest.java
        PDMockServer.java
        operation
        ChunkIteratorTest.java
        iterator
        DAGIteratorTest.java
        SchemaInferTest.java
        GrpcUtils.java
        PDMockServerTest.java
        meta
        MetaUtils.java
        TiTableInfoTest.java
        TiDAGRequestTest.java
        DBInfoTest.java
        expression
        visitor
        PartAndFilterExprRewriterTest.java
        ComparisonBinaryExpressionTest.java
        key
        IndexKeyTest.java
        KeyTest.java
        CompoundKeyTest.java
        parser
        TiParserTest.java
  - Makefile
  - pom.xml
  - LICENSE
  - shading_rule
  - README.md
  - scripts
    - proto.sh
  - WORKSPACE
- docker-compose.yaml
- .ci
  - log4j-ci.properties
  - integration_test.groovy
  - tidb_config-for-daily-test.properties
  - build.groovy
  - tidb_config-for-tiflash-test.properties
- docker-compose-4.0.yaml
- pom.xml
- .gitmodules
- LICENSE
- config
  - tiflash-learner-daily-test.toml
  - tidb-4.0.toml
  - pd-4.0.toml
  - tikv-4.0.toml
  - tiflash-learner.toml
  - tidb.toml
  - pd.toml
  - hive-site.xml.template
  - tiflash-daily-test.toml
  - tikv.toml
  - tiflash.toml
- CHANGELOG.md
- dev
  - javafmt
  - README.md
  - .scalafmt.conf
  - intellij-java-google-style.xml
  - scalafmt
- python
  - resources
    - spark-2.3
      - session.py
  - README_spark2.1.md
  - README.md
- .travis.yml
- README.md
- core-test
  - src
    - KEEPME
  - pom.xml
- assembly
  - src
    - main
      - assembly
        assembly.xml
  - pom.xml
- core
  - src
    - main
      - resources
        log4j.properties.template
        META-INF
        services
        org.apache.spark.sql.sources.DataSourceRegister
      - scala
        com
        pingcap
        tispark
        statistics
        estimate
        TableSizeEstimator.scala
        StatisticsManager.scala
        StatisticsHelper.scala
        utils
        ReflectionUtil.scala
        TiUtil.scala
        examples
        OneJarTest.scala
        TiConfigConst.scala
        TiDBRelation.scala
        MetaManager.scala
        accumulator
        CacheInvalidateAccumulator.scala
        TiTableReference.scala
        DefaultSource.scala
        TiSparkInfo.scala
        write
        TiBatchWriteTable.scala
        TiDBWriter.scala
        TiBatchWrite.scala
        WrappedEncodedRow.scala
        EncodedKVPair.scala
        TiDBOptions.scala
        DBTable.scala
        TiRegionPartitioner.scala
        WrappedRow.scala
        SerializableKey.scala
        TiDBDataSource.scala
        handler
        CacheInvalidateEventHandler.scala
        listener
        PDCacheInvalidateListener.scala
        CacheInvalidateListener.scala
        TiPartition.scala
        TiDBUtils.scala
        org
        apache
        spark
        sql
        tispark
        TiHandleRDD.scala
        TiRowRDD.scala
        TiRDD.scala
        extensions
        parser.scala
        rules.scala
        catalyst
        catalog
        TiSessionCatalog.scala
        TiConcreteSessionCatalog.scala
        expressions
        BasicExpression.scala
        aggregate
        SpecialSum.scala
        ExprUtils.scala
        TiExtensions.scala
        TiStrategy.scala
        TiAggregation.scala
        execution
        TiConverter.scala
        CoprocessorRDD.scala
        command
        databases.scala
        TiCommand.scala
        tables.scala
        TiContext.scala
      - java
        com
        pingcap
        tikv
        datatype
        TypeMapping.java
        columnar
        TiColumnVectorAdapter.java
        TiColumnarBatchHelper.java
    - test
      - resources
        tpcds-sql
        q85.sql
        q93.sql
        q78.sql
        q23a.sql
        ss_max.sql
        q66.sql
        q47.sql
        q38.sql
        q37.sql
        q76.sql
        q12.sql
        q3.sql
        q36.sql
        q86.sql
        q99.sql
        q87.sql
        q53.sql
        q13.sql
        q64.sql
        q83.sql
        q20.sql
        q52.sql
        q6.sql
        q23b.sql
        q59.sql
        q84.sql
        q95.sql
        q19.sql
        q57.sql
        q11.sql
        q61.sql
        q55.sql
        q25.sql
        q82.sql
        q96.sql
        q90.sql
        q4.sql
        q5.sql
        q18.sql
        q94.sql
        q51.sql
        q67.sql
        q81.sql
        q92.sql
        q58.sql
        q77.sql
        q65.sql
        q24a.sql
        ss_maxb.sql
        q39a.sql
        q29.sql
        q54.sql
        q8.sql
        q39b.sql
        q79.sql
        q80.sql
        q56.sql
        q22.sql
        q62.sql
        q21.sql
        q46.sql
        q14b.sql
        q40.sql
        q28.sql
        q30.sql
        q14a.sql
        q10.sql
        q9.sql
        q44.sql
        q60.sql
        q7.sql
        q71.sql
        q26.sql
        q75.sql
        q41.sql
        q97.sql
        q98.sql
        q49.sql
        q33.sql
        q48.sql
        q16.sql
        q89.sql
        q32.sql
        q27.sql
        q15.sql
        q34.sql
        q24b.sql
        q63.sql
        q68.sql
        q2.sql
        q43.sql
        q50.sql
        q88.sql
        q31.sql
        q91.sql
        q35.sql
        q45.sql
        q69.sql
        q72.sql
        q74.sql
        q42.sql
        q73.sql
        q1.sql
        q17.sql
        q70.sql
        resolveLock-test
        1_give.sql
        ddl.sql
        1_account.sql
        2_get.sql
        sum_account.sql
        q2.sql
        q1.sql
        tpch-sql
        q12.sql
        q3.sql
        q13.sql
        q20.sql
        q6.sql
        q19.sql
        q11.sql
        q4.sql
        q5.sql
        q18.sql
        q8.sql
        q22.sql
        q21.sql
        q10.sql
        q9.sql
        q14.sql
        q7.sql
        q16.sql
        q15.sql
        q2.sql
        q1.sql
        q17.sql
        tidb_config.properties.template
        prefix-index
        UTF8Test.sql
        PrefixTest.sql
      - Readme.md
      - scala
        com
        pingcap
        tispark
        ttl
        LockTimeoutSuite.scala
        multitable
        MultiTableWriteSuite.scala
        index
        LineItemSuite.scala
        TiBatchWriteSuite.scala
        concurrency
        WriteDDLNotConflictSuite.scala
        WriteDDLConflictSuite.scala
        WriteReadSuite.scala
        WriteWriteConflictSuite.scala
        ConcurrencyTest.scala
        datatype
        BatchWriteDataTypeSuite.scala
        DecimalTypeSuite.scala
        BatchWriteIssueSuite.scala
        overflow
        SignedOverflowSuite.scala
        StringOverflowSuite.scala
        DateTimeOverflowSuite.scala
        EnumOverflowSuite.scala
        DateOverflowSuite.scala
        BitOverflowSuite.scala
        UnsignedOverflowSuite.scala
        BytesOverflowSuite.scala
        DecimalOverflowSuite.scala
        convert
        ToEnumSuite.scala
        ToTimestampSuite.scala
        ToDecimalSuite.scala
        ToBitSuite.scala
        ToRealSuite.scala
        ToSignedSuite.scala
        ToDateSuite.scala
        ToUnsignedSuite.scala
        ToStringSuite.scala
        ToBytesSuite.scala
        ToDateTimeSuite.scala
        datasource
        AddingIndexInsertSuite.scala
        BasicDataSourceSuite.scala
        InsertSuite.scala
        ColumnMappingSuite.scala
        ExceptionTestSuite.scala
        OnlyOnePkSuite.scala
        BasicSQLSuite.scala
        ShardRowIDBitsSuite.scala
        EdgeConditionSuite.scala
        AddingIndexReplaceSuite.scala
        TiSparkTypeSuite.scala
        CheckUnsupportedSuite.scala
        BaseDataSourceTest.scala
        RowIDAllocatorSuite.scala
        RegionSplitSuite.scala
        UpperCaseColumnNameSuite.scala
        FilterPushdownSuite.scala
        MissingParameterSuite.scala
        tablelock
        TableLockSuite.scala
        tiflash
        TiFlashSuite.scala
        org
        apache
        spark
        sql
        BaseTiSparkTest.scala
        statistics
        StatisticsManagerSuite.scala
        insertion
        EnumerateUniqueIndexDataTypeTestAction.scala
        EnumeratePKAndUniqueIndexDataTypeTestAction.scala
        EnumeratePKDataTypeTestAction.scala
        BatchWriteUniqueIndexSuite.scala
        BatchWritePKAndUniqueIndexSuite.scala
        BatchWritePkSuite.scala
        BaseEnumerateDataTypesTestSpec.scala
        catalyst
        catalog
        CatalogTestSuite.scala
        plans
        statistics
        StatisticsTestSuite.scala
        logical
        LogicalPlanTestSuite.scala
        BasePlanTest.scala
        BaseTestGenerationSpec.scala
        test
        TestSparkSession.scala
        TestConstants.scala
        Utils.scala
        SharedSQLContext.scala
        generator
        Schema.scala
        ColumnValueGenerator.scala
        GeneratorUtils.scala
        TestSQLGenerator.scala
        IndexColumn.scala
        Index.scala
        TestDataGenerator.scala
        DataType.scala
        Data.scala
        PartitionTableSuite.scala
        TiSparkTestSpec.scala
        MultipleSparkSessionTestSuite.scala
        types
        GenerateMultiColumnDataTypeTestAction.scala
        GenerateUnitDataTypeTestAction.scala
        UnitDataTypeTestSpec.scala
        DataTypeTestDir.scala
        DataTypeExampleTest.scala
        MultiColumnDataTypeSuite.scala
        SpecialTiDBTypeTestSuite.scala
        BaseMultiColumnDataTypeGenerator.scala
        pk
        MultiColumnPKDataTypeSuite26.scala
        MultiColumnPKDataTypeSuite25.scala
        MultiColumnPKDataTypeSuite10.scala
        MultiColumnPKDataTypeSuite14.scala
        MultiColumnPKDataTypeSuite04.scala
        MultiColumnPKDataTypeSuite28.scala
        MultiColumnPKDataTypeSuite16.scala
        MultiColumnPKDataTypeSuite30.scala
        MultiColumnPKDataTypeSuite32.scala
        MultiColumnPKDataTypeSuite23.scala
        MultiColumnPKDataTypeSuite20.scala
        MultiColumnPKDataTypeSuite24.scala
        MultiColumnPKDataTypeSuite34.scala
        MultiColumnPKDataTypeSuite07.scala
        MultiColumnPKDataTypeSuite33.scala
        MultiColumnPKDataTypeSuite02.scala
        MultiColumnPKDataTypeSuite35.scala
        MultiColumnPKDataTypeSuite06.scala
        MultiColumnPKDataTypeSuite11.scala
        MultiColumnPKDataTypeSuite29.scala
        MultiColumnPKDataTypeSuite21.scala
        MultiColumnPKDataTypeSuite13.scala
        MultiColumnPKDataTypeSuite12.scala
        MultiColumnPKDataTypeSuite27.scala
        MultiColumnPKDataTypeSuite19.scala
        MultiColumnPKDataTypeSuite18.scala
        MultiColumnPKDataTypeSuite09.scala
        GeneratePKDataTypeTestAction.scala
        MultiColumnPKDataTypeSuites.scala
        MultiColumnPKDataTypeSuite05.scala
        MultiColumnPKDataTypeSuite08.scala
        MultiColumnDataTypePKGenerator.scala
        MultiColumnPKDataTypeSuite17.scala
        MultiColumnPKDataTypeSuite31.scala
        MultiColumnPKDataTypeSuite03.scala
        DataTypePKGenerator.scala
        MultiColumnPKDataTypeSuite15.scala
        MultiColumnPKDataTypeSuite01.scala
        GenerateMultiColumnPKDataTypeTestAction.scala
        MultiColumnPKDataTypeSuite00.scala
        DataTypePKSuite.scala
        MultiColumnPKDataTypeSuite22.scala
        BaseDataTypeTest.scala
        RunMultiColumnDataTypeTestAction.scala
        BaseDataTypeGenerator.scala
        DataTypeNormalSuite.scala
        MultiColumnDataTypeTestSpec.scala
        RunUnitDataTypeTestAction.scala
        MultiColumnDataTypeTest.scala
        SparkDataTypeTestSuite.scala
        txn
        TxnTestSuite.scala
        TimezoneTestSuite.scala
        MysqlDataTypeSuite.scala
        BaseInitialOnceTest.scala
        OutputOffsetsSuite.scala
        IssueTestSuite.scala
        QueryTest.scala
        ViewTestSuite.scala
        TiDBMapDatabaseSuite.scala
        benchmark
        TPCHQuerySuite.scala
        TPCDSQuerySuite.scala
        expression
        PlaceHolderTest1Suite.scala
        Count0Suite.scala
        LikeTestSuite.scala
        Having0Suite.scala
        ArithmeticTest1Suite.scala
        Union0Suite.scala
        index
        Join0Suite.scala
        ComprehensiveSuite.scala
        PlaceHolder1Suite.scala
        PrefixIndexTestSuite.scala
        Between0Suite.scala
        Special0Suite.scala
        PlaceHolder0Suite.scala
        InTest0Suite.scala
        Aggregate0Suite.scala
        PlaceHolder2Suite.scala
        UnsignedTestSuite.scala
        CoveringIndex0Suite.scala
        OtherTestSuite.scala
        SimpleSelect0Suite.scala
        ArithmeticAgg0Suite.scala
        ArithmeticTest0Suite.scala
        Distinct0Suite.scala
        PlaceHolderTest0Suite.scala
        Between0Suite.scala
        PlaceHolderTest3Suite.scala
        LogicalAndOr0Suite.scala
        PlaceHolderTest2Suite.scala
        CartesianTypeTestCases1Suite.scala
        ComplexGroupBySuite.scala
        ComplexAggregateSuite.scala
        FirstLast0Suite.scala
        InTest0Suite.scala
        ArithmeticTest2Suite.scala
        Aggregate0Suite.scala
        CartesianTypeTestCases0Suite.scala
        CartesianTypeTestCases2Suite.scala
        AlterTableTestSuite.scala
        SharedSparkContext.scala
        SparkFunSuite.scala
  - pom.xml
  - scripts
    - fetch-test-data.sh
    - version.sh
    - DumpHiveMetastore.sql
- R
  - README.md
- .gitignore
- spark-wrapper
  - spark-2.3
    - src
      - main
        scala
        com
        pingcap
        tispark
        SparkWrapper.scala
        org
        apache
        spark
        sql
        catalyst
        catalog
        TiDirectExternalCatalog.scala
        TiCompositeSessionCatalog.scala
        TiAggregationImpl.scala
    - pom.xml
  - spark-2.4
    - src
      - main
        scala
        com
        pingcap
        tispark
        SparkWrapper.scala
        org
        apache
        spark
        sql
        catalyst
        catalog
        TiDirectExternalCatalog.scala
        TiCompositeSessionCatalog.scala
        TiAggregationImpl.scala
    - pom.xml
- docs
  - how_to_use_tidb_as_metastore_db.md
  - datasource_api_userguide.md
  - userguide.md
  - userguide_spark2.1.md

TiSpark

TiSpark is a thin layer built for running Apache Spark on top of TiDB/TiKV to answer complex OLAP queries. It enjoys the merits of both the Spark platform and the distributed clusters of TiKV while seamlessly integrated to TiDB, a distributed OLTP database, to provide one-stop Hybrid Transactional/Analytical Processing (HTAP) solutions for online transactions and analyses.

Quick start

Read the Quick Start.

Getting TiSpark

Currently, TiSpark 2.1.9 is the latest stable version, which is highly recommended. It is compatible with Spark 2.3.0+ and Spark 2.4.0+. It is also compatible with TiDB-2.x and TiDB-3.x.
- When using TiSpark 2.1.9 with Spark 2.3.0+, use version 2.1.9-spark_2.3 and follow the document.
- When using TiSpark 2.1.9 with Spark 2.4.0+, use version 2.1.9-spark_2.4 and follow the document.
TiSpark 1.2.1 is the latest stable version compatible with Spark 2.1.0+.
- When using TiSpark 1.2.1, follow the document for Spark 2.1.

You might also build from sources to try the new features on TiSpark master branch.

If you are using maven (recommended), add the following code to your pom.xml:

<dependencies>
    <dependency>
      <groupId>com.pingcap.tispark</groupId>
      <artifactId>tispark-core</artifactId>
      <version>2.1.9-spark_${spark.version}</version>
    </dependency>
</dependencies>

If you want to use TiSpark-2.3.x, please use the following configuration:

<dependencies>
    <dependency>
      <groupId>com.pingcap.tispark</groupId>
      <artifactId>tispark-assembly</artifactId>
      <version>2.3.0-rc</version>
    </dependency>
</dependencies>

For other build tools, visit https://search.maven.org/ and search with GroupId . This search also lists all the available modules of TiSpark including tikv-client.

How to build from sources

TiSpark now supports Spark 2.3.0+ or 2.4.0+. The earlier TiSpark versions for Spark 2.1.0+ only contain bug-fixes. After these versions, you can still get support for Spark 2.1 until TiSpark 1.2.1.

Currently java8 is the only choice to build TiSpark, run mvn -version to check.

git clone https://github.com/pingcap/tispark.git

To build all TiSpark modules from sources, run the following command under the TiSpark root directory:

mvn clean install -Dmaven.test.skip=true

To skip the tests that you do not need to run, add -Dmaven.test.skip=true.

How to choose TiSpark Version

Spark Version	Recommended TiSpark Version
Spark-2.4.x	TiSpark-2.3.0-rc、TiSpark-2.1.9
Spark-2.3.x	TiSpark-2.3.0-rc、TiSpark-2.1.9
Spark-2.2.x	TiSpark-1.2.1
Spark-2.1.x	TiSpark-1.2.1

Latest TiDB/TiKV/PD versions supported by TiSpark

TiSpark Version	Latest TiDB/TiKV/PD Version
< 1.2	v2.1.9
1.2.x	v2.1.x
2.1.x	v3.0.2
2.3.x	v4.0.x

Spark versions supported by TiSpark

Although TiSpark provides backward compatibility to TiDB, it only guarantees the restricted support for the earlier Spark versions to follow the latest DataSource API changes.

TiSpark Version	Spark Version
1.x	Spark v2.1.0+
2.0	Spark v2.3.0+
2.1.x	Spark v2.3.0+, Spark v2.4.0+
2.3.x	Spark v2.3.0+, Spark v2.4.0+

How to upgrade from Spark 2.1 to Spark 2.3/2.4

For the users of Spark 2.1 who wish to upgrade to the latest TiSpark version on Spark 2.3/2.4, download or install Spark 2.3+/2.4+ by following the instructions on Apache Spark Site and overwrite the old spark version in $SPARK_HOME.

Scala Version

TiSpark currently only supports scala-2.11.

TiSpark Architecture

The figure below show the architecture of TiSpark.

architecture

TiSpark integrates well with the Spark Catalyst Engine. It provides precise control of computing, which allows Spark to read data from TiKV efficiently. It also supports index seek, which significantly improves the performance of the point query execution.
It utilizes several strategies to push down computing to reduce the size of dataset handling by Spark SQL, which accelerates query execution. It also uses the TiDB built-in statistical information for the query plan optimization.
From the perspective of data integration, TiSpark + TiDB provides a solution that performs both transaction and analysis directly on the same platform without building and maintaining any ETLs. It simplifies the system architecture and reduces the cost of maintenance.
In addition, you can deploy and utilize the tools from the Spark ecosystem for further data processing and manipulation on TiDB. For example, using TiSpark for data analysis and ETL, retrieving data from TiKV as a data source for machine learning, generating reports from the scheduling system and so on.

TiSpark relies on the availability of TiKV clusters and PDs. You also need to set up and use the Spark clustering platform.

Most of the TiSpark logic is inside a thin layer, namely, the tikv-client library.

Quick Start

Before everything starts,

add spark.sql.extensions org.apache.spark.sql.TiExtensions in spark-defaults.conf.
ensure that spark.tispark.pd.addresses is set correctly.

From Spark-shell:

./bin/spark-shell --jars /wherever-it-is/tispark-${name_with_version}.jar

For TiSpark version >= 2.0:

spark.sql("use tpch_test")
spark.sql("select count(*) from lineitem").show

For TiSpark version < 2.0:

import org.apache.spark.sql.TiContext
val ti = new TiContext (spark)
ti.tidbMapDatabase ("tpch_test")

spark.sql("select count(*) from lineitem").show

Note:

If you use TiSpark 2.0+, for spark-submit on Pyspark, tidbMapDatabase is still required and TiExtension is not supported yet. PingCAP is working on this issue.

Current Version

spark.sql("select ti_version()").show

Write Data To TiDB using TiDB Connector

TiSpark natively supports writing data to TiKV via Spark Data Source API and guarantees ACID.

For example:

// tispark will send `lock table` command to TiDB via JDBC
val tidbOptions: Map[String, String] = Map(
  "tidb.addr" -> "127.0.0.1",
  "tidb.password" -> "",
  "tidb.port" -> "4000",
  "tidb.user" -> "root",
  "spark.tispark.pd.addresses" -> "127.0.0.1:2379"
)

val customer = spark.sql("select * from customer limit 100000")

customer.write
.format("tidb")
.option("database", "tpch_test")
.option("table", "cust_test_select")
.mode("append")
.save()

See here for more details.

Configuration

The configurations in the table below can be put together with spark-defaults.conf or passed in the same way as other Spark configuration properties.

Key	Default Value	Description
`spark.tispark.pd.addresses`	`127.0.0.1:2379`	The addresses of PD cluster, which are split by comma
`spark.tispark.grpc.framesize`	`268435456`	The maximum frame size of gRPC response
`spark.tispark.grpc.timeout_in_sec`	`10`	The gRPC timeout time in seconds
`spark.tispark.plan.allow_agg_pushdown`	`true`	Whether aggregations are allowed to push down to TiKV (in case of busy TiKV nodes)
`spark.tispark.plan.allow_index_read`	`true`	Whether index is enabled in planning (which might cause heavy pressure on TiKV)
`spark.tispark.index.scan_batch_size`	`20000`	The number of row key in batch for the concurrent index scan
`spark.tispark.index.scan_concurrency`	`5`	The maximal number of threads for index scan that retrieves row keys (shared among tasks inside each JVM)
`spark.tispark.table.scan_concurrency`	`512`	The maximal number of threads for table scan (shared among tasks inside each JVM)
`spark.tispark.request.command.priority`	`Low`	The value options are `Low`, `Normal`, `High`. This setting impacts the resource to get in TiKV. `Low` is recommended because the OLTP workload is not disturbed.
`spark.tispark.coprocess.codec_format`	`chblock`	choose the default codec format for coprocessor, available options are `default`, `chblock`, `chunk`
`spark.tispark.coprocess.streaming`	`false`	Whether to use streaming for response fetching (experimental)
`spark.tispark.plan.unsupported_pushdown_exprs`	``	A comma-separated list of expressions. In case you have a very old version of TiKV, you might disable some of the expression push-down if they are not supported.
`spark.tispark.plan.downgrade.index_threshold`	`1000000000`	If the range of index scan on one Region exceeds this limit in the original request, downgrade this Region's request to table scan rather than the planned index scan. By default, the downgrade is disabled.
`spark.tispark.show_rowid`	`false`	Whether to show the implicit row ID if the ID exists
`spark.tispark.db_prefix`	``	The string that indicates the extra prefix for all databases in TiDB. This string distinguishes the databases in TiDB from the Hive databases with the same name.
`spark.tispark.request.isolation.level`	`SI`	Isolation level means whether to resolve locks for the underlying TiDB clusters. When you use the "RC", you get the latest version of record smaller than your `tso` and ignore the locks. If you use "SI", you resolve the locks and get the records depending on whether the resolved lock is committed or aborted.
`spark.tispark.coprocessor.chunk_batch_size`	`1024`	How many rows fetched from Coprocessor
`spark.tispark.isolation_read_engines`	`tikv,tiflash`	List of readable engines of TiSpark, comma separated, storage engines not listed will not be read

`Log4j` Configuration

When you start spark-shell or spark-sql and run query, you might see the following warnings:

Failed to get database ****, returning NoSuchObjectException
Failed to get database ****, returning NoSuchObjectException

where **** is the name of database.

The warnings are benign and occurs because Spark cannot find **** in its own catalog. You can just ignore these warnings.

To mute them, append the following text to ${SPARK_HOME}/conf/log4j.properties.

# tispark disable "WARN ObjectStore:568 - Failed to get database"
log4j.logger.org.apache.hadoop.hive.metastore.ObjectStore=ERROR

Time Zone

Set time zone by using the -Duser.timezone system property (for example, -Duser.timezone=GMT-7), which affects the Timestamp type.

Do not use spark.sql.session.timeZone.

Statistics information

For how TiSpark can benefit from TiDB's statistic information, see here.

Compatibility with TiDB 3.0

View

TiDB starts to support view since tidb-3.0.

TiSpark currently does not support view. Users are not be able to observe or access data through view with TiSpark.

Table Partition

tidb-3.0 supports both Range Partition and Hash Partition.

TiSpark currently supports Range Partition and Hash Partition. Users can select data from the Range Partition table and the Hash Partition table through TiSpark.

In most cases, TiSpark use a full table scan on partition tables. Only in certain cases, TiSpark applies partition pruning. For more details, see here.

Upgrade from TiDB-2.x to TiDB-3.x

When upgrading from TiDB-2.x to TiDB-3.x,

make sure that you are using at least TiSpark-2.1.2 (TiSpark-2.1.9 is highly recommended).
tidbMapDatabase is deprecated after TiSpark-2.x, make sure that you are not using it.

Example Programs

There are some sample programs for TiSpark. You can run them locally or on a cluster following the document.

How to test

TiDB uses docker-compose to provide the TiDB cluster service which allows you to run test across different platforms.

It is recommended to install Docker to conduct the test locally, or to set up your own TiDB cluster locally as you wish.

For the former method, you can use docker-compose up -d to launch TiDB cluster service under the home directory of TiSpark. To see the logs of TiDB cluster, launch TiDB cluster service via docker-compose up. To shut down the entire TiDB cluster service, use docker-compose down. All the data is stored in the data directory at the root of this project. You can change it as you like.

For more details about the test, see here.

Twitter

@PingCAP

Mailing list

[email protected]

Google Group

License

TiSpark is under the Apache 2.0 license. See the LICENSE file for details.