java source code of Grep

Project: flink-perf (GitHub Link)

flink-perf-master
- pom.xml
- LICENSE
- hadoop-jobs
  - src
    - main
      - java
        com
        github
        projectflink
        hadoop
        KMeansDriver.java
        GrepDriver.java
        PageRankDriver.java
  - pom.xml
- flink-jobs
  - src
    - main
      - resources
        ua.txt
        log4j.properties
        lineitem.avsc
      - parking
        tpch
        generators
        core
        TpchEntityFormatter.java
        DistributedTPCH.java
        TPCHGeneratorSplittableIterator.java
        programs
        TPCHGeneratorExample.java
        TPCHGenerator.java
      - scala
        com
        github
        projectflink
        GroupReduceBenchmark.scala
        util
        FlinkTools.scala
        als
        ALSFlinkAlgorithm.scala
        ALSJoin.scala
        ALSFlinkRunner.scala
        ALSJoinBlocking.scala
        ALSBroadcast.scala
        ALSFlink.scala
        ALSDataGeneration.scala
        ALSFlinkToyRatings.scala
        cocoa
        CoCoAStateless.scala
        CoCoA.scala
        testPlan
        CSVOutTest.scala
        Pagerank.scala
      - java
        com
        github
        projectflink
        avro
        Prepare.java
        CompareJob.java
        GenerateLineitems.java
        AvroPerf.java
        utils
        IterationParser.java
        package.scala
        grep
        GrepJobOptimized.java
        GrepJob.java
        pagerank
        AdjacencyBuilder.java
        PageRankStephan.java
        AdaptivePageRank.java
        streaming
        utils
        PimpedKafkaSink.java
        FixedPartitioning.java
        TestFixedPartitioning.java
        KafkaPartitioner.java
        StandaloneKafkaReader.java
        ForwardThroughput.java
        ChainingSpeed.java
        Latency.java
        FlinkKafkaReader.java
        KafkaGenerator.java
        Throughput.java
        als
        ALSSampleData.java
        ALSBroadcastJava.java
        generators
        Logdata.java
        Utils.java
        KMeansDataGenerator.java
        Text.java
        testPlan
        KMeansArbitraryDimension.java
        TPCHQuery3.java
        WordCountWithoutCombine.java
        Readonly.java
        WordCountHashAgg.java
        Order.java
        order.avsc
        SequenceFileTest.java
        LargeTestPlan.java
        SequenceFileGenerator.java
        KryoTest.java
        javaTestPlan
        AvroFileGenerator.java
        CsvOutputFormatTest.java
        LargeTestPlan.java
  - pom.xml
- storm-jobs
  - src
    - jvm
      - storm
        starter
        spout
        RandomSentenceSpout.java
        WordCountTopologyNode.java
        util
        StormRunner.java
        WordCountTopology.java
        tools
        Rankable.java
        Rankings.java
        SlidingWindowCounter.java
        SlotBasedCounter.java
        RankableObjectWithFields.java
        NthLastModifiedTimeTracker.java
        trident
        TridentReach.java
        TridentWordCount.java
      - experiments
        TridentThroughput.java
        TridentForwardThroughput.java
        ForwardThroughput.java
        Latency.java
        ThroughputHostsTracking.java
        Throughput.java
        KafkaThroughput.java
  - README.markdown
  - pom.xml
- perf-common
  - src
    - main
      - scala
        com
        github
        projectflink
        common
        als
        ALSRunner.scala
        ALSUtils.scala
        ALS.scala
        ALSAlgorithm.scala
        ALSToyRatings.scala
      - java
        com
        github
        projectflink
        common
        AnalyzeTool.java
        KafkaFT.java
  - pom.xml
- spark-jobs
  - src
    - main
      - resources
        log4j.properties
      - scala
        com
        github
        projectflink
        spark
        GroupReduceBenchmark.scala
        pagerank
        GraphX.scala
        util
        TPCH3ScalaReg.scala
        ScalaRegistrator.scala
        als
        ALSJoin.scala
        ALSSparkRunner.scala
        ALSSparkRunnerToyRatings.scala
        ALSMLLib.scala
        ALSSparkAlgorithm.scala
        ALSSpark.scala
        Pagerank.scala
      - java
        com
        github
        projectflink
        spark
        KMeansArbitraryDimension.java
        WordCountGrouping.java
        WordCount.java
        Readonly.java
        streaming
        ForwardThroughput.java
        Throughput.java
        TPCH3Sql.java
        Grep.java
        GrepCaching.java
        TPCH3Spark.java
        MyRegistrator.java
  - pom.xml
- .travis.yml
- README.md
- scripts
  - runStorm.sh
  - runFlinkPara.sh
  - onAll.sh
  - runKafkaGen.sh
  - run.sh
  - runKafkaSM.sh
  - runChaosMonkey.sh
- .gitignore
- automation
  - runKMeansLowDimension-JAPI.sh
  - runSpark-WC-Grouping-Java.sh
  - updateConfig.sh
  - runKMeans-JAPI.sh
  - ls.sh
  - workdir
    - .hidden
  - data-generator
    - generateCPdata.sh
    - RandomGraphGenerator.py
    - KMeansDataGenerator.py
    - generateKMeansdata.sh
    - generateWCdata.sh
    - generateTestjobData.sh
    - generatePRdata.sh
  - utils.sh
  - fullyAutomatedPerformance.sh
  - spark-conf
    - log4j.properties.template
    - spark-env.sh.template
    - spark-defaults.conf.template
    - fairscheduler.xml.template
    - slaves.template
    - metrics.properties.template
  - configDefaults.sh
  - runWC-Scala.sh
  - startFlink.sh
  - stopFlink.sh
  - runWC-JAPI-withoutCombine.sh
  - generateDataAll.sh
  - runPageRank-JAPI.sh
  - stopSpark.sh
  - onAll.sh
  - runReadonly.sh
  - prepareFlink.sh
  - plot.py
  - runSpark-WC-Java.sh
  - runWC-JAPI.sh
  - runWC-JAPI-hash.sh
  - runKMeansHighDimension-JAPI.sh
  - runKMeansPerf.sh
  - runSparkReadonly.sh
  - updateSparkConfig.sh
  - prepareSpark.sh
  - runSparkKMeansPerf-java.sh
  - README.md
  - runTPCH3-JAPI.sh
  - runSpark-KMeansHighD-java.sh
  - runCP.sh
  - startSpark.sh
  - hadoop.sh
  - runTestjob.sh
  - flink-conf
    - log4j.properties.template
    - log4jconsole.properties.template
    - flink-conf.yaml.template
    - slaves.template
  - runTPCH10-JAPI.sh
  - .gitignore
  - executeOnAll.sh
  - runCP-JAPI.sh
  - runWC-Record.sh
  - runSpark-KMeansLowD-java.sh
  - prepareTestjob.sh
  - performance.sh
  - uploadToHdfs.sh
- streaming-state-machine
  - src
    - main
      - resources
        log4j.properties
      - scala
        com
        dataartisans
        flink
        example
        eventpattern
        kafka
        EventDeSerializer.scala
        KafkaGenerator.scala
        Event.scala
        Socket
        SocketSource.scala
        SocketGenerator.scala
        EventsGeneratorSource.scala
        EventsGenerator.scala
        StandaloneGeneratorBase.scala
        EventStateMachine.scala
        StreamingDemo.scala
      - java
        newconsumer
        Tests.java
        FlinkKafkaConsumer.java
  - pom.xml
  - README.md

package com.github.projectflink.spark;

import org.apache.spark.Accumulator;
import org.apache.spark.AccumulatorParam;
import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;

import java.util.Arrays;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


public class Grep {

	public static void main(String[] args) {
		String master = args[0];
		String inFile = args[1];
		String outFile = args[2];

		String patterns[] = new String[args.length-3];
		System.arraycopy(args,3,patterns,0,args.length-3);
		System.err.println("Starting spark with master="+master+" in="+inFile);
		System.err.println("Using patterns: "+ Arrays.toString(patterns));

		SparkConf conf = new SparkConf().setAppName("Grep job").setMaster(master).set("spark.hadoop.validateOutputSpecs", "false");
		JavaSparkContext sc = new JavaSparkContext(conf);

		JavaRDD<String> file = sc.textFile(inFile);
		for(int p = 0; p < patterns.length; p++) {
			final String pattern = patterns[p];
			JavaRDD<String> res = file.filter(new Function<String, Boolean>() {
				private static final long serialVersionUID = 1L;
				Pattern p = Pattern.compile(pattern);

				@Override
				public Boolean call(String value) throws Exception {
					if (value == null || value.length() == 0) {
						return false;
					}
					final Matcher m = p.matcher(value);
					if (m.find()) {
						return true;
					}
					return false;
				}
			});
			res.saveAsTextFile(outFile+"_"+pattern);
		}
	}
}