java source code of NGramBuilder

vn.vitk-master
- src
  - main
    - java
      - vn
        vitk
        tag
        Tagger.java
        CMM.java
        Evaluator.java
        MarkovOrder.java
        ContextExtractor.java
        LabeledContext.java
        CMMModel.java
        ViterbiDecoder.java
        CMMParams.java
        util
        SparkContextFactory.java
        UTF8FileIO.java
        Dependencies.java
        TokenNormalizer.java
        Converter.java
        Statistic.java
        Constants.java
        MapUtil.java
        NGramBuilder.java
        lang
        CorpusPack.java
        Language.java
        tok
        WhitespaceClassifier.java
        jaxb
        ObjectFactory.java
        N.java
        package.html
        Dijkstra.java
        Bigrams.java
        Tokenizer.java
        Evaluator.java
        Lexicon.java
        WhitespaceContext.java
        Vitk.java
        dep
        DependencyGraphReader.java
        DependencyGraph.java
        TransitionBasedParserMLP.java
        ParsingContext.java
        Configuration.java
        Evaluator.java
        TransitionDecoder.java
        TransitionClassifier.java
        DependencyParser.java
        Dependency.java
        TransitionClassifierParams.java
        DependencyGraphStatistics.java
        FeatureFrame.java
        Sentence.java
        FeatureExtractor.java
- DEP.md
- dat
  - tag
    - en
      - cmm
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        .part-r-00004-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00007-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00017-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00013-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00003-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        _metadata
        .part-r-00016-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00000-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00008-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00000-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00020-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00020-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00019-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00011-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00007-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00023-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00002-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00014-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00019-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00018-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00010-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00009-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        ._metadata.crc
        .part-r-00001-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00006-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00009-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00015-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00018-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00006-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00022-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00021-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00002-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00015-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00011-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00004-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        _common_metadata
        part-r-00016-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00005-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00014-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00008-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00017-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00012-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        .part-r-00022-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        ._common_metadata.crc
        part-r-00012-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        part-r-00001-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        ._SUCCESS.crc
        part-r-00010-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00005-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        part-r-00003-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet
        .part-r-00021-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        _SUCCESS
        .part-r-00013-046018b8-07cf-4e2b-af02-1fb441f16d8d.gz.parquet.crc
        pipelineModel
        stages
        1_cntVec_165b2d94f71d
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        ._metadata.crc
        .part-r-00000-2758a8a2-d95b-476b-a10b-8036b2db966d.gz.parquet.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        2_strIdx_e99240651b36
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        .part-r-00000-72478242-62f6-4de1-858d-8efe945cbfb8.gz.parquet.crc
        part-r-00000-72478242-62f6-4de1-858d-8efe945cbfb8.gz.parquet
        ._metadata.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        0_tok_42b3818a7710
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
    - vi
      - 1000.txt
      - cmm
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        part-r-00002-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        part-r-00000-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        _metadata
        part-r-00005-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        .part-r-00003-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        part-r-00006-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        part-r-00001-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        part-r-00004-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        ._metadata.crc
        .part-r-00002-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        .part-r-00005-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        .part-r-00004-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        .part-r-00000-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        .part-r-00001-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        .part-r-00006-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet.crc
        part-r-00003-dcdd1327-ec64-4f53-b197-807f9ee31114.gz.parquet
        _SUCCESS
        pipelineModel
        stages
        0_tok_251c1e71a792
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        1_cntVec_b27054a00026
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        .part-r-00000-a1fdcbe7-d54a-4920-8e83-6aa63b449c38.gz.parquet.crc
        ._metadata.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        2_strIdx_618f0a9307a4
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        ._metadata.crc
        part-r-00000-cc4eccd4-6b15-4463-b6b4-d98979cc9bec.gz.parquet
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        .part-r-00000-cc4eccd4-6b15-4463-b6b4-d98979cc9bec.gz.parquet.crc
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - out
        .part-r-00000-642eaaa3-13d1-4283-8e46-f4c3c0b04c8e.crc
        part-r-00000-642eaaa3-13d1-4283-8e46-f4c3c0b04c8e
        ._SUCCESS.crc
        _SUCCESS
  - tok
    - whitespace.model
      - stages
        2_logreg_8e33246a9ca5
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        ._metadata.crc
        .part-r-00000-f6fbec0c-8561-43d5-a43c-e5028fc91e54.gz.parquet.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        1_hashingTF_a1d15b0b0e93
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        0_tok_3ea8edffa49a
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
    - regexp.txt
  - dep
    - vi
      - 100.txt
      - 270.conll
      - mlp
        data
        ._SUCCESS.crc
        _SUCCESS
        pipelineModel
        stages
        1_cntVec_85a2575876df
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        ._metadata.crc
        part-r-00000-c9fe8a84-a851-417c-a9d8-2686d1999f2f.gz.parquet
        _common_metadata
        .part-r-00000-c9fe8a84-a851-417c-a9d8-2686d1999f2f.gz.parquet.crc
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        2_strIdx_3fbfd50bc1e7
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        data
        _metadata
        .part-r-00000-6ca69687-8a65-4a0b-ad82-38970b1baaf2.gz.parquet.crc
        part-r-00000-6ca69687-8a65-4a0b-ad82-38970b1baaf2.gz.parquet
        ._metadata.crc
        _common_metadata
        ._common_metadata.crc
        ._SUCCESS.crc
        _SUCCESS
        0_tok_278475698b23
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
        metadata
        part-00000
        .part-00000.crc
        ._SUCCESS.crc
        _SUCCESS
      - out
        part-r-00000-c1ccf2c6-45a1-4e4f-a3d9-1ff03c472deb
        .part-r-00000-c1ccf2c6-45a1-4e4f-a3d9-1ff03c472deb.crc
        ._SUCCESS.crc
        _SUCCESS
- pom.xml
- LICENSE
- CHANGES.md
- README.md
- dependency-reduced-pom.xml
- .gitignore
- WS.md
- POS.md

package vn.vitk.util;

import java.io.BufferedWriter;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Serializable;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.ml.feature.NGram;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.Metadata;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

/**
 * @author Phuong LE-HONG
 * <p>
 * Apr 12, 2016, 5:15:19 PM
 * <p>
 *  Constructs bigrams from a Vietnamese corpus.
 */
public class NGramBuilder implements Serializable {
	
	private static final long serialVersionUID = -7781645249679542493L;
	private transient JavaSparkContext jsc = SparkContextFactory.create();
	private Converter converter;
	
	public NGramBuilder(String regexpFileName, String inputFileName) {
		JavaRDD<String> lines = jsc.textFile(inputFileName).filter(new InvalidLineFilter());
		System.out.println("#(lines) = " + lines.count());
		// write out a plain text file name which will be used by SRILM to train 
		// a language model
		BufferedWriter bw = null;
		try {
			OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(inputFileName + ".txt"), "UTF-8");
			bw = new BufferedWriter(osw);
			List<String> validLines = lines.collect();
			for (String line : validLines) {
				// lowercase the line
				line = line.toLowerCase();
				osw.write(line);
				osw.write('\n');
			}
			bw.close();
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				bw.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		
	}
	
	public NGramBuilder(String regexpFileName, String inputFileName, String unigramFileName, String bigramFileName) {
		JavaRDD<String> lines = jsc.textFile(inputFileName).filter(new InvalidLineFilter());
		System.out.println("#(lines) = " + lines.count());
		// create unigrams and save them
		//
		converter = new Converter(regexpFileName);
		Map<String, Long> unigrams = lines.flatMap(new UnigramFunction()).countByValue();
		List<Tuple2<String, Long>> tuples = new ArrayList<Tuple2<String, Long>>(unigrams.size());
		for (String word : unigrams.keySet()) {
			Long f = unigrams.get(word);
			if (f >= 2)
				tuples.add(new Tuple2<String, Long>(word, f));
		}
		
		JavaPairRDD<String, Long> jprdd = jsc.parallelizePairs(tuples);
		jprdd.saveAsTextFile(unigramFileName, GzipCodec.class);
		
		// create bigrams and save them
		Map<Tuple2<String, String>, Long> bigrams = lines.flatMap(new BigramFunction()).countByValue();
		tuples = new ArrayList<Tuple2<String, Long>>(bigrams.size());
		for (Tuple2<String, String> pair : bigrams.keySet()) {
			Long f = bigrams.get(pair);
			if (f >= 2)
				tuples.add(new Tuple2<String, Long>(pair._1() + ',' + pair._2(), f));
		}
		jprdd = jsc.parallelizePairs(tuples);
		jprdd.saveAsTextFile(bigramFileName, GzipCodec.class);		
	}
	
	
	/**
	 * Creates a n-gram data frame from text lines.
	 * @param lines
	 * @return a n-gram data frame.
	 */
	DataFrame createNGramDataFrame(JavaRDD<String> lines) {
		JavaRDD<Row> rows = lines.map(new Function<String, Row>(){
			private static final long serialVersionUID = -4332903997027358601L;
			
			@Override
			public Row call(String line) throws Exception {
				return RowFactory.create(Arrays.asList(line.split("\\s+")));
			}
		});
		StructType schema = new StructType(new StructField[] {
				new StructField("words",
						DataTypes.createArrayType(DataTypes.StringType), false,
						Metadata.empty()) });
		DataFrame wordDF = new SQLContext(jsc).createDataFrame(rows, schema);
		// build a bigram language model
		NGram transformer = new NGram().setInputCol("words")
				.setOutputCol("ngrams").setN(2);
		DataFrame ngramDF = transformer.transform(wordDF);
		ngramDF.show(10, false);
		return ngramDF;
	}
	
	
	class InvalidLineFilter implements Function<String, Boolean> {
		private static final long serialVersionUID = -5443181660691899302L;
		Pattern tag = Pattern.compile("^<\\/?\\w+>$");
		Pattern txt = Pattern.compile("\\w+"); 
		Pattern author = Pattern.compile("^[\\p{Lu}_\\-\\s\\.]+$");
		Pattern dateTime = Pattern.compile("^[\\d\\:\\s/]+$");
		
		@Override
		public Boolean call(String s) throws Exception {
			s = s.trim();
			if (s.length() == 0)	// s is empty
				return false;
			if (s.split("\\s+").length < 3) // less than 3 words
				return false;
			
			Matcher matcher = tag.matcher(s);
			if (matcher.matches())	// s is an XML tag
				return false;
			
			matcher = txt.matcher(s);
			if (!matcher.find())	// s does not contain any word character
				return false;
			
			matcher = author.matcher(s);
			if (matcher.matches())	// s is author line 
				return false;
			
			matcher = dateTime.matcher(s);
			if (matcher.matches())	// s is date time line 
				return false;
			return true;
		}
	}
	
	class UnigramFunction implements FlatMapFunction<String, String> {

		private static final long serialVersionUID = 7642582945770292178L;

		@Override
		public Iterable<String> call(String s) throws Exception {
			String[] tokens = s.split("\\s+");
			for (int i = 0; i < tokens.length; i++) {
				tokens[i] = converter.convert(tokens[i]);
			}
			return Arrays.asList(tokens);
		}
		
	}
	
	class BigramFunction implements FlatMapFunction<String, Tuple2<String, String>> {
		private static final long serialVersionUID = 2749290102631243248L;

		@Override
		public Iterable<Tuple2<String, String>> call(String s) throws Exception {
			List<Tuple2<String, String>> bigrams = new ArrayList<Tuple2<String, String>>();
			String[] tokens = s.split("\\s+");
			for (int i = 0; i < tokens.length; i++) {
				tokens[i] = converter.convert(tokens[i]);
			}
			String previous = "BOS";
			for (String token : tokens) {
				bigrams.add(new Tuple2<String, String>(previous, token));
				previous = token;
			}
			bigrams.add(new Tuple2<String, String>(previous, "EOS"));
			return bigrams;
		}
	}
	
	/**
	 * Normalizes tokens of a string s. This function converts all 
	 * dates to "DATE", numbers to "NUMBER", etc.
	 * @param s
	 * @return
	 */
	String normalize(String s) {
		
		return null;
	}
	
	public static void main(String[] args) {
//		new NGramBuilder("dat/tok/regexp.txt", "dat//syllables2M.seg", "dat/1grams", "dat/2grams");
		new NGramBuilder("dat/tok/regexp.txt", "dat//syllables2M.seg");
	}
}