Project: language-resources (GitHub Link)

language-resources-master
- BUILD
- utils
  - eval_lex.py
  - freq.py
  - thrax_g2p.cc
  - BUILD.bazel
  - utf8_dump.py
  - utf8_test.sh
  - lm-scores.cc
  - sample.py
  - sh-utter.cc
  - grapheme_util.py
  - utf8_test_stdout.txt
  - test_icu_transform.py
  - edist.py
  - uniquely_decodable.py
  - merge_lexicons.py
  - icu_util.py
  - python_version.py
  - __init__.py
  - evaluate_pronunciation_rules.py
  - utf8_test.py
  - eval_dictionary_simple.py
  - grm_tester.cc
  - fix_wave_sample_rate.c
  - eval.sh
  - utf8.py
- Mymr
  - res
    - xml
      - burmese_shifted_keyboard.xml
      - method.xml
      - burmese_keyboard.xml
      - keyboard_layouts.xml
    - layout
      - input.xml
    - raw
      - keyboard_layout_burmese.kcm
    - values
      - colors.xml
      - dimens.xml
      - strings.xml
      - candidates_burmese.xml
  - src
    - main
      - java
        com
        google
        languageresources
        mymr
        CandidateView.java
        MyanmarUnicodeKeyboard.java
  - BUILD.bazel
  - AndroidManifest.xml
  - README.md
- festus
  - weight.h
  - fst2re.cc
  - fstrmepscycle.cc
  - plot_nbinom.sh
  - alignables-util.cc
  - alignables-util.h
  - weight-test-lib.h
  - value-weight-singleton.h
  - fst-util.h
  - math-util.h
  - string-util.h
  - topsort.h
  - value-weight-diff.sh
  - max-times-semiring-test.cc
  - BUILD.bazel
  - label-maker.h
  - matrix-test.cc
  - best-labeling.cc
  - make-runtime-fsts.cc
  - max-times-semiring.h
  - alignables-util-test.cc
  - arc.h
  - real-weight-test.cc
  - modular-int-semiring.h
  - topsort-test.cc
  - tapes-test.cc
  - star-test.cc
  - proto-util.h
  - expression-node.h
  - runtime
    - ngram_model_with_final_backoff.fst
    - fst-util.h
    - compact.h
    - BUILD.bazel
    - g2p.h
    - g2p-lookup.cc
    - ngram_model_without_final_backoff.fst
    - total-weight.cc
    - GNUmakefile
  - term-semiring.h
  - label-maker.cc
  - lexicon-processor.cc
  - iterator-test.cc
  - hash.h
  - float-weight-star.h
  - alignables.proto
  - string-util.cc
  - proto-util.cc
  - types.h
  - algebraic-path.h
  - nbinom.h
  - modular-int-semiring-test.cc
  - rmepscycle.h
  - term-semiring-test.cc
  - weight-convert.h
  - string-util-test.cc
  - lexicon-diagnostics.cc
  - README.md
  - quaternion-semiring-test.cc
  - arc-test.cc
  - value-weight-static.h
  - real-weight.h
  - mode-search.h
  - algebraic-path-test.cc
  - expression.proto
  - tapes.h
  - quaternion-semiring.h
  - matrix.h
  - fstnbinom.cc
  - lexicon-processor.h
  - make-alignable-symbols.cc
  - iterator.h
  - ngramfinalize.cc
- third_party
  - sdk-tools-linux-3859397.zip.sha256
  - bazel-0.4.5-installer-linux-x86_64.sh.sha256
  - iiit_ben_ant
    - COPYING
    - etc
      - txt.done.data.utf8
      - txt.done.data
  - fa
    - updt
      - LICENSE.md
      - README.md
  - wikimedia
    - wp_shn_mandalay.txt
    - wp_my_december.txt
    - wp_shn_economics.txt
    - wp_my_democracy.txt
    - wp_shn_calendar.txt
    - BUILD.bazel
    - wp_my_calendar.txt
    - LICENSE
    - wp_shn_democracy.txt
    - enwiktionary_20150413_bn_transcription.txt
    - wp_shn_december.txt
    - wp_my_shwe_thaik.txt
    - wp_my_economics.txt
    - wp_my_mandalay.txt
    - wp_my_workers_day.txt
    - wp_my_kapilvastu.txt
    - simple_wiktionary.txt
    - README.md
    - xh_sentences.txt
    - wp_shn_tiger.txt
    - wp_my_tiger.txt
    - wp_shn_workers_day.txt
    - wp_shn_shwe_thaik.txt
    - wp_shn_kapilvastu.txt
  - wikidata
    - BUILD.bazel
    - LICENSE
    - README.md
  - pron_dict
    - license.txt
    - suggestions.csv
    - readme.txt
    - words_2012.txt
    - README.md
  - bazel-0.7.0-installer-linux-x86_64.sh.sha256
  - cldr
    - xh-fonipa-t-xh.txt
    - zu-fonipa-t-zu.txt
    - BUILD.bazel
    - Malayalam-Tamil.xml
    - zu-zu_FONIPA.txt
    - ta-ta_FONIPA.txt
    - Malayalam-Latin.xml
    - xh-xh_FONIPA.txt
    - ta-fonipa-t-ta.txt
    - Malayalam-Bengali.xml
    - README.md
    - build_defs.bzl
    - Malayalam-InterIndic.xml
  - unicode
    - utn11_test.py
    - BUILD.bazel
    - utn11.py
    - LICENSE
  - voanews
    - burmese_us-goverment-shutdown.txt
    - burmese_saturday-call-in-show-usdp-factitious-fight-and-likelyhood-of-impacts.txt
    - burmese_local-administratio-to-elect.txt
    - burmese_john-kerry-and-dassk-press-conference.txt
    - burmese_news-analysis-sithu-aungmyint-usdp.txt
    - burmese_st-bigbang-discovery-03-21-14-mt.txt
    - burmese_news-analysis-sithu-aungmyint-nld-ethnic.txt
    - burmese_pha-kant-jade-mine.txt
    - burmese_burma-democracy-forum-interview-with-alhaj-uayelwin.txt
    - burmese_ukraine-pilot-nadiya.txt
    - burmese_conflict-escalate-shan-north.txt
    - burmese_st-einstine-gravitational-waves-found-at-last-02-19-16-mt.txt
    - burmese_students-protesters-released.txt
    - burmese_un-hr-council-adopted-the-outcome-of-the-universal-periodic-review.txt
    - burmese_3349784.txt
    - burmese_john-kerry-will-visit-to-myanmar-burma.txt
    - burmese_burma-democracy-forum-interview-with-draunghtunthet.txt
    - burmese_koh-tao-murder-case-upd.txt
    - burmese_burma-forum-land-grabbing.txt
    - burmese_scot-marciel-meet-with-the-media-scholars-and-ngos.txt
    - burmese_kachin-anti-poppy-day.txt
    - burmese_the-confirmation-of-state-advisory-bill.txt
    - burmese_min-aung-hlaing-to-thai.txt
    - burmese_voa-burmese-exclusive-interview-with-daw-aung-san-suu-kyi.txt
    - burmese_nca-agreement.txt
    - burmese_thai-protesters-press-on-with-rallies-amid-fears-of-violence.txt
    - burmese_us-kerry-burma-trip.txt
    - burmese_myanmar-presidents-proposal-for-state-consellor-ministry.txt
    - burmese_eqypt-old-clothing.txt
    - burmese_myanmar-ambassador-of-thailand-said-they-will-appeal-the-case-according-to-the-thai-law.txt
    - burmese_burma-democracy-forum-interview-with-minister-dr-phaymyint.txt
    - LICENSE
    - burmese_vietnam-kerry-trip.txt
    - burmese_imf-myanmar-gdp.txt
    - burmese_article-07-05-10-soldiers-talk-017-98670359.txt
    - burmese_myanmar-youth-activity-in-election.txt
    - burmese_st-extreme-weather-and-water-needs-in-burma-05-06-16-mt.txt
    - burmese_us-burma.txt
    - burmese_st-wind-energy-power-plant-05-20-16-mt.txt
    - burmese_nld-u-nyan-win-in-japan.txt
    - burmese_naypyidaw-luttaw-new-demonstration-law-10-05-11-131143628.txt
    - burmese_koh-tao-murder-case.txt
    - burmese_academy-award-ceremony-myanmar.txt
    - burmese_chinese-police-calamp-down-tibetan-mining-protest.txt
    - burmese_israel-palestine-121868874.txt
    - burmese_news-analysis-sithu-aungmyint-dassk-how-to-lead-peace-process.txt
    - burmese_sagaing-wun-tho-kaw-lin-flood-june-06-2016.txt
    - burmese_knu-wants-to-help-dkba-150500995.txt
    - burmese_mr-nambiar-meet-with-daw-aung-san-suu-kyi.txt
    - burmese_myanmar-summited-on-the-top-of-everest.txt
    - burmese_thai-burma-military-ties.txt
    - burmese_poet-mg-saung-kha.txt
    - burmese_article-10-24-10-soldiers-talk031-105620843.txt
    - burmese_us-memorial-day.txt
    - burmese_president-and-the-vice-president-will-select-tuesday.txt
    - burmese_news-analysis-sithu-aungmyint-public-transportation.txt
    - burmese_health-dengue-prevention.txt
    - burmese_asean-south-china-sea.txt
    - burmese_myanmar-flood-several-state-rakhine-kachin-thibaw.txt
    - burmese_karen-salween-peace-park.txt
    - burmese_burma-forum-interview-with-yscm-director.txt
    - burmese_news-analysis-policies-for-shared-prosperity-in-myanmar.txt
    - burmese_the-liberty-and-leader-ship-forum.txt
    - burmese_article-10-17-10-soldiers-talk030-105101094.txt
    - burmese_thai-authorities-to-grant-travel-permit-to-burmese-migrants-in-thailand.txt
    - burmese_president-htin-kyaw-amnesty-release-of-political-prisoners.txt
    - burmese_soldiers-talk-06-20-10-96768839.txt
    - burmese_ned-burma-talks.txt
    - burmese_news-analysis-sithu-aungmyint-military-future-country.txt
    - burmese_mandela-casket-is-taken-to-qunu.txt
    - burmese_wall-street-reform-99165264.txt
    - burmese_cardinal-bo-defender-of-human-rights.txt
    - burmese_rohingya-issue-daw-su-and-john-kerry-press-conference.txt
    - burmese_targeted-burmese-tycoon-may-profit-from-us-sanctions-changes.txt
    - burmese_exclusive-interview-with-u-win-htein-on-the-nld-political-stance.txt
    - burmese_voa-burmese-exclusive-interviews-with-senior-general-min-aung-hlaing.txt
    - burmese_burma-forum-us-deputy-secretary-state-antony-blinken.txt
    - burmese_new-3-ministers-are-confirm.txt
    - burmese_burma-forum-04-17-2011-11995676.txt
  - bazel-0.5.4-installer-linux-x86_64.sh.sha256
  - festvox
    - src
      - ehmm
        scripts
        do_ehmm
    - BUILD.bazel
    - setup.sh
  - nchlt_inlang
    - BUILD.bazel
    - README.txt
    - release
      - dictionaries
    - LICENSE.txt
  - lo_dictionary_by_mopt_laos
    - LICENSE
  - README.md
  - merlin
    - acoustic_dnn.conf
    - BUILD.bazel
    - LICENSE
    - test_dur_synth.conf
    - test_synth.conf
    - duration_dnn.conf
  - bazel-0.6.1-installer-linux-x86_64.sh.sha256
  - bazel-0.8.1-installer-linux-x86_64.sh.sha256
- si
  - si-si_FONIPA.txt
  - sparrowhawk
    - verbalizer_serialization_spec.ascii_proto
    - BUILD.bazel
    - verbalizer.ascii_proto
    - si_sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration_serialization.ascii_proto
    - tokenizer.ascii_proto
  - prompt_words_in_lexicon.py
  - transcription.md
  - dict_homographs.txt
  - BUILD.bazel
  - textnorm
    - verbalizer
      - verbatim.grm
      - money_major.tsv
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - decimal.grm
      - measure_units_en.tsv
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        ordinal.tsv
        electronic.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        address.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - README
      - universal_func.grm
      - verbatim.tsv
      - electronic.grm
      - measure_units_si.tsv
      - emoticons.tsv
      - measure_prefixes_en.tsv
      - urls.tsv
      - verbalize.grm
      - address.grm
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - measure_prefixes_si.tsv
      - number_names_rules.grm
      - money_minor.tsv
      - date.grm
      - money.grm
      - connector.grm
    - classifier
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        roman_numeral.tsv
        measure.tsv
        tokenize_and_classify.tsv
        ordinal.tsv
        money.tsv
        address.tsv
        cardinal.tsv
      - universal_rules.grm
      - measure.grm
      - README
      - universal_func.grm
      - sinhala.grm
      - address.grm
      - roman_numeral.grm
      - cardinal.grm
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - classify.grm
      - connector.grm
  - dict_regular.txt
  - normalize_text.py
  - alignables.txt
  - festvox
    - ipa_phonology.json
    - BUILD.bazel
    - txt.done.data
    - README.md
  - sinhala.grm
  - phoneme.syms
  - lexicon_test.tsv
  - data
    - BUILD.bazel
    - LICENSE
  - __init__.py
  - README.md
  - zero_width.py
  - grapheme.syms
  - dict_exceptions.txt
  - merlin
    - README.md
    - questions_with_cqs.hed
    - questions_without_cqs.hed
  - graphemes_test.tsv
  - graphemes.py
- is
  - clean_pron_dict_csv.py
- docker-images
  - release.sh
  - test-merlin
    - testdata
      - merlin_data_file_list.txt
      - merlin_conf_file_list.txt
      - merlin_models_acoustic_gen_file_list.txt
      - festvox_setup_file_list.txt
      - tts_data_files_list.txt
    - setup_test.sh
    - tests.sh
    - synth.sh
    - Dockerfile
  - festival
    - entry.sh
    - Dockerfile
  - language-resources
    - Dockerfile
  - merlin
    - small_merlin_params.json
    - entry.sh
    - Dockerfile
- LICENSE
- thrax.bzl
- travis
  - before_install.sh
  - script.sh
  - Brewfile
  - requirements.txt
- xh
  - BUILD.bazel
  - tokenize.py
  - phonemes.txt
- .clang-format
- my
  - betabinom_test.py
  - bigrams.py
  - make_comparison_table.py
  - binom_test.py
  - split_sentences.py
  - frequent_grapheme_clusters.tsv
  - my-t-en.txt
  - check_myanmar_text.py
  - BUILD.bazel
  - train-ngram-model.sh
  - textnorm
    - verbalizer
      - verbatim.grm
      - money_major.tsv
      - time.grm
      - BUILD.bazel
      - decimal.grm
      - testdata
        date.tsv
        verbalize.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        electronic.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - universal_func.grm
      - verbatim.tsv
      - electronic.grm
      - emoticons.tsv
      - urls.tsv
      - verbalize.grm
      - my_verbalize_spec.txt
      - measure_units_en.txt
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - number_names_rules.grm
      - money_minor.tsv
      - date.grm
      - money.grm
      - measure_prefixes_en.txt
      - connector.grm
    - classifier
      - time.grm
      - BUILD.bazel
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        tokenize_and_classify.tsv
        lseq.tsv
        money.tsv
        fraction.tsv
      - lseq_exceptions.tsv
      - universal_rules.grm
      - universal_func.grm
      - lseq.grm
      - burmese.grm
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - classify.grm
      - connector.grm
  - surface_alignables.txt
  - prepare-data-for-correction.sh
  - segmentation
    - segmented_data.txt
  - text_to_symbols.py
  - javatests
    - com
      - google
        languageresources
        my
        ZawgyiToUnicodeConverterTest.java
        GraphemeComposerTest.java
  - models
  - zawgyi_unicode_test.tsv
  - langid-my.sh
  - extract_text.py
  - g2p.sh
  - my_encoding.py
  - tokenize.py
  - phoneme.syms
  - codepoints.py
  - codepoint.syms
  - detect-charset.sh
  - java
    - com
      - google
        languageresources
        my
        BurmeseTextUtils.java
        CanonicalizeMain.java
        GraphemeComposer.java
        ZawgyiToUnicodeMain.java
        ZawgyiToUnicodeConverter.java
        GraphemeCluster.java
  - phonemes.txt
  - __init__.py
  - grapheme_cluster.py
  - grapheme.syms
  - burmese.grm
  - phoneme2tts.tsv
  - cluster_to_unicode.py
  - frequent_bigrams_my.txt
  - graphemes.py
- CONTRIBUTING.md
- su
  - sparrowhawk
    - BUILD.bazel
    - verbalizer.ascii_proto
    - su_verbalize_spec.txt
    - sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
  - textnorm
    - verbalizer
      - verbatim.grm
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - decimal.grm
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        ordinal.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - money_fractions.txt
      - measure.grm
      - digit.grm
      - telephone.grm
      - su_verbalize_spec.txt
      - universal_func.grm
      - measurements.tsv
      - number_names_depot.far
      - verbatim.tsv
      - money_currencies.txt
      - emoticons.tsv
      - verbalize.grm
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - number_names_rules.grm
      - date.grm
      - money.grm
      - connector.grm
    - classifier
      - money_classifier.grm
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - testdata
        money_classifier.tsv
        date_classifier.tsv
        time.tsv
        lseq.tsv
        ordinal.tsv
      - universal_rules.grm
      - universal_func.grm
      - spelling_exceptions.fst
      - date_classifier.grm
      - word_definition.grm
      - lseq.grm
      - tokenize_and_classify.grm
      - classify.grm
  - festvox
    - BUILD.bazel
    - phonology.json
    - sum.txt.done.data
  - data
    - suf_prompts.tsv
    - sum_prompts.tsv
    - BUILD.bazel
- .gitattributes
- hi_ur
  - hi_ur_core.tsv
  - hi_ur_other.tsv
  - BUILD.bazel
  - ur_pron_alignables.txt
  - hi_pron_alignables.txt
  - alignables.txt
  - hi_ur_alignables.txt
  - hi_ur_extended.tsv
  - hi_ur_pron.tsv
  - hi-ur.txt
  - data
    - wikidata_20150427.tsv
  - symbolize.py
  - tsv2html.py
  - preprocess_arab.py
  - hi2ur.py
- .bazelrc
- pi_sa
  - Thai.syms
  - Java.syms
  - Beng.syms
  - pi_Thai-pi_Laoo.txt
  - Mymr.syms
  - BUILD.bazel
  - Deva.syms
  - translit_testdata.tsv
  - pi_Deva-pi_Thai.txt
  - Sund.syms
  - README.md
  - Sinh.syms
  - pi_Latn-pi_Deva.txt
  - Khmr.syms
  - symbolize.py
  - Laoo.syms
  - Lana.syms
- es
  - logits
    - esw_03397_01921010081.npy
    - esw_04310_01778239291.npy
    - esw_02484_01242351300.npy
    - esw_04310_02076704171.npy
    - esw_02484_00638594429.npy
    - esw_04310_01943619652.npy
    - esw_03397_01301942821.npy
    - esw_04310_01682923126.npy
    - esw_03397_00075905242.npy
    - esw_03397_01690961333.npy
    - esw_04310_00363000495.npy
    - esw_02484_01632826888.npy
    - esw_02484_01916222285.npy
    - esw_02484_01656499668.npy
    - esw_02484_01952759745.npy
    - esw_02484_00311807531.npy
    - esw_02484_00146903919.npy
    - esw_02484_00992763516.npy
    - esw_04310_00443651638.npy
    - esw_03397_00170996870.npy
    - esw_03397_01642790952.npy
    - esw_04310_00856454359.npy
    - esw_03397_01953842995.npy
    - esw_02484_00204623004.npy
    - esw_02484_01411267058.npy
    - esw_04310_01760271939.npy
    - esw_04310_00175446489.npy
    - esw_04310_01377532859.npy
    - esw_02484_00285128590.npy
    - esw_02484_01942376957.npy
    - esw_04310_01957487108.npy
    - esw_03397_00577727210.npy
    - esw_03397_00173369595.npy
    - esw_04310_01913190402.npy
    - esw_03397_00768485382.npy
    - esw_02484_00876298746.npy
    - esw_03397_00702367484.npy
    - esw_03397_00686740744.npy
    - esw_03397_00695379889.npy
    - esw_04310_01952156847.npy
    - esw_02484_00945557725.npy
    - esw_04310_02063848486.npy
    - esw_03397_01280375733.npy
    - esw_03397_00710666834.npy
    - esw_02484_01881540724.npy
    - esw_02484_01021527828.npy
    - esw_04310_01627140434.npy
    - esw_03397_00537783447.npy
    - esw_02484_00835043311.npy
    - esw_04310_00771997542.npy
    - esw_02484_00047151674.npy
    - esw_04310_00843426047.npy
    - esw_02484_01919065858.npy
    - esw_04310_00936178542.npy
    - esw_03397_01048307936.npy
    - esw_03397_01063006592.npy
    - esw_03397_01238214947.npy
    - esw_04310_01837907848.npy
    - esw_04310_02131066077.npy
    - esw_03397_01071048010.npy
    - esw_04310_01438246731.npy
    - esw_04310_00912310956.npy
    - esw_02484_02085981345.npy
    - esw_02484_00451422931.npy
    - esw_02484_01007684029.npy
    - esw_04310_01769657162.npy
    - esw_03397_00323386635.npy
    - esw_04310_01888468345.npy
    - esw_04310_00929031830.npy
    - esw_02484_01070870595.npy
    - esw_03397_01736798627.npy
    - esw_04310_01381679842.npy
    - esw_03397_00857559538.npy
    - esw_03397_01748216819.npy
    - esw_04310_01019463014.npy
    - esw_03397_01596421591.npy
    - esw_02484_01762658127.npy
    - esw_03397_00534521883.npy
    - esw_03397_01976801691.npy
    - esw_02484_00786613174.npy
    - esw_03397_01834363188.npy
    - esw_02484_01749853945.npy
    - esw_03397_00794224533.npy
    - esw_04310_02039728986.npy
    - esw_03397_01877178859.npy
    - esw_02484_01161148461.npy
    - esw_04310_01175402662.npy
    - esw_02484_00503701432.npy
    - esw_02484_02016233803.npy
    - esw_04310_01132759390.npy
  - fsts
  - symbols.txt
  - README.md
  - logits2fsts.py
- zu
  - BUILD.bazel
  - phonemes.txt
- festival_utils
  - setup_merlin.sh
  - build_f0_model.py
  - festival_prompts_from_tsv.py
  - apply_phonology.py
  - build_mcep_model.py
  - BUILD.bazel
  - merlin_confs.py
  - testdata
    - merlin_params.json
  - festival_lexicon_from_tsv.py
  - setup_festival.sh
  - build_festvox_voice.sh
  - festvox.bzl
  - docker_synth.sh
  - run_docker_merlin_training.sh
  - generate_hts_questions.py
  - prepare_prompts.py
  - phonology_json_validator.py
- .travis.yml
- README.md
- FONIPA
  - BUILD.bazel
  - ipa.py
  - ipa_test.py
- km
  - sparrowhawk
    - BUILD.bazel
    - verbalizer.ascii_proto
    - sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
    - km_verbalize_spec.txt
  - textnorm
    - verbalizer
      - verbatim.grm
      - money_major.txt
      - time.grm
      - repeater.grm
      - BUILD.bazel
      - money_minor.txt
      - decimal.grm
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        electronic.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        address.tsv
        repeater.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - universal_func.grm
      - verbatim.tsv
      - urls.txt
      - electronic.grm
      - emoticons.tsv
      - verbalize.grm
      - measure_prefixes_km.txt
      - measure_units_en.txt
      - address.grm
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - number_names_rules.grm
      - measure_units_km.txt
      - date.grm
      - money.grm
      - measure_prefixes_en.txt
      - connector.grm
    - classifier
      - verbatim.grm
      - time.grm
      - BUILD.bazel
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        measure.tsv
        tokenize_and_classify.tsv
        lseq.tsv
        verbatim.tsv
        money.tsv
        telephone.tsv
        address.tsv
        classifier_repeater.tsv
      - universal_rules.grm
      - measure.grm
      - telephone.grm
      - classifier_repeater.grm
      - universal_func.grm
      - lseq_whitelist.tsv
      - measure_units_abbv.txt
      - measure_prefixes_km.txt
      - address.grm
      - lseq.grm
      - roman_numeral.grm
      - measure_units_km.txt
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - khmer.grm
      - classify.grm
      - connector.grm
  - festvox
    - BUILD.bazel
    - phonology.json
  - data
    - BUILD.bazel
- jv
  - sparrowhawk
    - jv_verbalize_spec.txt
    - BUILD.bazel
    - verbalizer.ascii_proto
    - sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
  - transcription.md
  - BUILD.bazel
  - textnorm
    - verbalizer
      - verbatim.grm
      - jv_verbalize_spec.txt
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - decimal.grm
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        ordinal.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - money_fractions.txt
      - measure.grm
      - digit.grm
      - telephone.grm
      - universal_func.grm
      - measurements.tsv
      - verbatim.tsv
      - money_currencies.txt
      - emoticons.tsv
      - verbalize.grm
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - number_names_rules.grm
      - date.grm
      - money.grm
      - connector.grm
    - classifier
      - money_classifier.grm
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - testdata
        money_classifier.tsv
        date_classifier.tsv
        time.tsv
        lseq.tsv
        ordinal.tsv
      - universal_rules.grm
      - universal_func.grm
      - spelling_exceptions.fst
      - date_classifier.grm
      - word_definition.grm
      - lseq.grm
      - tokenize_and_classify.grm
      - classify.grm
  - festvox
    - jvf.txt.done.data
    - BUILD.bazel
    - jvm.txt.done.data
    - phonology.json
  - tokenize.py
  - phoneme.syms
  - data
    - prompts.txt
    - BUILD.bazel
    - LICENSE
  - phonemes.txt
  - grapheme.syms
  - javanese.grm
- WORKSPACE
- bn
  - sparrowhawk
    - BUILD.bazel
    - bn_verbalize_spec.txt
    - verbalizer.ascii_proto
    - sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
  - transcription.md
  - BUILD.bazel
  - textnorm
    - verbalizer
      - verbatim.grm
      - time_zones.txt
      - ordinal.grm
      - money_major.txt
      - time.grm
      - money_country_minor.txt
      - BUILD.bazel
      - money_minor.txt
      - decimal.grm
      - verbalize_in.grm
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        abbreviation.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        electronic.tsv
        money.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        cardinal.tsv
      - emoji_annotations.tsv
      - universal_rules.grm
      - fraction.grm
      - abbreviation.grm
      - verbalize_bd.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - README
      - universal_func.grm
      - verbatim.tsv
      - electronic.grm
      - verbalize.grm
      - money_country_major.txt
      - lseq.grm
      - cardinal.grm
      - mini_lseq_rules.grm
      - number_names_rules.grm
      - date.grm
      - money.grm
      - connector.grm
    - classifier
      - ordinal.grm
      - bangla.grm
      - BUILD.bazel
      - testdata
        date.tsv
        connector.tsv
        abbreviation.tsv
        roman_numeral.tsv
        tokenize_and_classify.tsv
        lseq.tsv
      - universal_rules.grm
      - abbreviation.grm
      - measure.grm
      - telephone.grm
      - README
      - universal_func.grm
      - word_abbreviations.tsv
      - util.grm
      - lseq.grm
      - roman_numeral.grm
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - classify.grm
      - connector.grm
  - alignables.txt
  - festvox
    - BUILD.bazel
    - txt.done.data
    - phonology.json
    - README.md
  - data
    - BUILD.bazel
    - LICENSE
    - README.md
    - verbs.tsv
  - phonemes.txt
  - zero_width.py
  - tools
    - munge_iiit_ben.py
    - munge_enwiktionary.py
  - merlin
    - README.md
- .gitignore
- lo
  - lo_th_phonemes.txt
  - Laoo-Thai.txt
  - data_sets
- docs
  - JSON_PHONOLOGY.md
- mul_034
  - make_script_syms.py
  - compile_grm_helper.sh
  - Malayalam_InterIndic_test.py
  - indic_graphemes.tsv
  - Sinh_test.tsv
  - BUILD.bazel
  - Deva.grm
  - Deva_test.tsv
  - make_grm_fragment.py
  - Sinh.grm
  - script_util.py
  - make_grapheme_syms.py
  - Beng_test.tsv
  - build_defs.bzl
  - Beng.grm
  - extra.syms
- ta
  - grapheme.syms
- af
  - sparrowhawk
    - BUILD.bazel
    - verbalizer.ascii_proto
    - af_sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
  - BUILD.bazel
  - textnorm
    - verbalizer
      - verbatim.grm
      - measure_abbreviations.txt
      - ordinal.grm
      - time.grm
      - money_major_single.txt
      - BUILD.bazel
      - decimal.grm
      - universal_rules.grm
      - money_country_major_plural.txt
      - fraction.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - README
      - money_country_major_single.txt
      - universal_func.grm
      - measure_singular.txt
      - measure_plural.txt
      - electronic.grm
      - measure_prefixes.txt
      - verbalize.grm
      - verbatim_mappings.txt
      - money_major_plural.txt
      - lseq.grm
      - cardinal.grm
      - number_names_rules.grm
      - date.grm
      - money.grm
    - classifier
      - citation.grm
      - measure_abbreviations.txt
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - bible_books.txt
      - mapper.grm
      - universal_rules.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - README
      - universal_func.grm
      - range.grm
      - measure_singular.txt
      - measure_plural.txt
      - measure_prefixes.txt
      - sports_teams.txt
      - address.grm
      - lseq.grm
      - roman_numeral.grm
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - classify.grm
  - test_words.txt
  - alignables.txt
  - lex_additional.txt
  - festvox
    - BUILD.bazel
    - txt.done.data
    - phonology.json
    - README.md
  - lex_exceptions.txt
  - prepare-g2p-data.sh
  - data
    - BUILD.bazel
  - train-graphone-model.sh
  - lex_generated.txt
  - phonemes.txt
  - merlin
    - README.md
- ne
  - sparrowhawk
    - ne_verbalize_spec.txt
    - BUILD.bazel
    - verbalizer.ascii_proto
    - sparrowhawk.sh
    - README.md
    - sparrowhawk_configuration.ascii_proto
    - tokenizer.ascii_proto
  - textnorm
    - verbalizer
      - verbatim.grm
      - ordinal.grm
      - money_major.txt
      - ne_verbalize_spec.txt
      - time.grm
      - money_country_minor.txt
      - BUILD.bazel
      - money_minor.txt
      - decimal.grm
      - measure_units_en.tsv
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        decimal.tsv
        measure.tsv
        lseq.tsv
        verbatim.tsv
        ordinal.tsv
        electronic.tsv
        money.tsv
        emoticons.tsv
        digit.tsv
        fraction.tsv
        telephone.tsv
        cardinal.tsv
      - universal_rules.grm
      - fraction.grm
      - measure.grm
      - digit.grm
      - telephone.grm
      - measure_prefixes_ne.tsv
      - universal_func.grm
      - verbatim.tsv
      - electronic.grm
      - emoticons.tsv
      - measure_prefixes_en.tsv
      - urls.tsv
      - verbalize.grm
      - measure_units_ne.tsv
      - money_country_major.txt
      - lseq.grm
      - emoticons.grm
      - cardinal.grm
      - number_names_rules.grm
      - date.grm
      - money.grm
      - connector.grm
    - classifier
      - measure_units_ne.txt
      - ordinal.grm
      - time.grm
      - BUILD.bazel
      - testdata
        date.tsv
        connector.tsv
        time.tsv
        measure.tsv
        tokenize_and_classify.tsv
        ordinal.tsv
        money.tsv
        fraction.tsv
        devanagari.tsv
      - universal_rules.grm
      - measure.grm
      - universal_func.grm
      - devanagari.grm
      - util.grm
      - measure_prefixes_ne.txt
      - measure_units_abbv.txt
      - tokenize_and_classify.grm
      - date.grm
      - money.grm
      - classify.grm
      - connector.grm
  - festvox
    - BUILD.bazel
    - phonology.json
    - README.md
  - data
    - BUILD.bazel
- bazel
  - farmhash.BUILD
  - openfst.BUILD
  - BUILD.bazel
  - re2.BUILD
  - sparrowhawk.BUILD
  - six.BUILD
  - opengrm-ngram.BUILD
  - thrax.BUILD

Language Resources and Tools

Datasets and scripts for basic natural language and speech processing.

This is not an official Google product.

Natural Languages

Directory	Language Available
af	Afrikaans
bn	Bengali / Bangla
hi_ur	Hindi & Urdu
is	Icelandic
jv	Javanese
km	Khmer
lo	Lao
my	Burmese / Myanmar
ne	Nepali
si	Sinhala
su	Sundanese
xh	Xhosa
zu	Zulu

Tools

We are including a few tools for working with the natural language datasets. These tools are written in C++ and Python and are built with Bazel. To compile and use these tools, install a recent version of Bazel (minimally Bazel release 0.4.5 is required).

Opensourced Audio Data

Resource	Link
Sinhala TTS recordings (~3K)	https://www.openslr.org/30/
TTS recordings for four South African languages (af, st, tn, xh)	https://www.openslr.org/32/
Large Javanese ASR training data set (~185K)	https://www.openslr.org/35/
Large Sundanese ASR training data set (~220K)	https://www.openslr.org/36/
High quality TTS data for Bengali languages	https://www.openslr.org/37/
High quality TTS data for Javanese	https://www.openslr.org/41/
High quality TTS data for Khmer	https://www.openslr.org/42/
High quality TTS data for Nepali	https://www.openslr.org/43/
High quality TTS data for Sundanese	https://www.openslr.org/44/
Large Sinhala ASR training data set	https://www.openslr.org/52/
Large Bengali ASR training data set	https://www.openslr.org/53/
Large Nepali ASR training data set	https://www.openslr.org/54/
Crowdsourced high-quality Argentinian Spanish speech data set	https://www.openslr.org/61/
Crowdsourced high-quality Malayalam multi-speaker speech data set	https://www.openslr.org/63/
Crowdsourced high-quality Marathi multi-speaker speech data set	https://www.openslr.org/64/
Crowdsourced high-quality Tamil multi-speaker speech data set	https://www.openslr.org/65/
Crowdsourced high-quality Telugu multi-speaker speech data set	https://www.openslr.org/66/
Data set which contains recordings of Catalan	https://www.openslr.org/69
Crowdsourced high-quality Nigerian English speech data set	https://www.openslr.org/70
Crowdsourced high-quality Chilean Spanish speech data set	https://www.openslr.org/71
Crowdsourced high-quality Columbian Spanish speech data set	https://www.openslr.org/72
Crowdsourced high-quality Peruvian Spanish speech data set	https://www.openslr.org/73
Crowdsourced high-quality Puerto Rico Spanish speech data set	https://www.openslr.org/74
Crowdsourced high-quality Venezuelan Spanish speech data set	https://www.openslr.org/75
Crowdsourced high-quality Basque speech data set	https://www.openslr.org/76
Crowdsourced high-quality Galician speech data set	https://www.openslr.org/77
Crowdsourced high-quality Gujarati multi-speaker speech data set	https://www.openslr.org/78
Crowdsourced high-quality Kannada multi-speaker speech data set	https://www.openslr.org/79
Crowdsourced high-quality Burmese speech data set	https://www.openslr.org/80

Publications

License

Unless otherwise noted, all original files are licensed under an Apache License, Version 2.0.

Where specifically noted, some datasets are licensed under a Creative Commons Attribution 4.0 International License (CC BY 4.0).

The directory third_party/ contains third-party works, which we are including under the respective licenses of the upstream projects. See third_party/README.md for further details.