python source code of sentence

pyrouge-master
- CHANGES.txt
- pyrouge
  - utils
    - log.py
    - file_utils.py
    - sentence_splitter.py
    - file_utils.py.bak
    - string_utils.py
    - __init__.py
    - argparsers.py
  - __init__.py
  - tests
    - Rouge155_test.py
    - data
      - systems_plain
        D30003.M.100.T.A
        D30005.M.100.T.A
        D30001.M.100.T.A
        D30002.M.100.T.A
      - ROUGE-test_11.xml
      - systems2
        D30003.M.100.T.A
        D30005.M.100.T.A
        D30001.M.100.T.A
        D30002.M.100.T.A
      - config_test2.xml
      - models
        SL.P.10.R.D.SL062003-14.html
        SL.P.10.R.B.SL062003-10.html
        SL.P.10.R.A.SL062003-23.html
        SL.P.10.R.D.SL062003-16.html
        SL.P.10.R.A.SL062003-02.html
        SL.P.10.R.C.SL062003-24.html
        SL.P.10.R.D.SL062003-07.html
        SL.P.10.R.A.SL062003-18.html
        SL.P.10.R.A.SL062003-13.html
        SL.P.10.R.A.SL062003-25.html
        SL.P.10.R.B.SL062003-16.html
        SL.P.10.R.B.SL062003-22.html
        SL.P.10.R.B.SL062003-03.html
        SL.P.10.R.C.SL062003-25.html
        SL.P.10.R.B.SL062003-01.html
        SL.P.10.R.C.SL062003-17.html
        SL.P.10.R.A.SL062003-21.html
        SL.P.10.R.D.SL062003-01.html
        SL.P.10.R.C.SL062003-21.html
        SL.P.10.R.C.SL062003-10.html
        SL.P.10.R.C.SL062003-05.html
        SL.P.10.R.D.SL062003-13.html
        SL.P.10.R.C.SL062003-03.html
        SL.P.10.R.A.SL062003-24.html
        SL.P.10.R.A.SL062003-08.html
        SL.P.10.R.C.SL062003-14.html
        SL.P.10.R.D.SL062003-04.html
        SL.P.10.R.D.SL062003-02.html
        SL.P.10.R.A.SL062003-09.html
        SL.P.10.R.B.SL062003-04.html
        SL.P.10.R.A.SL062003-15.html
        SL.P.10.R.D.SL062003-23.html
        SL.P.10.R.D.SL062003-17.html
        SL.P.10.R.B.SL062003-20.html
        SL.P.10.R.B.SL062003-18.html
        SL.P.10.R.D.SL062003-24.html
        SL.P.10.R.A.SL062003-05.html
        SL.P.10.R.B.SL062003-02.html
        SL.P.10.R.C.SL062003-15.html
        SL.P.10.R.D.SL062003-08.html
        SL.P.10.R.D.SL062003-12.html
        SL.P.10.R.C.SL062003-04.html
        SL.P.10.R.A.SL062003-06.html
        SL.P.10.R.D.SL062003-20.html
        SL.P.10.R.C.SL062003-22.html
        SL.P.10.R.B.SL062003-06.html
        SL.P.10.R.C.SL062003-23.html
        SL.P.10.R.B.SL062003-15.html
        SL.P.10.R.D.SL062003-06.html
        SL.P.10.R.B.SL062003-09.html
        SL.P.10.R.B.SL062003-24.html
        SL.P.10.R.B.SL062003-05.html
        SL.P.10.R.C.SL062003-08.html
        SL.P.10.R.C.SL062003-02.html
        SL.P.10.R.D.SL062003-11.html
        SL.P.10.R.B.SL062003-25.html
        SL.P.10.R.B.SL062003-17.html
        SL.P.10.R.A.SL062003-22.html
        SL.P.10.R.A.SL062003-20.html
        SL.P.10.R.D.SL062003-25.html
        SL.P.10.R.D.SL062003-15.html
        SL.P.10.R.C.SL062003-20.html
        SL.P.10.R.B.SL062003-23.html
        SL.P.10.R.A.SL062003-19.html
        SL.P.10.R.A.SL062003-16.html
        SL.P.10.R.A.SL062003-14.html
        SL.P.10.R.A.SL062003-10.html
        SL.P.10.R.C.SL062003-06.html
        SL.P.10.R.C.SL062003-16.html
        SL.P.10.R.B.SL062003-12.html
        SL.P.10.R.B.SL062003-21.html
        SL.P.10.R.C.SL062003-13.html
        SL.P.10.R.D.SL062003-05.html
        SL.P.10.R.C.SL062003-18.html
        SL.P.10.R.D.SL062003-03.html
        SL.P.10.R.B.SL062003-07.html
        SL.P.10.R.A.SL062003-01.html
        SL.P.10.R.D.SL062003-09.html
        SL.P.10.R.C.SL062003-11.html
        SL.P.10.R.C.SL062003-07.html
        SL.P.10.R.D.SL062003-21.html
        SL.P.10.R.C.SL062003-12.html
        SL.P.10.R.B.SL062003-13.html
        SL.P.10.R.C.SL062003-09.html
        SL.P.10.R.B.SL062003-14.html
        SL.P.10.R.D.SL062003-19.html
        SL.P.10.R.C.SL062003-19.html
        SL.P.10.R.B.SL062003-11.html
        SL.P.10.R.A.SL062003-17.html
        SL.P.10.R.A.SL062003-07.html
        SL.P.10.R.D.SL062003-10.html
        SL.P.10.R.B.SL062003-08.html
        SL.P.10.R.B.SL062003-19.html
        SL.P.10.R.D.SL062003-18.html
        SL.P.10.R.A.SL062003-04.html
        SL.P.10.R.D.SL062003-22.html
        SL.P.10.R.C.SL062003-01.html
        SL.P.10.R.A.SL062003-03.html
        SL.P.10.R.A.SL062003-11.html
        SL.P.10.R.A.SL062003-12.html
      - spl_test_doc
      - SL2003_models_plain_text
        SL.P.10.R.A.SL062003-23.html
        SL.P.10.R.A.SL062003-02.html
        SL.P.10.R.A.SL062003-18.html
        SL.P.10.R.A.SL062003-13.html
        SL.P.10.R.A.SL062003-25.html
        SL.P.10.R.A.SL062003-21.html
        SL.P.10.R.A.SL062003-24.html
        SL.P.10.R.A.SL062003-08.html
        SL.P.10.R.A.SL062003-09.html
        SL.P.10.R.A.SL062003-15.html
        SL.P.10.R.A.SL062003-05.html
        SL.P.10.R.A.SL062003-06.html
        SL.P.10.R.A.SL062003-22.html
        SL.P.10.R.A.SL062003-20.html
        SL.P.10.R.A.SL062003-19.html
        SL.P.10.R.A.SL062003-16.html
        SL.P.10.R.A.SL062003-14.html
        SL.P.10.R.A.SL062003-10.html
        SL.P.10.R.A.SL062003-01.html
        SL.P.10.R.A.SL062003-17.html
        SL.P.10.R.A.SL062003-07.html
        SL.P.10.R.A.SL062003-04.html
        SL.P.10.R.A.SL062003-03.html
        SL.P.10.R.A.SL062003-11.html
        SL.P.10.R.A.SL062003-12.html
      - SL2003_models_rouge_format
        SL.P.10.R.A.SL062003-23.html
        SL.P.10.R.A.SL062003-02.html
        SL.P.10.R.A.SL062003-18.html
        SL.P.10.R.A.SL062003-13.html
        SL.P.10.R.A.SL062003-25.html
        SL.P.10.R.A.SL062003-21.html
        SL.P.10.R.A.SL062003-24.html
        SL.P.10.R.A.SL062003-08.html
        SL.P.10.R.A.SL062003-09.html
        SL.P.10.R.A.SL062003-15.html
        SL.P.10.R.A.SL062003-05.html
        SL.P.10.R.A.SL062003-06.html
        SL.P.10.R.A.SL062003-22.html
        SL.P.10.R.A.SL062003-20.html
        SL.P.10.R.A.SL062003-19.html
        SL.P.10.R.A.SL062003-16.html
        SL.P.10.R.A.SL062003-14.html
        SL.P.10.R.A.SL062003-10.html
        SL.P.10.R.A.SL062003-01.html
        SL.P.10.R.A.SL062003-17.html
        SL.P.10.R.A.SL062003-07.html
        SL.P.10.R.A.SL062003-04.html
        SL.P.10.R.A.SL062003-03.html
        SL.P.10.R.A.SL062003-11.html
        SL.P.10.R.A.SL062003-12.html
      - models2
        D30001.M.100.T.D
        D30005.M.100.T.B
        D30002.M.100.T.B
        D30002.M.100.T.E
        D30005.M.100.T.G
        D30003.M.100.T.F
        D30001.M.100.T.B
        D30003.M.100.T.B
        D30002.M.100.T.C
        D30005.M.100.T.C
        D30001.M.100.T.C
        D30003.M.100.T.C
      - spl_test_doc.html
      - models_plain
        D30001.M.100.T.D
        D30005.M.100.T.B
        D30002.M.100.T.B
        D30002.M.100.T.E
        D30005.M.100.T.G
        D30003.M.100.T.F
        D30001.M.100.T.B
        D30003.M.100.T.B
        D30002.M.100.T.C
        D30005.M.100.T.C
        D30001.M.100.T.C
        D30003.M.100.T.C
      - m
        D30001.M.100.T.D
        D30005.M.100.T.B
        D30002.M.100.T.B
        D30002.M.100.T.E
        D30005.M.100.T.G
        D30003.M.100.T.F
        D30001.M.100.T.B
        D30003.M.100.T.B
        D30002.M.100.T.C
        D30005.M.100.T.C
        D30001.M.100.T.C
        D30003.M.100.T.C
      - systems
        SL.P.10.R.21.SL062003-25.html
        SL.P.10.R.24.SL062003-16.html
        SL.P.10.R.23.SL062003-10.html
        SL.P.10.R.13.SL062003-04.html
        SL.P.10.R.21.SL062003-23.html
        SL.P.10.R.22.SL062003-14.html
        SL.P.10.R.11.SL062003-13.html
        SL.P.10.R.12.SL062003-02.html
        SL.P.10.R.11.SL062003-19.html
        SL.P.10.R.12.SL062003-04.html
        SL.P.10.R.21.SL062003-12.html
        SL.P.10.R.11.SL062003-04.html
        SL.P.10.R.24.SL062003-11.html
        SL.P.10.R.21.SL062003-10.html
        SL.P.10.R.23.SL062003-02.html
        SL.P.10.R.23.SL062003-22.html
        SL.P.10.R.12.SL062003-09.html
        SL.P.10.R.24.SL062003-07.html
        SL.P.10.R.11.SL062003-22.html
        SL.P.10.R.22.SL062003-09.html
        SL.P.10.R.21.SL062003-24.html
        SL.P.10.R.12.SL062003-22.html
        SL.P.10.R.23.SL062003-15.html
        SL.P.10.R.13.SL062003-12.html
        SL.P.10.R.23.SL062003-07.html
        SL.P.10.R.22.SL062003-01.html
        SL.P.10.R.12.SL062003-08.html
        SL.P.10.R.24.SL062003-02.html
        SL.P.10.R.13.SL062003-07.html
        SL.P.10.R.14.SL062003-19.html
        SL.P.10.R.13.SL062003-15.html
        SL.P.10.R.24.SL062003-19.html
        SL.P.10.R.14.SL062003-05.html
        SL.P.10.R.11.SL062003-01.html
        SL.P.10.R.23.SL062003-08.html
        SL.P.10.R.21.SL062003-11.html
        SL.P.10.R.11.SL062003-05.html
        SL.P.10.R.21.SL062003-08.html
        SL.P.10.R.23.SL062003-01.html
        SL.P.10.R.21.SL062003-02.html
        SL.P.10.R.24.SL062003-23.html
        SL.P.10.R.23.SL062003-09.html
        SL.P.10.R.21.SL062003-21.html
        SL.P.10.R.22.SL062003-13.html
        SL.P.10.R.21.SL062003-05.html
        SL.P.10.R.22.SL062003-02.html
        SL.P.10.R.23.SL062003-25.html
        SL.P.10.R.22.SL062003-16.html
        SL.P.10.R.12.SL062003-12.html
        SL.P.10.R.24.SL062003-18.html
        SL.P.10.R.24.SL062003-21.html
        SL.P.10.R.11.SL062003-16.html
        SL.P.10.R.13.SL062003-03.html
        SL.P.10.R.12.SL062003-25.html
        SL.P.10.R.12.SL062003-15.html
        SL.P.10.R.12.SL062003-06.html
        SL.P.10.R.23.SL062003-04.html
        SL.P.10.R.21.SL062003-13.html
        SL.P.10.R.21.SL062003-14.html
        SL.P.10.R.23.SL062003-05.html
        SL.P.10.R.21.SL062003-01.html
        SL.P.10.R.14.SL062003-18.html
        SL.P.10.R.12.SL062003-01.html
        SL.P.10.R.13.SL062003-13.html
        SL.P.10.R.12.SL062003-19.html
        SL.P.10.R.23.SL062003-24.html
        SL.P.10.R.23.SL062003-23.html
        SL.P.10.R.22.SL062003-21.html
        SL.P.10.R.24.SL062003-22.html
        SL.P.10.R.11.SL062003-20.html
        SL.P.10.R.13.SL062003-01.html
        SL.P.10.R.22.SL062003-22.html
        SL.P.10.R.24.SL062003-06.html
        SL.P.10.R.24.SL062003-24.html
        SL.P.10.R.22.SL062003-06.html
        SL.P.10.R.11.SL062003-12.html
        SL.P.10.R.11.SL062003-11.html
        SL.P.10.R.23.SL062003-12.html
        SL.P.10.R.22.SL062003-11.html
        SL.P.10.R.22.SL062003-05.html
        SL.P.10.R.22.SL062003-15.html
        SL.P.10.R.24.SL062003-13.html
        SL.P.10.R.13.SL062003-16.html
        SL.P.10.R.24.SL062003-10.html
        SL.P.10.R.11.SL062003-07.html
        SL.P.10.R.12.SL062003-20.html
        SL.P.10.R.23.SL062003-20.html
        SL.P.10.R.14.SL062003-24.html
        SL.P.10.R.22.SL062003-19.html
        SL.P.10.R.24.SL062003-05.html
        SL.P.10.R.12.SL062003-23.html
        SL.P.10.R.23.SL062003-16.html
        SL.P.10.R.21.SL062003-07.html
        SL.P.10.R.12.SL062003-21.html
        SL.P.10.R.21.SL062003-17.html
        SL.P.10.R.22.SL062003-07.html
        SL.P.10.R.11.SL062003-21.html
        SL.P.10.R.24.SL062003-17.html
        SL.P.10.R.21.SL062003-06.html
        SL.P.10.R.11.SL062003-03.html
        SL.P.10.R.23.SL062003-11.html
        SL.P.10.R.14.SL062003-07.html
        SL.P.10.R.14.SL062003-15.html
        SL.P.10.R.14.SL062003-22.html
        SL.P.10.R.12.SL062003-17.html
        SL.P.10.R.13.SL062003-19.html
        SL.P.10.R.24.SL062003-01.html
        SL.P.10.R.14.SL062003-21.html
        SL.P.10.R.22.SL062003-04.html
        SL.P.10.R.24.SL062003-04.html
        SL.P.10.R.24.SL062003-03.html
        SL.P.10.R.23.SL062003-18.html
        SL.P.10.R.21.SL062003-16.html
        SL.P.10.R.13.SL062003-06.html
        SL.P.10.R.13.SL062003-14.html
        SL.P.10.R.11.SL062003-17.html
        SL.P.10.R.22.SL062003-12.html
        SL.P.10.R.14.SL062003-14.html
        SL.P.10.R.14.SL062003-23.html
        SL.P.10.R.24.SL062003-08.html
        SL.P.10.R.12.SL062003-03.html
        SL.P.10.R.11.SL062003-23.html
        SL.P.10.R.14.SL062003-04.html
        SL.P.10.R.11.SL062003-15.html
        SL.P.10.R.12.SL062003-10.html
        SL.P.10.R.13.SL062003-08.html
        SL.P.10.R.11.SL062003-18.html
        SL.P.10.R.14.SL062003-09.html
        SL.P.10.R.12.SL062003-14.html
        SL.P.10.R.14.SL062003-25.html
        SL.P.10.R.21.SL062003-20.html
        SL.P.10.R.12.SL062003-13.html
        SL.P.10.R.12.SL062003-18.html
        SL.P.10.R.14.SL062003-08.html
        SL.P.10.R.22.SL062003-20.html
        SL.P.10.R.11.SL062003-06.html
        SL.P.10.R.13.SL062003-22.html
        SL.P.10.R.11.SL062003-08.html
        SL.P.10.R.13.SL062003-10.html
        SL.P.10.R.24.SL062003-15.html
        SL.P.10.R.23.SL062003-17.html
        SL.P.10.R.21.SL062003-09.html
        SL.P.10.R.23.SL062003-06.html
        SL.P.10.R.14.SL062003-03.html
        SL.P.10.R.22.SL062003-23.html
        SL.P.10.R.14.SL062003-16.html
        SL.P.10.R.14.SL062003-11.html
        SL.P.10.R.23.SL062003-21.html
        SL.P.10.R.21.SL062003-03.html
        SL.P.10.R.23.SL062003-19.html
        SL.P.10.R.22.SL062003-10.html
        SL.P.10.R.12.SL062003-11.html
        SL.P.10.R.13.SL062003-18.html
        SL.P.10.R.23.SL062003-13.html
        SL.P.10.R.14.SL062003-02.html
        SL.P.10.R.13.SL062003-11.html
        SL.P.10.R.22.SL062003-18.html
        SL.P.10.R.11.SL062003-09.html
        SL.P.10.R.23.SL062003-14.html
        SL.P.10.R.13.SL062003-05.html
        SL.P.10.R.13.SL062003-21.html
        SL.P.10.R.24.SL062003-14.html
        SL.P.10.R.14.SL062003-10.html
        SL.P.10.R.12.SL062003-07.html
        SL.P.10.R.22.SL062003-25.html
        SL.P.10.R.21.SL062003-18.html
        SL.P.10.R.22.SL062003-03.html
        SL.P.10.R.11.SL062003-02.html
        SL.P.10.R.12.SL062003-16.html
        SL.P.10.R.12.SL062003-05.html
        SL.P.10.R.21.SL062003-15.html
        SL.P.10.R.24.SL062003-12.html
        SL.P.10.R.22.SL062003-24.html
        SL.P.10.R.14.SL062003-06.html
        SL.P.10.R.11.SL062003-24.html
        SL.P.10.R.14.SL062003-20.html
        SL.P.10.R.22.SL062003-08.html
        SL.P.10.R.14.SL062003-01.html
        SL.P.10.R.13.SL062003-24.html
        SL.P.10.R.13.SL062003-20.html
        SL.P.10.R.14.SL062003-17.html
        SL.P.10.R.13.SL062003-25.html
        SL.P.10.R.24.SL062003-09.html
        SL.P.10.R.24.SL062003-25.html
        SL.P.10.R.13.SL062003-02.html
        SL.P.10.R.21.SL062003-04.html
        SL.P.10.R.21.SL062003-19.html
        SL.P.10.R.12.SL062003-24.html
        SL.P.10.R.13.SL062003-17.html
        SL.P.10.R.11.SL062003-10.html
        SL.P.10.R.11.SL062003-14.html
        SL.P.10.R.13.SL062003-23.html
        SL.P.10.R.13.SL062003-09.html
        SL.P.10.R.24.SL062003-20.html
        SL.P.10.R.22.SL062003-17.html
        SL.P.10.R.21.SL062003-22.html
        SL.P.10.R.11.SL062003-25.html
        SL.P.10.R.14.SL062003-13.html
        SL.P.10.R.14.SL062003-12.html
        SL.P.10.R.23.SL062003-03.html
      - config_test.xml
    - __main__.py
    - __init__.py
  - test.py
  - Rouge155.py
- .gitattributes
- README.rst
- setup.py
- PKG-INFO
- setup.cfg
- bin
  - pyrouge_evaluate_rouge_format_files
  - pyrouge_set_rouge_path
  - pyrouge_evaluate_plain_text_files
  - pyrouge_write_config_file
  - pyrouge_convert_rouge_format_to_plain_text
  - pyrouge_convert_plain_text_to_rouge_format
- .gitignore
- LICENSE.txt

from __future__ import print_function, unicode_literals, division

from pyrouge.utils import log
from pyrouge.utils.string_utils import cleanup
from pyrouge.utils.file_utils import DirectoryProcessor


class PunktSentenceSplitter:
    """
    Splits sentences using the NLTK Punkt sentence tokenizer. If installed,
    PunktSentenceSplitter can use the default NLTK data for English, otherwise
    custom trained data has to be provided.

    """

    def __init__(self, language="en", punkt_data_path=None):
        self.lang2datapath = {"en": "tokenizers/punkt/english.pickle"}
        self.log = log.get_global_console_logger()
        try:
            import nltk.data
        except ImportError:
            self.log.error(
                "Cannot import NLTK data for the sentence splitter. Please "
                "check if the 'punkt' NLTK-package is installed correctly.")
        try:
            if not punkt_data_path:
                punkt_data_path = self.lang2datapath[language]
            self.sent_detector = nltk.data.load(punkt_data_path)
        except KeyError:
            self.log.error(
                "No sentence splitter data for language {}.".format(language))
        except:
            self.log.error(
                "Could not load sentence splitter data: {}".format(
                    self.lang2datapath[language]))

    def split(self, text):
        """Splits text and returns a list of the resulting sentences."""
        text = cleanup(text)
        return self.sent_detector.tokenize(text.strip())

    @staticmethod
    def split_files(input_dir, output_dir, lang="en", punkt_data_path=None):
        ss = PunktSentenceSplitter(lang, punkt_data_path)
        DirectoryProcessor.process(input_dir, output_dir, ss.split)

if __name__ == '__main__':
    text = "Punkt knows that the periods in Mr. Smith and Johann S. Bach do "
    "not mark sentence boundaries.  And sometimes sentences can start with "
    "non-capitalized words. i is a good variable name."
    ss = PunktSentenceSplitter()
    print(ss.split(text))