Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Počítače a přirozený jazyk 2

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
01POPJ2 Z 2 0+2 česky
Přednášející:
Cvičící:
Ondřej Bojar (gar.)
Předmět zajišťuje:
katedra matematiky
Anotace:

Cílem předmětu je seznámit studenty se širokou problematikou strojového překladu. Strojový překlad je úlohou, na níž lze velmi názorně ilustrovat obtížnost a techniky modelování systémů složitých jako přirozený jazyk. Podrobně probereme několik velmi odlišných přístupů k této úloze i otázky strojového a lidského hodnocení kvality překladu.

Požadavky:
Osnova přednášek:

1. Metriky kvality strojového překladu (lidské i automatické).

2. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání („dekódování“). Frázový překlad.

3. Paralelní texty, jejich zarovnání a extrakce „překladových slovníků“ a pravidel z paralelních dat.

4. Morfologické předzpracování, frázový překlad o více faktorech.

5. Optimalizace parametrů log-lineárního modelu.

6. Složková syntax ve strojovém překladu, překlad založený na parsingu.

7. Závislostí syntax ve strojovém překladu.

8. Hloubková syntax ve strojovém překladu.

9. Prezentace vlastních příspěvků.

Osnova cvičení:
Cíle studia:

Znalosti:

Přehled o přístupech ke strojovému překladu (statistický frázový a hierarchický, stromové modely, hloubkově-syntaktický překlad), loglineární model a jeho optimalizace, prohledávání prostoru částečných hypotéz. Metody strojového a ručního hodnocení překladu.

Schopnosti:

Použití některé z probraných metod na konkrétní jazyková data. Navrhnout vlastní experiment a použít rozsáhlé volně šiřitelné nástroje k jeho realizaci. Vyhodnocení experimentu a srozumitelná prezentace psanou i mluvenou formou.

Studijní materiály:

Povinná literatura:

[1] Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Doporučená literatura:

[2] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.

http://www.statmt.org/moses/

[3] Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.

http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf

[4] Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.

http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf

[5] Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.

[6] Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003.

http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf

[7] Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.

http://ufal.mff.cuni.cz/pbml/91/art-li.pdf

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 7. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet23047005.html