Počítače a přirozený jazyk 2
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
01POPJ2 | Z | 2 | 0+2 | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra matematiky
- Anotace:
-
Cílem předmětu je seznámit studenty se širokou problematikou strojového překladu. Strojový překlad je úlohou, na níž lze velmi názorně ilustrovat obtížnost a techniky modelování systémů složitých jako přirozený jazyk. Podrobně probereme několik velmi odlišných přístupů k této úloze i otázky strojového a lidského hodnocení kvality překladu.
- Požadavky:
- Osnova přednášek:
-
1. Metriky kvality strojového překladu (lidské i automatické).
2. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání („dekódování“). Frázový překlad.
3. Paralelní texty, jejich zarovnání a extrakce „překladových slovníků“ a pravidel z paralelních dat.
4. Morfologické předzpracování, frázový překlad o více faktorech.
5. Optimalizace parametrů log-lineárního modelu.
6. Složková syntax ve strojovém překladu, překlad založený na parsingu.
7. Závislostí syntax ve strojovém překladu.
8. Hloubková syntax ve strojovém překladu.
9. Prezentace vlastních příspěvků.
- Osnova cvičení:
- Cíle studia:
-
Znalosti:
Přehled o přístupech ke strojovému překladu (statistický frázový a hierarchický, stromové modely, hloubkově-syntaktický překlad), loglineární model a jeho optimalizace, prohledávání prostoru částečných hypotéz. Metody strojového a ručního hodnocení překladu.
Schopnosti:
Použití některé z probraných metod na konkrétní jazyková data. Navrhnout vlastní experiment a použít rozsáhlé volně šiřitelné nástroje k jeho realizaci. Vyhodnocení experimentu a srozumitelná prezentace psanou i mluvenou formou.
- Studijní materiály:
-
Povinná literatura:
[1] Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
Doporučená literatura:
[2] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
[3] Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.
http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
[4] Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
[5] Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.
[6] Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003.
http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
[7] Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- BS Matematické inženýrství - Matematické modelování (volitelný předmět)
- BS Matematické inženýrství - Matematická fyzika (volitelný předmět)
- BS Matematické inženýrství - Aplikované matematicko-stochastické metody (volitelný předmět)
- BS Informatická fyzika (volitelný předmět)
- BS Aplikace softwarového inženýrství (volitelný předmět)
- BS Aplikovaná informatika (volitelný předmět)
- BS jaderné inženýrství B (volitelný předmět)
- BS Jaderné inženýrství C (volitelný předmět)
- BS Dozimetrie a aplikace ionizujícího záření (volitelný předmět)
- BS Experimentální jaderná a částicová fyzika (volitelný předmět)
- BS Inženýrství pevných látek (volitelný předmět)
- BS Diagnostika materiálů (volitelný předmět)
- BS Fyzika a technika termojaderné fúze (volitelný předmět)
- BS Fyzikální elektronika (volitelný předmět)
- BS Jaderná chemie (volitelný předmět)