Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Úvod do zpracování přirozeného jazyka

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
B4M36NLP Z,ZK 6 2P+2C česky
Předmět nesmí být zapsán současně s:
Introduction to Natural Language Processing (BE4M36NLP)
Přednášející:
Ondřej Bojar, Jan Hajič, Pavel Pecina, Daniel Zeman, Zdeněk Žabokrtský
Cvičící:
Gustav Šír, Ondřej Bojar, Jan Hajič, Pavel Pecina, Daniel Zeman, Zdeněk Žabokrtský
Předmět zajišťuje:
katedra počítačů
Anotace:

V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými aplikacemi NLP, například strojovým překladem.

Požadavky:

Nejsou vyžadovány žádné speciální znalosti překračující obecný informatický základ. Výhodou je orientace studenta v pravděpodobnostních metodách a strojovém učení, nicméně všechny potřebné základní pojmy budou zopakovány na úvodních přednáškách.

Z hlediska cvičení je nezbytností dobrá znalost alespoň jednoho programovacího jazyka použitelného v unixovém prostředí.

Osnova přednášek:

1. Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace.

2. Jazykové modely a jejich vyhlazování.

3. Skryté markovovské modely.

4. Zdroje lingvistických dat, experiment v NLP.

5. Morfologické značkování.

6. Syntaktická analýza.

7. Přehled přístupů ke strojovému překladu.

8. Statistický strojový překlad.

9. Lingvistické rysy ve strojovém překladu.

10. Vyhledávání informací.

11. Váhy termů.

12. Klasifikace a shluková analýza dokumentů.

13. Vektorové modely (word embeddings)

14. Závěrečný písemný test

Osnova cvičení:

1. Zpracování textu na příkazové řádce bash, základní nástroje.

2. Kódování znaků národních abeced, jednoduchý korpus a jeho tokenizace.

3. Výpočet jazykového modelu.

4. Evaluační míry v NLP.

5. Seznámení s Českým národním korpusem.

6. Seznámení se syntakticky značkovanými korpusy.

7. Práce s paralelním korpusem.

8. Práce s překladovým systémem Moses.

9. Moses, pokračování.

10. Konstrukce indexu.

11. Výpočet váhy termů.

12. Klasifikace dokumentů.

13. Vektorové modely.

14. Závěrečný písemný test

Cíle studia:

Cílem je uvést studenty do problematiky zpracování přirozeného jazyka, běžně zahrnuté v computer science programech světových universit. Předmět bude vyučován odborníky z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Absolvování předmětu rovněž rozšíří stávající vhled studenta do oblasti umělé inteligence a strojového učení.

Studijní materiály:

Elektronické studijní materiály dodané k jednotlivým přednáškám.

Doporučená literatura nad rámec základních požadavků:

Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999

Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010.

Manning, C., Raghavan, P., Schuetze, H.:Introduction to Information Retrieval. Cambridge University Press, 2008.

Poznámka:

Předmět je zamýšlen především pro studenty 1.ročníku magisterského studia (kteří budou případně upřednostněni při zápisu). Předmět bude vyučován odborníky z MFF UFAL: prof. RNDr. Jan Hajič, Dr. http://ufal.mff.cuni.cz/jan-hajic

doc. Ing. Zdeněk Žabokrtský, Ph.D. http://ufal.mff.cuni.cz/zdenek-zabokrtsky

doc. RNDr. Pavel Pecina, Ph.D. http://ufal.mff.cuni.cz/~pecina

RNDr. Ondřej Bojar, Ph.D. http://ufal.mff.cuni.cz/ondrej-bojar

RNDr. Daniel Zeman, Ph.D. http://ufal.mff.cuni.cz/daniel-zeman

Pro případné zájemce je po dohodě možné též navštěvovat NLP předmety přímo na MFF : http://ufal.mff.cuni.cz/courses

Další informace:
http://ufal.mff.cuni.cz/~zabokrtsky/tmp/fel/index.html
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 12. 7. 2020
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet4878206.html