Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2017/2018

Information retrieval

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah
PI-IRT ZK 4 0+2
Přednášející:
Petr Kroha (gar.)
Cvičící:
Petr Kroha (gar.)
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:
Požadavky:

Přednáška je primárně určena pro doktorandy.

Osnova přednášek:

1.Úvod do problematiky Information retrieval

2.Neurčitost, relevance, přístup fuzzy

3.Normalizace textových dokumentů

4.Zipfův zákon

5.Indexování, dotazování a hledání ? metriky

6.Vektorový model - redukce dimenzí, latentní semantické indexování

7.Shlukování dokumentů a shlukování klíčových slov (clustering), vzdálenost, metriky podobnosti, centroid, metody shlukování

8.Klasifikace dokumentů. Bayesovská klasifikace, metoda k-NN, metoda rozhodovacích stromů, metoda support vector machine

9.Text mining - cíle a možnosti

10.Metody linguistiky v text mining. Lexikon, tokenization, part-of-speech tagging, named entity recognition, parsing, koreference

11.Aplikace metod text mining; automatická extrakce obsahu dokumentu, automatické shrnutí obsahu dokumentu, automatické odpovědi na dotazy.

Osnova cvičení:
Cíle studia:

S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je sledovat a číst. Metody oboru Information retrieval pomáhají najít informaci o tom, ve kterých dokumentech se hledaná informace zřejmě nachází. Provádí to tak, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah a uživatel cíle svého hledání.

Jako nástroje se zde používají metody lineární algebry pro práci s vektorovým modelem hledání, statistické a pravděpodobnostní metody, metody počítačové linguistiky i shlukovací a klasifikační metody umělé intelligence

Studijní materiály:

Základem jsou materiály přednášejícího, které studenti obdrží.

Z dostupné literatury jsou přednášce nejblíže knihy:

Baeza-Yates, R., Ribeiro-Neto, B.:

Modern Information Retrieval. Second edition, Addison-Wesley, 2011.

Weiss, S.M. et all:

Text Mining ? Predictive Methods for Analyzing Unstructured Information. Springer, 2005.

Poznámka:
Rozvrh na zimní semestr 2017/2018:
V tomto semestru se předmět nerozvrhuje
Rozvrh na letní semestr 2017/2018:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 21. 4. 2018
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet2120806.html