Information retrieval
Kód | Zakončení | Kredity | Rozsah |
---|---|---|---|
PI-IRT | ZK | 4 | 3C |
- Garant předmětu:
- Petr Kroha
- Přednášející:
- Petr Kroha
- Cvičící:
- Petr Kroha
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Cílem předmětu je podat informace o metodách vyhledávání textových souborů v textových databázích. Tyto metody se používají i pro vyhledávání v textovém obsahu webových stránek. Analyzovány jsou možnosti náhrady textového dokumentu indexy, vytvoření slovníku a jeho komprimace, a vlastní hledání textových dokumentů podle deskriptorů.
- Požadavky:
-
Přednáška je primárně určena pro doktorandy.
- Osnova přednášek:
-
1. Úvod do problematiky Information retrieval
2. Neurčitost, relevance, přístup fuzzy
3. Problémy zpracování textu
4. Normalizace textových dokumentů
5. Zipfův zákon
6. Dotazozování a hledání
7. Slovník a jeho komprimace
8. Vektorový model - redukce dimenzí
9. Metriky podobností
10. Shlukování dokumentů a shlukování klíčových slov (clustering)
11. Metriky podobnosti, centroid, metody shlukování
12. Algoritmus Rocchio
- Osnova cvičení:
- Cíle studia:
-
S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je sledovat a číst. Metody oboru Information retrieval pomáhají najít informaci o tom, ve kterých dokumentech se hledaná informace zřejmě nachází. Provádí to tak, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah a uživatel cíle svého hledání.
Jako nástroje se zde používají metody lineární algebry pro práci s vektorovým modelem hledání, statistické a pravděpodobnostní metody, metody počítačové linguistiky i shlukovací a klasifikační metody umělé intelligence
- Studijní materiály:
-
Základem jsou materiály přednášejícího, které studenti obdrží.
Z dostupné literatury jsou přednášce nejblíže knihy:
Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Second edition, Addison-Wesley, 2011.
Manning, C.D., Raghavan, P., and Schülze, H.: Information Retrieval. Cambridge.
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Informatika (doktorská) (povinně volitelný předmět)
- Informatika (povinně volitelný předmět)