Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Information retrieval

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah
PI-IRT ZK 4 3C
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Cílem předmětu je podat informace o metodách vyhledávání textových souborů v textových databázích. Tyto metody se používají i pro vyhledávání v textovém obsahu webových stránek. Analyzovány jsou možnosti náhrady textového dokumentu indexy, vytvoření slovníku a jeho komprimace, a vlastní hledání textových dokumentů podle deskriptorů.

Požadavky:

Přednáška je primárně určena pro doktorandy.

Osnova přednášek:

1. Úvod do problematiky Information retrieval

2. Neurčitost, relevance, přístup fuzzy

3. Problémy zpracování textu

4. Normalizace textových dokumentů

5. Zipfův zákon

6. Dotazozování a hledání

7. Slovník a jeho komprimace

8. Vektorový model - redukce dimenzí

9. Metriky podobností

10. Shlukování dokumentů a shlukování klíčových slov (clustering)

11. Metriky podobnosti, centroid, metody shlukování

12. Algoritmus Rocchio

Osnova cvičení:
Cíle studia:

S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je sledovat a číst. Metody oboru Information retrieval pomáhají najít informaci o tom, ve kterých dokumentech se hledaná informace zřejmě nachází. Provádí to tak, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah a uživatel cíle svého hledání.

Jako nástroje se zde používají metody lineární algebry pro práci s vektorovým modelem hledání, statistické a pravděpodobnostní metody, metody počítačové linguistiky i shlukovací a klasifikační metody umělé intelligence

Studijní materiály:

Základem jsou materiály přednášejícího, které studenti obdrží.

Z dostupné literatury jsou přednášce nejblíže knihy:

Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Second edition, Addison-Wesley, 2011.

Manning, C.D., Raghavan, P., and Schülze, H.: Information Retrieval. Cambridge.

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 6. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet2120806.html