Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Fulltextové vyhledávání

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
18FV Z 2 2C česky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Cílem předmětu „Fulltextové vyhledávání“ je seznámit studenty s metodami a datovými strukturami pro efektivní vyhledávání řetězců v textových souborech a se základními principy vyhledávání textových souborů v textových databázích.

Požadavky:

Vypracování a odevzdání dvou úloh - 1. Implementace a zhodnocení vybraného z probíraných algoritmů pro vyhledávání v textech a 2. sestrojení a zhodnocení jednoduchého indexu pro vyhledávání nad textovou databází. Témata seminárních prací by měla být předem schválena vyučujícím.

Osnova přednášek:
Osnova cvičení:

1. Úvod do problematiky vyhledávání v textových souborech a fulltextového vyhledávání, vymezení pojmů, základní principy.

2. Sekvenční algoritmy pro přesné vyhledávání vzorku v textu: naivní algoritmus, Boyer-Moore a jeho varianty, Knuth-Morris-Pratt, …

3. Algoritmy založené na indexu (suffixový strom, …)

4. Algoritmy založené na indexu (suffixový automat,…)

5. Algoritmy pro vyhledávání konečného počtu vzorků v textu (Aho-Corasick, …) a nekonečného počtu vzorků v textu (regulární výrazy)

6. Fulltextové vyhledávání: booleovský model a invertovaný index

7. Předzpracování textových dokumentů, tokenizace, slovník termů, …

8. Vytvoření indexu a jeho komprese

9. Řazení výsledků vyhledávání, relevance, vážení termů

10. Vektorový model

11. Zpracování výsledků vyhledávání, zpětná vazba, rozšiřování dotazů

12. Úvod od vyhledávání na webu

13. Softwarová řešení pro fulltextové vyhledávání

Cíle studia:
Studijní materiály:

[1] M. Crochemore, C. Hancart and T. Lecroq, Algorithms on Strings, Cambridge University

Press, 2007.

[2] C. D. Manning, P. Raghavan and H. Schütze, Introduction to Information Retrieval, Cambridge University Press, 2008.

[3] G. G. Chowdhury, Introduction to Modern Information Retrieval, 3rd Edition, Facet Publishing, 2017.

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 21. 11. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet7697306.html