Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Dolování dat z webu

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-DDW Z,ZK 4 2P+1C česky
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Student se seznámí podrobně s různými metodami vyhledávání a dolování dat na Internetu. Je schopen vytipovat v kontextu určité aplikace vhodnou metodu automatického zpracování webových dat a zorientovat se v možném postupu jejího použití.

Požadavky:

Obeznámenost se základními principy reprezentace dat na WWW, např. jazykem HTML.

Osnova přednášek:

1. Přehled hlavních okruhů metod dolování z webu: dolování z obsahu webu (Web Content Mining), ze struktury webu (Web Structure Mining) a z uživatelského chování na webu (Web Usage Mining).

2. Přehled praktických aplikací založených na dolování z webu.

3. Dolování z obsahu webu: indexování a vyhledávání dokumentů (Information Retrieval) ve webovém prostředí, booleovský a vektorový model vyhledávání, indexování latentní sémantiky (LSI); uspořádání nalezených dokumentů; meta-vyhledávání.

4. Dolování z obsahu webu: kategorizace a shlukování webových dokumentů.

5. Aplikace metod zpracování přirozeného jazyka při dolování z webu: lemmatizace, rozpoznávání slovních druhů, desambiguace, povrchová syntaktická analýza, atd.

6. Využívání struktury odkazů: primární procházení webu (crawling, spidering), analýza topologie odkazů, metody PageRank a HITS.

7. Globální analýza webu; analýza sociálních sítí na WWW.

8. Dolování z uživatelského chování na webu; internetový marketing.

9. Extrakce informací jako specifický typ dolování z obsahu webu: wrapperový přístup vs. extrakce aktivovaná příznaky.

10. Specifické aplikace: dolování názorů („opinion mining“) vs. dolování faktů („fact mining“), analýza webového spamu, komparativní nakupování, atd.

11. Integrace informací získaných z WWW, využití mapování schémat.

12. Vztah dolování z webu a technologií sémantického webu: automatické sémantické anotování, učení ontologií, vyhledávání na sémantickém webu.

Osnova cvičení:
Cíle studia:

Vybavit studenty přehledem o technologiích dolování z webu a schopností některé z nich aplikovat v praxi.

Studijní materiály:

Pokorný, J., Snášel, V., Kopecký, M. ''Dokumentografické informační systémy''. Praha: Karolinum, 2005. ISBN 80-246-1148-1.

Chakrabarti, S. ''Mining the Web: Discovering Knowledge from Hypertext Data''. Morgan Kaufmann, 2002. ISBN 1558607544.

Konchady, M. ''Building Search Applications: Lucene, LingPipe, and Gate''. Mustru Publishing, 2008. ISBN 0615204252.

Poznámka:

Rozsah=prednasky+proseminare+cviceni2p+1c

Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 9. 12. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1433806.html