Dolování dat z webu
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
MI-DDW | Z,ZK | 4 | 2+1 | česky |
- Přednášející:
- Vojtěch Svátek (gar.)
- Cvičící:
- Vojtěch Svátek (gar.), Milan Dojchinovski, Ivo Lašek
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Student se seznámí podrobně s různými metodami vyhledávání a dolování dat na Internetu. Je schopen vytipovat v kontextu určité aplikace vhodnou metodu automatického zpracování webových dat a zorientovat se v možném postupu jejího použití.
- Požadavky:
-
Obeznámenost se základními principy reprezentace dat na WWW, např. jazykem HTML.
- Osnova přednášek:
-
1. Přehled hlavních okruhů metod dolování z webu: dolování z obsahu webu (Web Content Mining), ze struktury webu (Web Structure Mining) a z uživatelského chování na webu (Web Usage Mining).
2. Přehled praktických aplikací založených na dolování z webu.
3. Dolování z obsahu webu: indexování a vyhledávání dokumentů (Information Retrieval) ve webovém prostředí, booleovský a vektorový model vyhledávání, indexování latentní sémantiky (LSI); uspořádání nalezených dokumentů; meta-vyhledávání.
4. Dolování z obsahu webu: kategorizace a shlukování webových dokumentů.
5. Aplikace metod zpracování přirozeného jazyka při dolování z webu: lemmatizace, rozpoznávání slovních druhů, desambiguace, povrchová syntaktická analýza, atd.
6. Využívání struktury odkazů: primární procházení webu (crawling, spidering), analýza topologie odkazů, metody PageRank a HITS.
7. Globální analýza webu; analýza sociálních sítí na WWW.
8. Dolování z uživatelského chování na webu; internetový marketing.
9. Extrakce informací jako specifický typ dolování z obsahu webu: wrapperový přístup vs. extrakce aktivovaná příznaky.
10. Specifické aplikace: dolování názorů („opinion mining“) vs. dolování faktů („fact mining“), analýza webového spamu, komparativní nakupování, atd.
11. Integrace informací získaných z WWW, využití mapování schémat.
12. Vztah dolování z webu a technologií sémantického webu: automatické sémantické anotování, učení ontologií, vyhledávání na sémantickém webu.
- Osnova cvičení:
- Cíle studia:
-
Vybavit studenty přehledem o technologiích dolování z webu a schopností některé z nich aplikovat v praxi.
- Studijní materiály:
-
Pokorný, J., Snášel, V., Kopecký, M. ''Dokumentografické informační systémy''. Praha: Karolinum, 2005. ISBN 80-246-1148-1.
Chakrabarti, S. ''Mining the Web: Discovering Knowledge from Hypertext Data''. Morgan Kaufmann, 2002. ISBN 1558607544.
Konchady, M. ''Building Search Applications: Lucene, LingPipe, and Gate''. Mustru Publishing, 2008. ISBN 0615204252.
- Poznámka:
-
Rozsah=prednasky+proseminare+cviceni2p+1c, Prednasejici: doc. Dr. Ing. Vojtěch Svátek
- Rozvrh na zimní semestr 2011/2012:
- Rozvrh není připraven
- Rozvrh na letní semestr 2011/2012:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Předmět je součástí následujících studijních plánů:
-
- Zaměření Webové inženýrství - verze pro ty, kteří se zapsali v roce 2010 (povinný předmět zaměření)
- Zaměření Webové inženýrství - verze pro ty, kteří se zapsali v roce 2011 (povinný předmět zaměření)
- Zaměření Webové inženýrství - verze pro ty, kteří se zapsali v roce 2012 (povinný předmět zaměření)