Logo ČVUT
Loading...
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2011/2012

Dolování dat z webu

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-DDW Z,ZK 4 2+1 česky
Přednášející:
Vojtěch Svátek (gar.)
Cvičící:
Vojtěch Svátek (gar.), Milan Dojchinovski, Ivo Lašek
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Student se seznámí podrobně s různými metodami vyhledávání a dolování dat na Internetu. Je schopen vytipovat v kontextu určité aplikace vhodnou metodu automatického zpracování webových dat a zorientovat se v možném postupu jejího použití.

Požadavky:

Obeznámenost se základními principy reprezentace dat na WWW, např. jazykem HTML.

Osnova přednášek:

1. Přehled hlavních okruhů metod dolování z webu: dolování z obsahu webu (Web Content Mining), ze struktury webu (Web Structure Mining) a z uživatelského chování na webu (Web Usage Mining).

2. Přehled praktických aplikací založených na dolování z webu.

3. Dolování z obsahu webu: indexování a vyhledávání dokumentů (Information Retrieval) ve webovém prostředí, booleovský a vektorový model vyhledávání, indexování latentní sémantiky (LSI); uspořádání nalezených dokumentů; meta-vyhledávání.

4. Dolování z obsahu webu: kategorizace a shlukování webových dokumentů.

5. Aplikace metod zpracování přirozeného jazyka při dolování z webu: lemmatizace, rozpoznávání slovních druhů, desambiguace, povrchová syntaktická analýza, atd.

6. Využívání struktury odkazů: primární procházení webu (crawling, spidering), analýza topologie odkazů, metody PageRank a HITS.

7. Globální analýza webu; analýza sociálních sítí na WWW.

8. Dolování z uživatelského chování na webu; internetový marketing.

9. Extrakce informací jako specifický typ dolování z obsahu webu: wrapperový přístup vs. extrakce aktivovaná příznaky.

10. Specifické aplikace: dolování názorů („opinion mining“) vs. dolování faktů („fact mining“), analýza webového spamu, komparativní nakupování, atd.

11. Integrace informací získaných z WWW, využití mapování schémat.

12. Vztah dolování z webu a technologií sémantického webu: automatické sémantické anotování, učení ontologií, vyhledávání na sémantickém webu.

Osnova cvičení:
Cíle studia:

Vybavit studenty přehledem o technologiích dolování z webu a schopností některé z nich aplikovat v praxi.

Studijní materiály:

Pokorný, J., Snášel, V., Kopecký, M. ''Dokumentografické informační systémy''. Praha: Karolinum, 2005. ISBN 80-246-1148-1.

Chakrabarti, S. ''Mining the Web: Discovering Knowledge from Hypertext Data''. Morgan Kaufmann, 2002. ISBN 1558607544.

Konchady, M. ''Building Search Applications: Lucene, LingPipe, and Gate''. Mustru Publishing, 2008. ISBN 0615204252.

Poznámka:

Rozsah=prednasky+proseminare+cviceni2p+1c, Prednasejici: doc. Dr. Ing. Vojtěch Svátek

Rozvrh na zimní semestr 2011/2012:
Rozvrh není připraven
Rozvrh na letní semestr 2011/2012:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
Čt
místnost T9:350
Dojchinovski M.
14:30–16:00
LICHÝ TÝDEN

(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC ucebna
místnost T9:350
Lašek I.
16:15–17:45
LICHÝ TÝDEN

(přednášková par. 1
paralelka 103)

Dejvice
NBFIT PC ucebna
místnost T9:350
Lašek I.
14:30–16:00
SUDÝ TÝDEN

(přednášková par. 1
paralelka 102)

Dejvice
NBFIT PC ucebna
místnost T9:350
Lašek I.
16:15–17:45
SUDÝ TÝDEN

(přednášková par. 1
paralelka 104)

Dejvice
NBFIT PC ucebna

místnost VE:RB-209
Svátek V.
12:45–14:15
(přednášková par. 1)
VŠE Žižkov
VSE Prednaskova mistnost
Předmět je součástí následujících studijních plánů:
Platnost dat k 9. 7. 2012
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1433806.html