Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2022/2023

Dolování dat z webu

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
NI-DDW Z,ZK 5 2P+1C česky
Přednášející:
Jaroslav Kuchař (gar.)
Cvičící:
Jaroslav Kuchař (gar.), Milan Dojčinovski
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Studenti se v předmětu seznámí s metodami a technologiemi pro získávání dat z webu, jejich zpracování a praktické využití v reálných aplikacích. Získají přehled a znalosti z oblastí analýzy webového obsahu, analýzy chování uživatelů, sociálního webu a doporučovacích systémů.

Požadavky:

Znalost architektury webu (HTTP, HTML, URI), znalosti programování (např. Java, JavaScript), teorie grafů a znalosti základních algoritmů.

Osnova přednášek:

1. Základní principy a pojmy dolování dat z webu.

2. Metody přístupu k datům a jejich získávání (formáty, omezení, etické aspekty).

3. Nástroje pro získávání obsahu.

4. Extrakce a přístup ke specifickým informacím webu (textový obsah, hluboký web).

5. Dolování z textových dat.

6. Praktické aplikace dolování z textových dat.

7. Analýza struktury a obsahu sociálních sítí (2).

8. Grafová reprezentace webových dat, web jako graf.

9. Analýza chování uživatelů na webu: sběr informací o uživatelích.

10. Analýza chování uživatelů na webu: analýza dat, webová analytika.

11. Doporučovací systémy a personalizace.

12. Algoritmy pro dolování z proudu dat a jejich aplikace.

Osnova cvičení:

1. Základní metody pro získávání dat a jejich zpracování

2. Předzpracování textu, aplikace metod text miningu

3. Získávání a analýza dat v grafové podobě

4. Analýza dat generovaných uživateli

5. Základní metody doporučovacích systémů

6. Prezentace projektů a zápočet

Cíle studia:

Vybavit studenty přehledem o technologiích dolování z webu a schopností některé z nich aplikovat v praxi.

Studijní materiály:

1. Liu, B. „Web Data Mining“, Springer-Verlag Berlin Heidelberg, 2011. ISBN 978-3-642-19459-7.

2. Charu C. Aggarwal. „Machine Learning for Text“, Springer, 2018. ISBN 9783319735313.

3. Easley, D., Kleinberg, J. „Networks, Crowds, and Markets: Reasoning About a Highly Connected World“, Cambridge

4. A. Russel, M. „Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More (3rd Edition)“, O'Reilly Media, 2019. ISBN 978-1491985045.

5. Charu C. Aggarwal. „Recommender Systems: The Textbook“, Springer, 2016. ISBN 9783319296579.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/NI-DDW/

Další informace:
https://courses.fit.cvut.cz/NI-DDW/
Rozvrh na zimní semestr 2022/2023:
Rozvrh není připraven
Rozvrh na letní semestr 2022/2023:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
místnost TH:A-s134
Kuchař J.
12:45–14:15
(přednášková par. 1)
Thákurova 7 (FSv-budova A)
As134
místnost T9:349
Kuchař J.
16:15–17:45
LICHÝ TÝDEN

(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC učebna
Út
St
Čt

Předmět je součástí následujících studijních plánů:
Platnost dat k 6. 2. 2023
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet6119706.html