Dolování dat z webu
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
NI-DDW | Z,ZK | 5 | 2P+1C | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Studenti se v předmětu seznámí s metodami a technologiemi pro získávání dat z webu, jejich zpracování a praktické využití v reálných aplikacích. Získají přehled a znalosti z oblastí analýzy webového obsahu, analýzy chování uživatelů, sociálního webu a doporučovacích systémů.
- Požadavky:
-
Znalost architektury webu (HTTP, HTML, URI), znalosti programování (např. Java, JavaScript), teorie grafů a znalosti základních algoritmů.
- Osnova přednášek:
-
1. Základní principy a pojmy dolování dat z webu.
2. Metody přístupu k datům a jejich získávání (formáty, omezení, etické aspekty).
3. Nástroje pro získávání obsahu.
4. Extrakce a přístup ke specifickým informacím webu (textový obsah, hluboký web).
5. Dolování z textových dat.
6. Praktické aplikace dolování z textových dat.
7. Analýza struktury a obsahu sociálních sítí (2).
8. Grafová reprezentace webových dat, web jako graf.
9. Analýza chování uživatelů na webu: sběr informací o uživatelích.
10. Analýza chování uživatelů na webu: analýza dat, webová analytika.
11. Doporučovací systémy a personalizace.
12. Algoritmy pro dolování z proudu dat a jejich aplikace.
- Osnova cvičení:
-
1. Základní metody pro získávání dat a jejich zpracování
2. Předzpracování textu, aplikace metod text miningu
3. Získávání a analýza dat v grafové podobě
4. Analýza dat generovaných uživateli
5. Základní metody doporučovacích systémů
6. Prezentace projektů a zápočet
- Cíle studia:
-
Vybavit studenty přehledem o technologiích dolování z webu a schopností některé z nich aplikovat v praxi.
- Studijní materiály:
-
1. Liu, B. „Web Data Mining“, Springer-Verlag Berlin Heidelberg, 2011. ISBN 978-3-642-19459-7.
2. Charu C. Aggarwal. „Machine Learning for Text“, Springer, 2018. ISBN 9783319735313.
3. Easley, D., Kleinberg, J. „Networks, Crowds, and Markets: Reasoning About a Highly Connected World“, Cambridge
4. A. Russel, M. „Mining the Social Web: Data Mining Facebook, Twitter, LinkedIn, Google+, GitHub, and More (3rd Edition)“, O'Reilly Media, 2019. ISBN 978-1491985045.
5. Charu C. Aggarwal. „Recommender Systems: The Textbook“, Springer, 2016. ISBN 9783319296579.
- Poznámka:
-
Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/NI-DDW/
- Další informace:
- https://courses.fit.cvut.cz/NI-DDW/
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Mgr. specializace Počítačová bezpečnost, 2020 (volitelný předmět)
- Mgr. specializace Návrh a programování vestavných systémů, 2020 (volitelný předmět)
- Mgr. specializace Počítačové systémy a sítě, 2020 (volitelný předmět)
- Mgr. specializace Manažerská informatika, 2020 (volitelný předmět)
- Mgr. specializace Softwarové inženýrství, 2020 (volitelný předmět)
- Mgr. specializace Systémové programování, verze od 2020 (volitelný předmět)
- Mgr. specializace Webové inženýrství, 2020 (PS)
- Mgr. specializace Znalostní inženýrství, 2020 (volitelný předmět)
- Mgr. specializace Teoretická informatika, 2020 (volitelný předmět)
- Mgr. program, pro fázi studia bez specializace, ver. pro roky 2020 a vyšší (VO, volitelný předmět)
- Master Specialization Digital Business Engineering, 2023 (VO)
- Mgr. specializace Systémové programování, verze od 2023 (volitelný předmět)
- Mgr. specializace Teoretická informatika, 2023 (volitelný předmět)