Distribuovaný data mining
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
MI-DDM | KZ | 4 | 0+3 |
- Přednášející:
- Tomáš Borovička (gar.), Ondřej Stuchlík
- Cvičící:
- Tomáš Borovička (gar.), Ondřej Stuchlík
- Předmět zajišťuje:
- katedra aplikované matematiky
- Anotace:
-
Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.
- Požadavky:
-
Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.
- Osnova přednášek:
- Osnova cvičení:
-
1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru
2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets
3) Apache Spark ML pipelines, ML Lib
4) Distribuovaná data, datová explorace, základní statistiky
5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)
6) Asociační pravidla, kolaborativní filtrování, alternating least squares
7) Distribuované algoritmy pro klasifikaci a regresi
8) Distribuované algoritmy pro shlukování
9) Distribuované ensembly
10) Algoritmy pro information retrieval a text mining
11) Hluboké učení a umělé neuronové sítě
12) Stream processing a online algoritmy
- Cíle studia:
- Studijní materiály:
-
Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.
- Poznámka:
- Rozvrh na zimní semestr 2018/2019:
- Rozvrh není připraven
- Rozvrh na letní semestr 2018/2019:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Předmět je součástí následujících studijních plánů:
-
- Znalostní inženýrství, verze 2016 a 2017 (volitelný předmět)
- Počítačová bezpečnost, verze 2016, 2017 a 2018 (volitelný předmět)
- Počítačové systémy a sítě, verze 2016, 2017 a 2018 (volitelný předmět)
- Návrh a programování vestavných systémů, verze 2016, 2017 a 2018 (volitelný předmět)
- Zaměření Informační systémy a management, verze 2016, 2017 a 2018 (volitelný předmět)
- Zaměření Softwarové inženýrství, verze 2016, 2017 a 2018 (volitelný předmět)
- Zaměření Webové inženýrství, verze 2016, 2017 a 2018 (volitelný předmět)
- Společný magisterský plán před přiřazením do oboru, verze 2016, 2017 a 2018 (volitelný předmět)
- Zaměření Systémové programování, verze 2016, 2017 a 2018 (volitelný předmět)
- Zaměření Teoretická informatika, verze 2016-2017 (volitelný předmět)
- Specializace Teoretická informatika, verze 2018 (volitelný předmět)
- Znalostní inženýrství, verze 2018 (volitelný předmět)