Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2017/2018

Distribuovaný data mining

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-DDM KZ 4 0+3
Přednášející:
Tomáš Borovička (gar.), Ondřej Stuchlík
Cvičící:
Tomáš Borovička (gar.), Ondřej Stuchlík
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.

Požadavky:

Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.

Osnova přednášek:
Osnova cvičení:

1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru

2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets

3) Apache Spark ML pipelines, ML Lib

4) Distribuovaná data, datová explorace, základní statistiky

5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)

6) Asociační pravidla, kolaborativní filtrování, alternating least squares

7) Distribuované algoritmy pro klasifikaci a regresi

8) Distribuované algoritmy pro shlukování

9) Distribuované ensembly

10) Algoritmy pro information retrieval a text mining

11) Hluboké učení a umělé neuronové sítě

12) Stream processing a online algoritmy

Cíle studia:
Studijní materiály:

Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.

Poznámka:
Rozvrh na zimní semestr 2017/2018:
Rozvrh není připraven
Rozvrh na letní semestr 2017/2018:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
místnost T9:349
Borovička T.
16:15–18:45
(paralelka 1)
Dejvice
NBFIT PC učebna
Út
St
Čt

Předmět je součástí následujících studijních plánů:
Platnost dat k 27. 5. 2018
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet5463206.html