Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Distribuovaný data mining

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-DDM KZ 4 0+3
Přednášející:
Tomáš Borovička (gar.), Ondřej Stuchlík
Cvičící:
Tomáš Borovička (gar.), Ondřej Stuchlík
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.

Požadavky:

Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.

Osnova přednášek:
Osnova cvičení:

1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru

2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets

3) Apache Spark ML pipelines, ML Lib

4) Distribuovaná data, datová explorace, základní statistiky

5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)

6) Asociační pravidla, kolaborativní filtrování, alternating least squares

7) Distribuované algoritmy pro klasifikaci a regresi

8) Distribuované algoritmy pro shlukování

9) Distribuované ensembly

10) Algoritmy pro information retrieval a text mining

11) Hluboké učení a umělé neuronové sítě

12) Stream processing a online algoritmy

Cíle studia:
Studijní materiály:

Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.

Poznámka:
Rozvrh na zimní semestr 2018/2019:
Rozvrh není připraven
Rozvrh na letní semestr 2018/2019:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 15. 11. 2018
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet5463206.html