Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Distribuovaný data mining

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-DDM KZ 4 3C anglicky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.

Požadavky:

Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.

Osnova přednášek:
Osnova cvičení:

1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru

2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets

3) Apache Spark ML pipelines, ML Lib

4) Distribuovaná data, datová explorace, základní statistiky

5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)

6) Asociační pravidla, kolaborativní filtrování, alternating least squares

7) Distribuované algoritmy pro klasifikaci a regresi

8) Distribuované algoritmy pro shlukování

9) Distribuované ensembly

10) Algoritmy pro information retrieval a text mining

11) Hluboké učení a umělé neuronové sítě

12) Stream processing a online algoritmy

Cíle studia:
Studijní materiály:

Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-DDM/

Další informace:
https://courses.fit.cvut.cz/MI-DDM/
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 14. 9. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet5463206.html