Distribuovaný data mining
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
MI-DDM | KZ | 4 | 3C | anglicky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra aplikované matematiky
- Anotace:
-
Kurz se zaměřuje na state-of-the-art přístupy k distribuovanému data miningu a k paralelizaci algoritmů strojového učení. Studenti získají praktickou zkušenost s frameworkem pro škálovatelné zpracování velkých data Apache Spark a s existujícími distribuovanými algoritmy strojového učení a data miningu. Seznámí se s principy jejich paralelní implementace a budou schopni navrhovat paralelizaci dalších algoritmů.
- Požadavky:
-
Znalost programování v alespoň jednom z jazyků Python, Java nebo Scala. Znalost principů základních algoritmů strojového učení.
- Osnova přednášek:
- Osnova cvičení:
-
1) Úvod do Map Reduce, frameworku Apache Spark a infrastruktury výpočetního clusteru
2) Datové struktury frameworku Apache Spark: RDDs, Dataframes, Datasets
3) Apache Spark ML pipelines, ML Lib
4) Distribuovaná data, datová explorace, základní statistiky
5) Distribuované předzpracování dat (extrakce, transformace a selekce příznaků, redukce dimenzionality)
6) Asociační pravidla, kolaborativní filtrování, alternating least squares
7) Distribuované algoritmy pro klasifikaci a regresi
8) Distribuované algoritmy pro shlukování
9) Distribuované ensembly
10) Algoritmy pro information retrieval a text mining
11) Hluboké učení a umělé neuronové sítě
12) Stream processing a online algoritmy
- Cíle studia:
- Studijní materiály:
-
Pentreath, Nick. Machine Learning with Spark. Packt Publishing Ltd, 2015.
- Poznámka:
-
Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-DDM/
- Další informace:
- https://courses.fit.cvut.cz/MI-DDM/
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Mgr. obor Znalostní inženýrství, 2016-2017 (volitelný předmět)
- Mgr. obor Počítačová bezpečnost, 2016-2019 (volitelný předmět)
- Mgr. obor Počítačové systémy a sítě, 2016-2019 (volitelný předmět)
- Mgr. obor Návrh a programování vestavných systémů, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Informační systémy a management, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Softwarové inženýrství, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Webové inženýrství, 2016-2019 (volitelný předmět)
- Mgr. program Informatika, pro fázi studia bez oboru, 2016-2019 (volitelný předmět)
- Mgr. obor Systémové programování, zaměření Systémové programování, 2016-2019 (volitelný předmět)
- Mgr. obor Systémové programování, zaměření Teoretická informatika, 2016-2017 (volitelný předmět)
- Mgr. specializace Teoretická informatika, 2018-2019 (volitelný předmět)
- Mgr. obor Znalostní inženýrství, 2018-2019 (volitelný předmět)