Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Předzpracování dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-PDD Z,ZK 4 2P+1C česky
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Požadavky:

Základy statistiky, znalost problematiky vytěžování dat.

Osnova přednášek:

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Osnova cvičení:

1. zadání semestrálních projektů

2. konzultace

3. prezentace semestrálních projektů

Cíle studia:

Příprava dat je klíčem k úspěšnému zpracování dat a je časově velmi náročná - většinou zabere více času, než samotné zpracování dat. Znalost algoritmů pro extrakci parametrů z různých datových zdrojů patří k základům znalostního inženýrství.

Studijní materiály:

[1] Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.

[2] Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.

[3] García , S., Luengo, J., Herrera F., Data Preprocessing in Data Mining (Intelligent Systems Reference Library), Springer, 2015. ISBN-13: 978-3319102467

[4] Fernández, A., García, S., Galar, M., Prati, R. C., Krawczyk, B., Herrera, F., Learning from Imbalanced Data Sets, Springer, 2018, ISBN-13: 978-3319980737

[5] Blokdyk, G., Data pre-processing, 2. vydání, CreateSpace Independent Publishing Platform, 2018, ISBN-13: 978-1987493245

[6] Bolón-Canedo, V., Sánchez-Maroño, N., Alonso-Betanzos, A., Feature Selection for High-Dimensional Data (Artificial Intelligence: Foundations, Theory, and Algorithms), 1. vydání, 2015, ISBN-13: 978-3319218571

Poznámka:

Rozsah=prednasky+proseminare+cviceni2p+1c

Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 18. 10. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1435106.html