Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Předzpracování dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-PDD.16 Z,ZK 5 2P+1C česky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Od B201 je vypisována nová, ekvivalentní verze předmětu NI-PDD.

Požadavky:

Základy statistiky, znalost problematiky vytěžování dat.

Doporučenou prerekvizitou je předmět BI-VZD.

Osnova přednášek:

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Osnova cvičení:

1. zadání semestrálních projektů

2. konzultace

3. prezentace semestrálních projektů

Cíle studia:

Příprava dat je klíčem k úspěšnému zpracování dat a je časově velmi náročná - většinou zabere více času, než samotné zpracování dat. Znalost algoritmů pro extrakci parametrů z různých datových zdrojů patří k základům znalostního inženýrství.

Studijní materiály:

Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.

Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.

Poznámka:

Předmět je nahrazen ekvivalentním NI-PDD // Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-PDD/

Další informace:
https://courses.fit.cvut.cz/MI-PDD/
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 18. 9. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet4656406.html