Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Předzpracování dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-PDD.16 Z,ZK 5 2P+1C česky
Přednášející:
Marcel Jiřina (gar.)
Cvičící:
Daniel Vašata
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Požadavky:

Základy statistiky, znalost problematiky vytěžování dat.

Doporučenou prerekvizitou je předmět BI-VZD.

Osnova přednášek:

1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.

2. Deskriptivní statistika.

3. Metody určování významnosti příznaků.

4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.

5. Čištění dat, transformace dat, imputing, diskretizace, binning.

6. Redukce dimenzionality dat.

7. Redukce objemu dat, balancování tříd.

8. Extrakce příznaků z textu.

9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.

10. Extrakce příznaků z časových řad.

11. Extrakce příznaků z obrazu.

12. Případové studie přípravy dat.

13. Automatizace předzpracování dat.

Osnova cvičení:

1. zadání semestrálních projektů

2. konzultace

3. prezentace semestrálních projektů

Cíle studia:

Příprava dat je klíčem k úspěšnému zpracování dat a je časově velmi náročná - většinou zabere více času, než samotné zpracování dat. Znalost algoritmů pro extrakci parametrů z různých datových zdrojů patří k základům znalostního inženýrství.

Studijní materiály:

Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.

Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-PDD/

Rozsah: 2p+1c

Další informace:
https://courses.fit.cvut.cz/MI-PDD/
Rozvrh na zimní semestr 2019/2020:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
místnost TH:A-s134
Jiřina M.
09:15–10:45
(přednášková par. 1)
Thákurova 7 (FSv-budova A)
As134
místnost T9:350
Vašata D.
14:30–16:00
SUDÝ TÝDEN

(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC ucebna
St
místnost T9:351
Vašata D.
14:30–16:00
SUDÝ TÝDEN

(přednášková par. 1
paralelka 103)

Dejvice
NBFIT PC ucebna
Čt

Rozvrh na letní semestr 2019/2020:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 18. 10. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet4656406.html