Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024

Předzpracování dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
NI-PDD Z,ZK 5 2P+1C česky
Garant předmětu:
Marcel Jiřina
Přednášející:
Marcel Jiřina
Cvičící:
Magda Friedjungová, Marcel Jiřina, Daniel Vašata
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.

Předmět je ekvivalentní s MI-PDD.16

Požadavky:

Základy statistiky, znalost problematiky vytěžování dat.

Doporučenou prerekvizitou je předmět BI-VZD.

Osnova přednášek:

1. Úvod, standardy KDDM, CRISP-DM, DM software.

2. Vizualizace a průzkum dat.

3. Metody určování významnosti příznaků.

4. Problémy v datech: příprava, reprezentace, validace, čištění, chybějící hodnoty, formát datumu, konverze nenumerických dat.

5. Problémy v datech: diskretizace/binning, odlehlé hodnoty/outliers, shluková analýza, falešné prediktory, vyvažování skupin, transformace, vzorkování.

6. Redukce dat: pravidlo nejbližšího souseda, hranice mezi skupinami, CNN, vzdálenostní grafy, Wilsonova editace, multi-edit metoda.

7. Redukce dat: vyvažování tříd, Tomkovy spoje, metoda SMOTE, rozšířené pravidlo nejbližšího souseda.

8. Projekční metody PCA, ICA, LDA.

9. Předzpracování časových řad a extrakce příznaků.

10. Předzpracování textu a extrakce příznaků.

11. Předzpracování obrazu a extrakce příznaků: popis obrazu, filtrace, detekce hran, Fourierova transformace.

12. Předzpracování obrazu a extrakce příznaků: hranová a plošná segmentace, popis objektů v obraze, příznakové a strukturální metody.

Osnova cvičení:

1. zadání semestrálních projektů

2. konzultace

3. prezentace semestrálních projektů

Cíle studia:

Příprava dat je klíčem k úspěšnému zpracování dat a je časově velmi náročná - většinou zabere více času, než samotné zpracování dat. Znalost algoritmů pro extrakci parametrů z různých datových zdrojů patří k základům znalostního inženýrství.

Studijní materiály:

1. Pyle, D. : Data Preparation for Data Mining. Morgan Kaufmann, 1999. ISBN 1558605290.

2. Guyon, I. - Gunn, S. - Nikravesh, M. - Zadeh, L. A. : Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing). Springer, 2006. ISBN 3540354875.

3. García , S. - Luengo, J. - Herrera F. : Data Preprocessing in Data Mining (Intelligent Systems Reference Library). Springer, 2015. ISBN 978-3319102467.

4. Blokdyk, G. : Data pre-processing (2nd Edition). CreateSpace Independent Publishing Platform, 2018. ISBN 978-1987493245.

Poznámka:

Předmět je ekvivalentní s MI-PDD.16 // Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-PDD/

Další informace:
https://courses.fit.cvut.cz/MI-PDD/
Rozvrh na zimní semestr 2023/2024:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
místnost JP:B-671
Jiřina M.
11:00–12:30
(přednášková par. 1)
Jugoslávských partyzánů 3
místnost TH:A-1142
Vašata D.
12:45–14:15
LICHÝ TÝDEN

(přednášková par. 1
paralelka 101)

Thákurova 7 (budova FSv)
Apple lab
místnost TH:A-1142
Vašata D.
12:45–14:15
SUDÝ TÝDEN

(přednášková par. 1
paralelka 103)

Thákurova 7 (budova FSv)
Apple lab
St
Čt
místnost T9:303
Vašata D.
18:00–19:30
(přednášková par. 1
paralelka 102)

Dejvice
NBFIT PC ucebna
místnost T9:303
Vašata D.
18:00–19:30
(přednášková par. 1
paralelka 102)

Dejvice
NBFIT PC ucebna

Rozvrh na letní semestr 2023/2024:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 23. 4. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet6113906.html