Předzpracování dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
MI-PDD.16 | Z,ZK | 5 | 2P+1C | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra aplikované matematiky
- Anotace:
-
Studenti se naučí připravit surová data pro další zpracování a analýzu. Získají znalosti algoritmů pro extrakci parametrů z různých datových zdrojů, jako jsou obrázky, texty, časové řady, apod, a získají dovednosti tyto teoretické znalosti aplikovat při řešení daného problému, např. extrakce parametrů z obrazových dat nebo z Internetu.
Od B201 je vypisována nová, ekvivalentní verze předmětu NI-PDD.
- Požadavky:
-
Základy statistiky, znalost problematiky vytěžování dat.
Doporučenou prerekvizitou je předmět BI-VZD.
- Osnova přednášek:
-
1. Průzkum dat, techniky exploratorní analýzy, vizualizace surových dat.
2. Deskriptivní statistika.
3. Metody určování významnosti příznaků.
4. Problémy v datech - dimenzionalita, šum, odlehlé hodnoty, nekonzistence, chybějící hodnoty, nenumerická data.
5. Čištění dat, transformace dat, imputing, diskretizace, binning.
6. Redukce dimenzionality dat.
7. Redukce objemu dat, balancování tříd.
8. Extrakce příznaků z textu.
9. Extrakce příznaků z dokumentů, webu, předzpracování strukturovaných dat.
10. Extrakce příznaků z časových řad.
11. Extrakce příznaků z obrazu.
12. Případové studie přípravy dat.
13. Automatizace předzpracování dat.
- Osnova cvičení:
-
1. zadání semestrálních projektů
2. konzultace
3. prezentace semestrálních projektů
- Cíle studia:
-
Příprava dat je klíčem k úspěšnému zpracování dat a je časově velmi náročná - většinou zabere více času, než samotné zpracování dat. Znalost algoritmů pro extrakci parametrů z různých datových zdrojů patří k základům znalostního inženýrství.
- Studijní materiály:
-
Pyle, D. ''Data Preparation for Data Mining''. Morgan Kaufmann, 1999. ISBN 1558605290.
Guyon, I., Gunn, S., Nikravesh, M., Zadeh, L. A. ''Feature Extraction: Foundations and Applications (Studies in Fuzziness and Soft Computing)''. Springer, 2006. ISBN 3540354875.
- Poznámka:
-
Předmět je nahrazen ekvivalentním NI-PDD // Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-PDD/
- Další informace:
- https://courses.fit.cvut.cz/MI-PDD/
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Mgr. obor Znalostní inženýrství, 2016-2017 (povinný předmět oboru)
- Mgr. obor Počítačová bezpečnost, 2016-2019 (volitelný předmět)
- Mgr. obor Počítačové systémy a sítě, 2016-2019 (volitelný předmět)
- Mgr. obor Návrh a programování vestavných systémů, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Informační systémy a management, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Softwarové inženýrství, 2016-2019 (volitelný předmět)
- Mgr. obor Webové a softwarové inženýrství, zaměření Webové inženýrství, 2016-2019 (volitelný předmět)
- Mgr. program Informatika, pro fázi studia bez oboru, 2016-2019 (VO)
- Mgr. obor Systémové programování, zaměření Systémové programování, 2016-2019 (volitelný předmět)
- Mgr. obor Systémové programování, zaměření Teoretická informatika, 2016-2017 (volitelný předmět)
- Mgr. obor Znalostní inženýrství, 2018-2019 (povinný předmět oboru)