Analýza a rozpoznávání vícerozměrných dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
F7ADTARVD | ZK | 5 | 14P+7C | anglicky |
- Garant předmětu:
- Olga Štěpánková
- Přednášející:
- Olga Štěpánková
- Cvičící:
- Václav Křemen, Olga Štěpánková, Lenka Vysloužilová
- Předmět zajišťuje:
- katedra přírodovědných oborů
- Anotace:
-
Předmět nabízí přehled nástrojů pro dobývání znalostí z dat a demonstruje jejich využití na praktických úlohách s využitím open source nástroje projektu R. Zvláštní pozornost věnuje názorné prezentaci postupně získávaných výsledků, která výrazně usnadní komunikaci s vlastníkem dat (např. lékařem), který pak může lépe spolupracovat při volbě dalších směrů hledání. Shlukování. Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost. Redukce dimenze dat a selekce příznaků (třeba PCA, ICA, faktorová analýza). Detekce anomálií.
- Požadavky:
-
Forma ověření studijních výsledků: ústní zkouška.
Standardně probíhá výuka kontaktní formou a předmět má přednášky a počítačová cvičení. V případě, že počet studentů je menší než 5, může výuka probíhat v podobě řízeného samostudia s pravidelnými konzultacemi. V tom případě je kromě zkoušky navíc požadováno vypracování písemné studie studentem na zadané téma.
Kombinovaná forma studia:
Výuka probíhá v podobě řízeného samostudia s pravidelnými konzultacemi. Kromě zkoušky je požadováno vypracování písemné studie studentem na zadané téma.
- Osnova přednášek:
-
1.Základní pojmy pro popis dat, strojové učení a rozpoznávání: pozorování, příznak, příznakový prostor, klasifikace.
2.Dobývání znalostí - popis a metodika procesu CRISP. Průzkumová analýza a vizualizace vícerozměrných dat.
3.Shlukování pro modelování neklasifikovaných dat – základní algoritmy. Hodnocení vzniklého modelu a jeho použití.
4.Základní postupy modelování klasifikovaných dat – metoda nejbližšího souseda, tvorba rozhodovacího stromu a jejich vlastnosti. Příklady aplikací.
5.Míry pro srovnávání výkonností různých klasifikačních modelů (přesnost, specificita, …, ROC křivka). Metody pro odhad výkonnosti modelu: křížová validace, bootstrapping, křivka učení.
6.SVM změna reprezentace dat. Příklad ilustrující využití odvozeného atributu pro náhradu několika jiných.
7.Konstrukce asociačních pravidel pro neklasifikovaná data a jejich využití.
8.Různé metody zvyšování kvality zpracovávaných dat - identifikace odlehlých a nesprávných hodnot. Porozumění datům a jejich příprava: postupy pro diskretizaci, normalizaci a doplnění chybějících hodnot, agregace dat.
9.Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost.
10.Redukce dimenze dat a selekce příznaků (analýza hlavních komponent - PCA, PCA pro klasifikační úlohy, faktorová analýza, regrese, částečné nejmenší čtverce).
11.Několik strategií testovaní vzniklých modelů (vícenásobné testování a různé korekce).
12.Příklady dalších nástrojů pro modelování dat: tvorba regresních stromů, využití neuronových sítí.
13.Rozpoznávání anomálií v mnoharozměrných datech.
14.Perspektivní témata v DM, např. práce se strukturovanými daty.
- Osnova cvičení:
-
Cvičení budou řešena formou praktických projektů, v nichž si studenti ověří znalosti získané v přednáškách.
- Cíle studia:
- Studijní materiály:
-
Povinná:
Qurban A Memon Q.A., Khoja S. A. Data Science. Theory, Analysis and Applications. CRC Press, 2019
Doporučená:
Daróczi G.: Mastering Data Analysis with R. Packt Publishing, 2015, 978-1783982028
R software volně stažitelný na https://www.r-project.org/
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů: