Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2020/2021

Analýza a rozpoznávání vícerozměrných dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
F7PMIARVD Z,ZK 4 2P+2C česky
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra přírodovědných oborů
Anotace:

Předmět nabízí přehled nástrojů pro dobývání znalostí z dat a demonstruje jejich využití na praktických úlohách s využitím open source nástroje projektu R. Zvláštní pozornost věnuje názorné prezentaci postupně získávaných výsledků, která výrazně usnadní komunikaci s vlastníkem dat (např. lékařem), který pak může lépe spolupracovat při volbě dalších směrů hledání. Shlukování. Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost. Redukce dimenze dat a selekce příznaků (třeba PCA, ICA, faktorová analýza). Detekce anomálií.

Požadavky:

Forma ověření studijních výsledků: Podmínky zápočtu jsou absolvování čtyř testů se ziskem alespoň 50 % bodů. Testy prověří praktické znalosti při analýze a rozpoznávání vícerozměrných dat. Zkouška má písemnou část, která se skládá z převážně teoretických otázek s následním ústním dozkoušení v rozsahu odpřednášené a odcvičené látky.

Požadavky na studenty: Povinná účast na cvičeních (max. 2 absence).

Předmět staví na znalostech, který student získá v předmětu Biostatistika (1. semestr).

Osnova přednášek:

1 Základní pojmy pro popis dat, strojové učení a rozpoznávání: pozorování, příznak, příznakový prostor, klasifikace.

2.Dobývání znalostí - popis a metodika procesu CRISP. Průzkumová analýza a vizualizace vícerozměrných dat.

3.Shlukování pro modelování neklasifikovaných dat – základní algoritmy. Hodnocení vzniklého modelu a jeho použití.

4.Základní postupy modelování klasifikovaných dat – metoda nejbližšího souseda, tvorba rozhodovacího stromu a jejich vlastnosti. Příklady aplikací.

5.Míry pro srovnávání výkonností různých klasifikačních modelů (přesnost, specificita, …, ROC křivka). Metody pro odhad výkonnosti modelu: křížová validace, bootstrapping, křivka učení.

6.SVM změna reprezentace dat. Příklad ilustrující využití odvozeného atributu pro náhradu několika jiných.

7.Konstrukce asociačních pravidel pro neklasifikovaná data a jejich využití.

8.Různé metody zvyšování kvality zpracovávaných dat - identifikace odlehlých a nesprávných hodnot. Porozumění datům a jejich příprava: postupy pro diskretizaci, normalizaci a doplnění chybějících hodnot, agregace dat.

9.Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost.

10.Redukce dimenze dat a selekce příznaků (analýza hlavních komponent - PCA, PCA pro klasifikační úlohy, faktorová analýza, regrese, částečné nejmenší čtverce).

11.Několik strategií testovaní vzniklých modelů (vícenásobné testování a různé korekce).

12.Příklady dalších nástrojů pro modelování dat: tvorba regresních stromů, využití neuronových sítí.

13.Rozpoznávání anomálií v mnoharozměrných datech.

14.Perspektivní témata v DM, např. práce se strukturovanými daty.

Osnova cvičení:

1. Základní pojmy pro popis dat, strojové učení a rozpoznávání: pozorování, příznak, příznakový prostor, klasifikace.

2.Dobývání znalostí - popis a metodika procesu CRISP. Průzkumová analýza a vizualizace vícerozměrných dat.

3.Shlukování pro modelování neklasifikovaných dat – základní algoritmy. Hodnocení vzniklého modelu a jeho použití.

4.Základní postupy modelování klasifikovaných dat – metoda nejbližšího souseda, tvorba rozhodovacího stromu a jejich vlastnosti. Příklady aplikací.

5.Míry pro srovnávání výkonností různých klasifikačních modelů (přesnost, specificita, …, ROC křivka). Metody pro odhad výkonnosti modelu: křížová validace, bootstrapping, křivka učení.

6.SVM změna reprezentace dat. Příklad ilustrující využití odvozeného atributu pro náhradu několika jiných.

7.Konstrukce asociačních pravidel pro neklasifikovaná data a jejich využití.

8.Různé metody zvyšování kvality zpracovávaných dat - identifikace odlehlých a nesprávných hodnot. Porozumění datům a jejich příprava: postupy pro diskretizaci, normalizaci a doplnění chybějících hodnot, agregace dat.

9.Zvyšování kvality modelu kombinací více základních modelů - bagging, boosting, AdaBoost.

10.Redukce dimenze dat a selekce příznaků (analýza hlavních komponent - PCA, PCA pro klasifikační úlohy, faktorová analýza, regrese, částečné nejmenší čtverce).

11.Několik strategií testovaní vzniklých modelů (vícenásobné testování a různé korekce).

12.Příklady dalších nástrojů pro modelování dat: tvorba regresních stromů, využití neuronových sítí.

13.Rozpoznávání anomálií v mnoharozměrných datech.

14.Perspektivní témata v DM, např. práce se strukturovanými daty.

Cíle studia:
Studijní materiály:

Povinná literatura:

[1] BERKA, Petr. Dobývání znalostí z databází. Praha: Academia, c2003. ISBN 80-200-1062-9.

[2] MELOUN, Milan a Jiří MILITKÝ. Kompendium statistického zpracování dat. Praha: Karolinum, 2012. ISBN 978-80-246-2196-8.

Doporučená literatura:

[3] DARÓCZI Gergely.: Mastering Data Analysis with R. Packt Publishing, 2015, ISBN 978-1783982028

[4] R software volně stažitelný na https://www.r-project.org/

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 27. 9. 2020
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet5587706.html