Logo ČVUT
Loading...
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2011/2012

Vytěžování dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah
YD336VD Z,ZK 5 14+6s
Předmět nesmí být zapsán současně s:
Vytěžování dat (AD7B36VYD)
Přednášející:
Pavel Kordík, Neurčen (gar.)
Cvičící:
Pavel Kordík, Neurčen (gar.)
Předmět zajišťuje:
katedra počítačů
Anotace:

Úvod do problematiky vytěžování dat (data miningu). Motivace a aplikace vytěžování. Předzpracování dat, statistické techniky data miningu. Shluková analýza, predikce, klasifikace, modelování. Strojové učení a samoorganizace. Automatizace tvorby modelů založená na statistických metodách a na moderních metodách softcomputingu. Použití umělých neuronových sítí pro vytěžování dat. Vyhodnocení kvality a výběr modelu. Případová studie využívající datové soubory z reálných aplikací: vizualizace vstupních dat, předzpracování, tvorba modelů metodami strojového učení, vyhodnocení kvality modelů, extrakce znalostí, zpracování závěrečné zprávy, prezentace výsledků. V předmětu se extenzivně využívá vytěžovací software (data mining SW).

Požadavky:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/y336vd/start

Osnova přednášek:

Úvod do data miningu, strojové učení Předzpracování dat, Exploratory Data Analysis Statistický přístup k data miningu Shluková analýza (hierarchické a k-means shlukování) Bayesovská pravidla, k-Nearest Neighbor algoritmus Rozhodovací stromy Umělé neuronové sítě v data miningu ? úvod Perceptron, BP Samoorganizující se mapy SOM, induktivní modely GMDH, sítě s lokálními jednotkami RBF Asociační a fuzzy pravidla Metody analýzy mnohadimenzionálních dat ? PCA, ICA Kombinování modelů ? Ensemble learning, Bagging, Boosting, Negative Correlation Learning Vytěžování znalostí, hodnocení kvality modelů, vizualizace

Osnova cvičení:

Reálná data, zdroje a formáty dat, nástroje pro seznámení se s charakterem dat (Weka, Sumatra TT)

Příprava a předzpracování dat, čištění dat, filtrování, nahrazování chybějících hodnot

Práce s nástrojem Clementine (Statistica), statistická analýza dat, Exploratory Data Analysis

Shluková analýza (hierarchické a k-means shlukování)

Klasifikace pomocí Bayese, kNN, rozhodovacích stromů (Iris data)

Umělé neuronové sítě v data miningu ? predikce, klasifikace pomocí neuronové sítě se zpětným šířením chyby (BP) v software Clementine (Statistica)

Shluková analýza dat pomocí samoorganizující se mapy SOM (SOMPAK, Matlab SOM Toolbox), induktivní modely GMDH (GAME), klasifikace pomocí RBF (Clementine, Statistica)

Asociační a fuzzy pravidla

Vyhodnocení kvality modelů, kombinování modelů, vytěžování znalostí

Cíle studia:
Studijní materiály:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/y336vd/start

Poznámka:

Rozsah výuky v kombinované formě studia: 14+6

Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 9. 7. 2012
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet12359104.html