Vytěžování dat

Předmět není vypsán Nerozvrhuje se

Kód	Zakončení	Kredity	Rozsah
YD336VD	Z,ZK	5	14+6s

Předmět nesmí být zapsán současně s:

Vytěžování dat (AD7B36VYD)

Přednášející:

Pavel Kordík, Neurčen (gar.)

Cvičící:

Pavel Kordík, Neurčen (gar.)

Předmět zajišťuje:

katedra počítačů

Anotace:

Úvod do problematiky vytěžování dat (data miningu). Motivace a aplikace vytěžování. Předzpracování dat, statistické techniky data miningu. Shluková analýza, predikce, klasifikace, modelování. Strojové učení a samoorganizace. Automatizace tvorby modelů založená na statistických metodách a na moderních metodách softcomputingu. Použití umělých neuronových sítí pro vytěžování dat. Vyhodnocení kvality a výběr modelu. Případová studie využívající datové soubory z reálných aplikací: vizualizace vstupních dat, předzpracování, tvorba modelů metodami strojového učení, vyhodnocení kvality modelů, extrakce znalostí, zpracování závěrečné zprávy, prezentace výsledků. V předmětu se extenzivně využívá vytěžovací software (data mining SW).

Požadavky:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/y336vd/start

Osnova přednášek:

Úvod do data miningu, strojové učení Předzpracování dat, Exploratory Data Analysis Statistický přístup k data miningu Shluková analýza (hierarchické a k-means shlukování) Bayesovská pravidla, k-Nearest Neighbor algoritmus Rozhodovací stromy Umělé neuronové sítě v data miningu ? úvod Perceptron, BP Samoorganizující se mapy SOM, induktivní modely GMDH, sítě s lokálními jednotkami RBF Asociační a fuzzy pravidla Metody analýzy mnohadimenzionálních dat ? PCA, ICA Kombinování modelů ? Ensemble learning, Bagging, Boosting, Negative Correlation Learning Vytěžování znalostí, hodnocení kvality modelů, vizualizace

Osnova cvičení:

Reálná data, zdroje a formáty dat, nástroje pro seznámení se s charakterem dat (Weka, Sumatra TT)

Příprava a předzpracování dat, čištění dat, filtrování, nahrazování chybějících hodnot

Práce s nástrojem Clementine (Statistica), statistická analýza dat, Exploratory Data Analysis

Shluková analýza (hierarchické a k-means shlukování)

Klasifikace pomocí Bayese, kNN, rozhodovacích stromů (Iris data)

Umělé neuronové sítě v data miningu ? predikce, klasifikace pomocí neuronové sítě se zpětným šířením chyby (BP) v software Clementine (Statistica)

Shluková analýza dat pomocí samoorganizující se mapy SOM (SOMPAK, Matlab SOM Toolbox), induktivní modely GMDH (GAME), klasifikace pomocí RBF (Clementine, Statistica)

Asociační a fuzzy pravidla

Vyhodnocení kvality modelů, kombinování modelů, vytěžování znalostí

Cíle studia:

Studijní materiály:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/y336vd/start

Poznámka:

Rozsah výuky v kombinované formě studia: 14+6

Další informace:

Pro tento předmět se rozvrh nepřipravuje

Předmět je součástí následujících studijních plánů:

Softwarové inženýrství (povinný předmět)