Vytěžování dat
Kód | Zakončení | Kredity | Rozsah |
---|---|---|---|
Y336VD | Z,ZK | 5 | 2+2s |
- Předmět nesmí být zapsán současně s:
- Vytěžování dat (A7B36VYD)
- Předmět je náhradou za:
- Vytěžování dat (A7B36VYD)
- Přednášející:
- Pavel Kordík, Neurčen (gar.)
- Cvičící:
- Pavel Kordík, Miroslav Čepek, Oleg Kovářík, Ondřej Kuželka, Petr Pošík
- Předmět zajišťuje:
- katedra počítačů
- Anotace:
-
Úvod do problematiky vytěžování dat (data miningu). Motivace a aplikace vytěžování. Předzpracování dat, statistické techniky data miningu. Shluková analýza, predikce, klasifikace, modelování. Strojové učení a samoorganizace. Automatizace tvorby modelů založená na statistických metodách a na moderních metodách softcomputingu. Použití umělých neuronových sítí pro vytěžování dat. Vyhodnocení kvality a výběr modelu. Případová studie využívající datové soubory z reálných aplikací: vizualizace vstupních dat, předzpracování, tvorba modelů metodami strojového učení, vyhodnocení kvality modelů, extrakce znalostí, zpracování závěrečné zprávy, prezentace výsledků. V předmětu se extenzivně využívá vytěžovací software (data mining SW).
- Požadavky:
-
Viz web predmetu:
- Osnova přednášek:
-
Úvod do data miningu, strojové učení Předzpracování dat, Exploratory Data Analysis Statistický přístup k data miningu Shluková analýza (hierarchické a k-means shlukování) Bayesovská pravidla, k-Nearest Neighbor algoritmus Rozhodovací stromy Umělé neuronové sítě v data miningu ? úvod Perceptron, BP Samoorganizující se mapy SOM, induktivní modely GMDH, sítě s lokálními jednotkami RBF Asociační a fuzzy pravidla Metody analýzy mnohadimenzionálních dat ? PCA, ICA Kombinování modelů ? Ensemble learning, Bagging, Boosting, Negative Correlation Learning Vytěžování znalostí, hodnocení kvality modelů, vizualizace
- Osnova cvičení:
-
Reálná data, zdroje a formáty dat, nástroje pro seznámení se s charakterem dat (Weka, Sumatra TT)
Příprava a předzpracování dat, čištění dat, filtrování, nahrazování chybějících hodnot
Práce s nástrojem Clementine (Statistica), statistická analýza dat, Exploratory Data Analysis
Shluková analýza (hierarchické a k-means shlukování)
Klasifikace pomocí Bayese, kNN, rozhodovacích stromů (Iris data)
Umělé neuronové sítě v data miningu ? predikce, klasifikace pomocí neuronové sítě se zpětným šířením chyby (BP) v software Clementine (Statistica)
Shluková analýza dat pomocí samoorganizující se mapy SOM (SOMPAK, Matlab SOM Toolbox), induktivní modely GMDH (GAME), klasifikace pomocí RBF (Clementine, Statistica)
Asociační a fuzzy pravidla
Vyhodnocení kvality modelů, kombinování modelů, vytěžování znalostí
- Cíle studia:
- Studijní materiály:
-
Viz web predmetu:
- Poznámka:
-
Rozsah výuky v kombinované formě studia: 14+6
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Softwarové inženýrství (povinný předmět)