Vytěžování dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
A7B36VYD | Z,ZK | 5 | 2+2c | česky |
- Podmínkou zápisu předmětu je dřívější úspěšné absolvování předmětů:
- Pravděpodobnost a statistika (A7B01PST)
- Předmět nesmí být zapsán současně s:
- Vytěžování dat (Y336VD)
- Předmět je náhradou za:
- Vytěžování dat (Y336VD)
- Přednášející:
- Miroslav Čepek (gar.), Filip Železný (gar.)
- Cvičící:
- Miroslav Čepek (gar.), Filip Železný (gar.), Radomír Černoch, Jan Hrdlička, Petr Pošík, Demlová Uznáno
- Předmět zajišťuje:
- katedra počítačů
- Anotace:
-
Cílem předmětu je seznámit studenty se základy vytěžování dat (data miningu). Studenti se postupně seznámí se základními úlohami vytěžování dat, odhady parametrů pomocí pravděpodobnosti. Dále se základními metodami shlukové analýzy a metodami vyhodnocení úspěšnosti shlukování, vyhledávání častých množin a sekvencí. Poté se studenti seznámí se základy klasifikace (Bayesovský klasifikátor), následovat budou složitější klasifikační metody - rozhodovací stromy, lineární klasifikace, perceptron a dopředné neuronové sítě. Posledními tématy bude testování vytvořených modelů a kombinování modelů.
- Požadavky:
-
Viz web predmetu:
- Osnova přednášek:
-
Osnova a obsah přednášek:
1) Úvod. Vytěžování s učitelem a bez učitele, příznaková reprezentace
2) Odhady parametrů pravděpodobnostního rozdělení, maximální věrohodnost, Gaussovská směs
3) Grafické pravděpodobnostní modely, odhady parametrů
4) Shluková analýza a analýza hlavních komponent
5) Samoorganizující se mapy
6) Časté množiny, sekvence a grafy
7) Klasifikační úloha, riziko, Bayesovský klasifikátor, klasifikace dle podobnosti
8) Rozhodovací stromy a pravidla
9) Lineární klasifikátor, rozšíření báze, LDA, logistická regrese
10) Perceptron a neuronové sítě s dopřednou strukturou
11) Testování modelů: křížová validace, ROC analýza
12) Kombinování modelů a výběr příznaků
13) Ukázky aplikací / Industrial show
Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/prednasky/start
- Osnova cvičení:
-
1) Ukázka práce v Matlabu
2) Práce v prostředí RapidMiner
3) Částečná implementace EM
4) Ruční návrh struktury BN v dodaném nástroji
5) Clustering
6) SOM: clustering textu (termín výjimečně až za 2 týdny)
7) Konzultace text mining
8) Transakční data
9) Klasifikace
10) Rozhodovací stromy
11) Lineární klasifikátor
12) Testovaní a ROC
13) Odevzdani poslední úlohy, ukazka NN, zápočty
Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/cviceni/start
- Cíle studia:
-
Cílem studia je seznámit studenty se základními principy a technikami vytěžování dat. V rámci předmětu si také prakticky vyzkouší všechny probírané techniky.
- Studijní materiály:
-
Studijní materiály jsou dostupné na webu předmětu na stránkách:
- Poznámka:
- Rozvrh na zimní semestr 2011/2012:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Rozvrh na letní semestr 2011/2012:
- Rozvrh není připraven
- Předmět je součástí následujících studijních plánů:
-
- Softwarové inženýrství (STM-A7B-přechodné) (povinný předmět oboru)
- Softwarové inženýrství (STM-A7B) (povinný předmět oboru)