Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Vytěžování dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
A7B36VYD Z,ZK 5 2+2c česky
Přednášející:
Filip Železný (gar.), Jiří Kléma
Cvičící:
Filip Železný (gar.), Michael Anděl, Jiří Kléma, František Malinka, Ondřej Pluskal
Předmět zajišťuje:
katedra počítačů
Anotace:

Cílem předmětu je seznámit studenty se základy vytěžování dat (data miningu). Studenti se postupně seznámí se základními úlohami vytěžování dat, odhady parametrů pomocí pravděpodobnosti. Dále se základními metodami shlukové analýzy a metodami vyhodnocení úspěšnosti shlukování, vyhledávání častých množin a sekvencí. Poté se studenti seznámí se základy klasifikace (Bayesovský klasifikátor), následovat budou složitější klasifikační metody - rozhodovací stromy, lineární klasifikace, perceptron a dopředné neuronové sítě. Posledními tématy bude testování vytvořených modelů a kombinování modelů.

Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/A7B36VYD

Požadavky:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Osnova přednášek:

Osnova a obsah přednášek:

1) Úvod. Vytěžování s učitelem a bez učitele, příznaková reprezentace

2) Odhady parametrů pravděpodobnostního rozdělení, maximální věrohodnost, Gaussovská směs

3) Grafické pravděpodobnostní modely, odhady parametrů

4) Shluková analýza a analýza hlavních komponent

5) Samoorganizující se mapy

6) Časté množiny, sekvence a grafy

7) Klasifikační úloha, riziko, Bayesovský klasifikátor, klasifikace dle podobnosti

8) Rozhodovací stromy a pravidla

9) Lineární klasifikátor, rozšíření báze, LDA, logistická regrese

10) Perceptron a neuronové sítě s dopřednou strukturou

11) Testování modelů: křížová validace, ROC analýza

12) Kombinování modelů a výběr příznaků

13) Ukázky aplikací / Industrial show

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/prednasky/start

Osnova cvičení:

1) Ukázka práce v Matlabu

2) Práce v prostředí RapidMiner

3) Částečná implementace EM

4) Ruční návrh struktury BN v dodaném nástroji

5) Clustering

6) SOM: clustering textu (termín výjimečně až za 2 týdny)

7) Konzultace text mining

8) Transakční data

9) Klasifikace

10) Rozhodovací stromy

11) Lineární klasifikátor

12) Testovaní a ROC

13) Odevzdani poslední úlohy, ukazka NN, zápočty

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/cviceni/start

Cíle studia:

Cílem studia je seznámit studenty se základními principy a technikami vytěžování dat. V rámci předmětu si také prakticky vyzkouší všechny probírané techniky.

Studijní materiály:

Studijní materiály jsou dostupné na webu předmětu na stránkách:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Poznámka:
Další informace:
http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 7. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1396106.html