Vytěžování dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh

Kód	Zakončení	Kredity	Rozsah	Jazyk výuky
AD7B36VYD	Z,ZK	5	14+6c	česky

Podmínkou zápisu předmětu je dřívější úspěšné absolvování předmětů:

Pravděpodobnost a statistika (AD7B01PST)

Předmět nesmí být zapsán současně s:

Vytěžování dat (YD336VD)

Přednášející:

Miroslav Čepek (gar.), Filip Železný (gar.)

Cvičící:

Miroslav Čepek (gar.), Filip Železný (gar.)

Předmět zajišťuje:

katedra počítačů

Anotace:

Cílem předmětu je seznámit studenty se základy vytěžování dat (data miningu). Studenti se postupně seznámí se základními úlohami vytěžování dat, odhady parametrů pomocí pravděpodobnosti. Dále se základními metodami shlukové analýzy a metodami vyhodnocení úspěšnosti shlukování, vyhledávání častých množin a sekvencí. Poté se studenti seznámí se základy klasifikace (Bayesovský klasifikátor), následovat budou složitější klasifikační metody - rozhodovací stromy, lineární klasifikace, perceptron a dopředné neuronové sítě. Posledními tématy bude testování vytvořených modelů a kombinování modelů.

Požadavky:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Osnova přednášek:

Osnova a obsah přednášek:

1) Úvod. Vytěžování s učitelem a bez učitele, příznaková reprezentace

2) Odhady parametrů pravděpodobnostního rozdělení, maximální věrohodnost, Gaussovská směs

3) Grafické pravděpodobnostní modely, odhady parametrů

4) Shluková analýza a analýza hlavních komponent

5) Samoorganizující se mapy

6) Časté množiny, sekvence a grafy

7) Klasifikační úloha, riziko, Bayesovský klasifikátor, klasifikace dle podobnosti

8) Rozhodovací stromy a pravidla

9) Lineární klasifikátor, rozšíření báze, LDA, logistická regrese

10) Perceptron a neuronové sítě s dopřednou strukturou

11) Testování modelů: křížová validace, ROC analýza

12) Kombinování modelů a výběr příznaků

13) Ukázky aplikací / Industrial show

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/prednasky/start

Osnova cvičení:

1) Ukázka práce v Matlabu

2) Práce v prostředí RapidMiner

3) Částečná implementace EM

4) Ruční návrh struktury BN v dodaném nástroji

5) Clustering

6) SOM: clustering textu (termín výjimečně až za 2 týdny)

7) Konzultace text mining

8) Transakční data

9) Klasifikace

10) Rozhodovací stromy

11) Lineární klasifikátor

12) Testovaní a ROC

13) Odevzdani poslední úlohy, ukazka NN, zápočty

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/cviceni/start

Cíle studia:

Cílem studia je seznámit studenty se základními principy a technikami vytěžování dat. V rámci předmětu si také prakticky vyzkouší všechny probírané techniky.

Studijní materiály:

Studijní materiály jsou dostupné na webu předmětu na stránkách:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Poznámka:

Rozvrh na zimní semestr 2011/2012:

	06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St	místnost KN:A-320 Čepek M. 14:30–16:00 LICHÝ TÝDEN (přednášková par. 1) Karlovo nám. Poslucharna Strojní A-320
Čt
Pá

Rozvrh na letní semestr 2011/2012:

Rozvrh není připraven

Předmět je součástí následujících studijních plánů:

Softwarové inženýrství (STM-A7B-přechodné) (povinný předmět oboru)
Softwarové inženýrství (STM-A7B) (povinný předmět oboru)