Vytěžování dat

Předmět není vypsán Nerozvrhuje se

Kód	Zakončení	Kredity	Rozsah	Jazyk výuky
A7B36VYD	Z,ZK	5	2P+2C	česky

Vztahy:

Předmět A7B36VYD nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět Y336VD (vztah je symetrický)

Předmět A7B36VYD může být splněn v zastoupení předmětem Y336VD

Předmět je ekvivalentní s AD7B36VYD .

Garant předmětu:

Přednášející:

Cvičící:

Předmět zajišťuje:

katedra počítačů

Anotace:

Cílem předmětu je seznámit studenty se základy vytěžování dat (data miningu). Studenti se postupně seznámí se základními úlohami vytěžování dat, odhady parametrů pomocí pravděpodobnosti. Dále se základními metodami shlukové analýzy a metodami vyhodnocení úspěšnosti shlukování, vyhledávání častých množin a sekvencí. Poté se studenti seznámí se základy klasifikace (Bayesovský klasifikátor), následovat budou složitější klasifikační metody - rozhodovací stromy, lineární klasifikace, perceptron a dopředné neuronové sítě. Posledními tématy bude testování vytvořených modelů a kombinování modelů.

Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/A7B36VYD

Požadavky:

Viz web predmetu:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Osnova přednášek:

Osnova a obsah přednášek:

1) Úvod. Vytěžování s učitelem a bez učitele, příznaková reprezentace

2) Odhady parametrů pravděpodobnostního rozdělení, maximální věrohodnost, Gaussovská směs

3) Grafické pravděpodobnostní modely, odhady parametrů

4) Shluková analýza a analýza hlavních komponent

5) Samoorganizující se mapy

6) Časté množiny, sekvence a grafy

7) Klasifikační úloha, riziko, Bayesovský klasifikátor, klasifikace dle podobnosti

8) Rozhodovací stromy a pravidla

9) Lineární klasifikátor, rozšíření báze, LDA, logistická regrese

10) Perceptron a neuronové sítě s dopřednou strukturou

11) Testování modelů: křížová validace, ROC analýza

12) Kombinování modelů a výběr příznaků

13) Ukázky aplikací / Industrial show

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/prednasky/start

Osnova cvičení:

1) Ukázka práce v Matlabu

2) Práce v prostředí RapidMiner

3) Částečná implementace EM

4) Ruční návrh struktury BN v dodaném nástroji

5) Clustering

6) SOM: clustering textu (termín výjimečně až za 2 týdny)

7) Konzultace text mining

8) Transakční data

9) Klasifikace

10) Rozhodovací stromy

11) Lineární klasifikátor

12) Testovaní a ROC

13) Odevzdani poslední úlohy, ukazka NN, zápočty

Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/cviceni/start

Cíle studia:

Cílem studia je seznámit studenty se základními principy a technikami vytěžování dat. V rámci předmětu si také prakticky vyzkouší všechny probírané techniky.

Studijní materiály:

Studijní materiály jsou dostupné na webu předmětu na stránkách:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Poznámka:

Další informace:

http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start

Pro tento předmět se rozvrh nepřipravuje

Předmět je součástí následujících studijních plánů: