Vytěžování dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
AD7B36VYD | Z,ZK | 5 | 14KP+6KC | česky |
- Vztahy:
- Předmět AD7B36VYD nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět YD336VD (vztah je symetrický)
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra počítačů
- Anotace:
-
Cílem předmětu je seznámit studenty se základy vytěžování dat (data miningu). Studenti se postupně seznámí se základními úlohami vytěžování dat, odhady parametrů pomocí pravděpodobnosti. Dále se základními metodami shlukové analýzy a metodami vyhodnocení úspěšnosti shlukování, vyhledávání častých množin a sekvencí. Poté se studenti seznámí se základy klasifikace (Bayesovský klasifikátor), následovat budou složitější klasifikační metody - rozhodovací stromy, lineární klasifikace, perceptron a dopředné neuronové sítě. Posledními tématy bude testování vytvořených modelů a kombinování modelů.
Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/AD7B36VYD
- Požadavky:
-
Viz web predmetu:
- Osnova přednášek:
-
Osnova a obsah přednášek:
1) Úvod. Vytěžování s učitelem a bez učitele, příznaková reprezentace
2) Odhady parametrů pravděpodobnostního rozdělení, maximální věrohodnost, Gaussovská směs
3) Grafické pravděpodobnostní modely, odhady parametrů
4) Shluková analýza a analýza hlavních komponent
5) Samoorganizující se mapy
6) Časté množiny, sekvence a grafy
7) Klasifikační úloha, riziko, Bayesovský klasifikátor, klasifikace dle podobnosti
8) Rozhodovací stromy a pravidla
9) Lineární klasifikátor, rozšíření báze, LDA, logistická regrese
10) Perceptron a neuronové sítě s dopřednou strukturou
11) Testování modelů: křížová validace, ROC analýza
12) Kombinování modelů a výběr příznaků
13) Ukázky aplikací / Industrial show
Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/prednasky/start
- Osnova cvičení:
-
1) Ukázka práce v Matlabu
2) Práce v prostředí RapidMiner
3) Částečná implementace EM
4) Ruční návrh struktury BN v dodaném nástroji
5) Clustering
6) SOM: clustering textu (termín výjimečně až za 2 týdny)
7) Konzultace text mining
8) Transakční data
9) Klasifikace
10) Rozhodovací stromy
11) Lineární klasifikátor
12) Testovaní a ROC
13) Odevzdani poslední úlohy, ukazka NN, zápočty
Více podrobností viz: http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/cviceni/start
- Cíle studia:
-
Cílem studia je seznámit studenty se základními principy a technikami vytěžování dat. V rámci předmětu si také prakticky vyzkouší všechny probírané techniky.
- Studijní materiály:
-
Studijní materiály jsou dostupné na webu předmětu na stránkách:
- Poznámka:
- Další informace:
- http://cw.felk.cvut.cz/doku.php/courses/a7b36vyd/start
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů: