Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Vytěžování znalostí z dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
BI-VZD Z,ZK 4 2P+2C česky
Přednášející:
Daniel Vašata, Karel Klouda
Cvičící:
Daniel Vašata, Klára Hájková, Karel Klouda
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se seznámí se základními postupy při vytěžování znalostí z dat zejména pomocí metod strojového učení. Konkrétně se naučí základní techniky předzpracování a vizualizace dat a seznámí se s postupy při tvorbě modelů popisující data. Studenti také získají povědomí o vztahu mezi zaujetím a variancí modelů (bias-variance trade-off) a o vyhodnocení kvality modelů. V předmětu se k práci s daty a modely využívají knihovny pandas a scikit napsané v jazyce Python. Studenti budou schopni kvalifikovaně použít základní postupy data miningu a strojového učení na nejčastěji se vyskytujících problémech (klasifikace, regrese, shlukování).

Požadavky:

Předpokládá se znalost lineární algebry, matematické analýzy a teorie pravděpodobnosti v rozsahu kurzů vyučovaných na fakultě.

Osnova přednášek:

1. Seznámení s tématem a ukázky použití

2. Rozhodovací stromy, testovací, trénovací a validační množina

3. Ensamble metody (rozhodovací lesy, AdaBoost)

4. Hierarchická shlukování a algoritmus k-means

5. Metoda nejbližších sousedů, křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese, regularizace lineárního modelu

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Osnova cvičení:

1. Jupyter notebooky a základní balíčky

2. Rozhodovací stromy, ladění (hyper)parametrů

3. Stromy, lesy, AdaBoost

4. Shlukování, hierarchické a k-means

5. kNN a křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Cíle studia:

Cílem předmětu je poskytnout základní úvod do velmi rychle se rozvíjejícího oboru - vytěžování znalostí z dat.

Studijní materiály:

1. Data Mining: Practical Machine Learning Tools and Techniques, I. H. Witten, E. Frank, M. A. Hall, Elsevier, 2011, ISBN 978-0080890364.

2. Deep Learning, I. Goodfellow, Y. Bengio, A. Courville, MIT Press, 2016, ISBN 978-0262035613.

3. Machine Learning: A Probabilistic Perspective, K. P. Murphy, MIT Press, 2012, ISBN 978-0262018029.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/BI-VZD/

Rozsah=prednasky+proseminare+cviceni:2p+2c

Další informace:
https://courses.fit.cvut.cz/BI-VZD/
Rozvrh na zimní semestr 2019/2020:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
Čt
místnost T9:107
Klouda K.
Vašata D.

14:30–16:00
(přednášková par. 1)
Dejvice
Posluchárna
místnost T9:348
Hájková K.
16:15–17:45
(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC ucebna
místnost T9:348
Hájková K.
18:00–19:30
(přednášková par. 1
paralelka 102)

Dejvice
NBFIT PC ucebna
místnost T9:350
Klouda K.
Vašata D.

16:15–17:45
(přednášková par. 1
paralelka 103)

Dejvice
NBFIT PC ucebna

místnost TH:A-1142
Klouda K.
Vašata D.

09:15–10:45
(přednášková par. 1
paralelka 104)

Thákurova 7 (FSv-budova A)
Apple lab
Rozvrh na letní semestr 2019/2020:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 10. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1126006.html