Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2020/2021

Vytěžování znalostí z dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
BI-VZD Z,ZK 4 2P+2C česky
Přednášející:
Daniel Vašata, Karel Klouda
Cvičící:
Daniel Vašata, Alžbeta Gogoláková, Karel Klouda, Peter Kolárovec, Jan Peřina, Ivo Petr, Ondrej Pudiš, Matyáš Skalický, Tomáš Vlk, Radomír Žemlička
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se seznámí se základními postupy při vytěžování znalostí z dat zejména pomocí metod strojového učení. Konkrétně se naučí základní techniky předzpracování a vizualizace dat a seznámí se s postupy při tvorbě modelů popisující data. Studenti také získají povědomí o vztahu mezi zaujetím a variancí modelů (bias-variance trade-off) a o vyhodnocení kvality modelů. V předmětu se k práci s daty a modely využívají knihovny pandas a scikit napsané v jazyce Python. Studenti budou schopni kvalifikovaně použít základní postupy data miningu a strojového učení na nejčastěji se vyskytujících problémech (klasifikace, regrese, shlukování).

Požadavky:

Předpokládá se znalost lineární algebry, matematické analýzy a teorie pravděpodobnosti v rozsahu kurzů vyučovaných na fakultě.

Osnova přednášek:

1. Seznámení s tématem a ukázky použití

2. Rozhodovací stromy, testovací, trénovací a validační množina

3. Ensamble metody (rozhodovací lesy, AdaBoost)

4. Hierarchická shlukování a algoritmus k-means

5. Metoda nejbližších sousedů, křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese, regularizace lineárního modelu

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Osnova cvičení:

1. Jupyter notebooky a základní balíčky

2. Rozhodovací stromy, ladění (hyper)parametrů

3. Stromy, lesy, AdaBoost

4. Shlukování, hierarchické a k-means

5. kNN a křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Cíle studia:

Cílem předmětu je poskytnout základní úvod do velmi rychle se rozvíjejícího oboru - vytěžování znalostí z dat.

Studijní materiály:

1. Data Mining: Practical Machine Learning Tools and Techniques, I. H. Witten, E. Frank, M. A. Hall, Elsevier, 2011, ISBN 978-0080890364.

2. Deep Learning, I. Goodfellow, Y. Bengio, A. Courville, MIT Press, 2016, ISBN 978-0262035613.

3. Machine Learning: A Probabilistic Perspective, K. P. Murphy, MIT Press, 2012, ISBN 978-0262018029.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/BI-VZD/

Další informace:
https://courses.fit.cvut.cz/BI-VZD/
Rozvrh na zimní semestr 2020/2021:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
místnost T9:303
Skalický M.
Vlk T.

09:15–10:45
(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC ucebna
místnost T9:303
Petr I.
11:00–12:30
(přednášková par. 1
paralelka 102)

Dejvice
NBFIT PC ucebna
místnost T9:351
Kolárovec P.
Pudiš O.

12:45–14:15
(přednášková par. 1
paralelka 103)

Dejvice
NBFIT PC ucebna
St
Čt
místnost T9:155
Klouda K.
Vašata D.

16:15–17:45
(přednášková par. 1)
Dejvice
Posluchárna
místnost T9:348
Gogoláková A.
Peřina J.

18:00–19:30
(přednášková par. 1
paralelka 104)

Dejvice
NBFIT PC ucebna

místnost T9:303
Žemlička R.
09:15–10:45
(přednášková par. 1
paralelka 105)

Dejvice
NBFIT PC ucebna
místnost T9:303
Žemlička R.
11:00–12:30
(přednášková par. 1
paralelka 106)

Dejvice
NBFIT PC ucebna
Rozvrh na letní semestr 2020/2021:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 20. 9. 2020
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1126006.html