Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Vytěžování znalostí z dat

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
BI-VZD Z,ZK 4 2P+2C česky
Garant předmětu:
Pavel Kordík
Přednášející:
Karel Klouda, Daniel Vašata
Cvičící:
Karel Klouda, Ivan Rychtera, Ladislava Smítková Janků, Daniel Vašata
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

Studenti se seznámí se základními postupy při vytěžování znalostí z dat zejména pomocí metod strojového učení. Konkrétně se naučí základní techniky předzpracování a vizualizace dat a seznámí se s postupy při tvorbě modelů popisující data. Studenti také získají povědomí o vztahu mezi zaujetím a variancí modelů (bias-variance trade-off) a o vyhodnocení kvality modelů. V předmětu se k práci s daty a modely využívají knihovny pandas a scikit napsané v jazyce Python. Studenti budou schopni kvalifikovaně použít základní postupy data miningu a strojového učení na nejčastěji se vyskytujících problémech (klasifikace, regrese, shlukování).

Požadavky:

Předpokládá se znalost lineární algebry, matematické analýzy a teorie pravděpodobnosti v rozsahu kurzů vyučovaných na fakultě.

Osnova přednášek:

1. Seznámení s tématem a ukázky použití

2. Rozhodovací stromy, testovací, trénovací a validační množina

3. Ensamble metody (rozhodovací lesy, AdaBoost)

4. Hierarchická shlukování a algoritmus k-means

5. Metoda nejbližších sousedů, křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese, regularizace lineárního modelu

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Osnova cvičení:

1. Jupyter notebooky a základní balíčky

2. Rozhodovací stromy, ladění (hyper)parametrů

3. Stromy, lesy, AdaBoost

4. Shlukování, hierarchické a k-means

5. kNN a křížová validace

6. Naivní Bayesův klasifikátor

7. Lineární regrese

8. Logistická regrese

9. Hřebenová regrese

10. Redukce dimenzionality

11. Neuronové sítě

12. Strojové zpracování přirozeného jazyka

Cíle studia:

Cílem předmětu je poskytnout základní úvod do velmi rychle se rozvíjejícího oboru - vytěžování znalostí z dat.

Studijní materiály:

1. Data Mining: Practical Machine Learning Tools and Techniques, I. H. Witten, E. Frank, M. A. Hall, Elsevier, 2011, ISBN 978-0080890364.

2. Deep Learning, I. Goodfellow, Y. Bengio, A. Courville, MIT Press, 2016, ISBN 978-0262035613.

3. Machine Learning: A Probabilistic Perspective, K. P. Murphy, MIT Press, 2012, ISBN 978-0262018029.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/BI-VZD/

Další informace:
https://courses.fit.cvut.cz/BI-VZD/
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 6. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet1126006.html