Vytěžování znalostí z dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
BI-VZD | Z,ZK | 4 | 2P+2C | česky |
- Garant předmětu:
- Pavel Kordík
- Přednášející:
- Karel Klouda, Alexander Kovalenko, Ondřej Tichý, Daniel Vašata
- Cvičící:
- Karel Klouda, Alexander Kovalenko, Ivan Rychtera, Ladislava Smítková Janků, Ondřej Tichý, Daniel Vašata
- Předmět zajišťuje:
- katedra aplikované matematiky
- Anotace:
-
Studenti se seznámí se základními postupy při vytěžování znalostí z dat zejména pomocí metod strojového učení. Konkrétně se naučí základní techniky předzpracování a vizualizace dat a seznámí se s postupy při tvorbě modelů popisující data. Studenti také získají povědomí o vztahu mezi zaujetím a variancí modelů (bias-variance trade-off) a o vyhodnocení kvality modelů. V předmětu se k práci s daty a modely využívají knihovny pandas a scikit napsané v jazyce Python. Studenti budou schopni kvalifikovaně použít základní postupy data miningu a strojového učení na nejčastěji se vyskytujících problémech (klasifikace, regrese, shlukování).
- Požadavky:
-
Předpokládá se znalost lineární algebry, matematické analýzy a teorie pravděpodobnosti v rozsahu kurzů vyučovaných na fakultě.
- Osnova přednášek:
-
1. Seznámení s tématem a ukázky použití
2. Rozhodovací stromy, testovací, trénovací a validační množina
3. Ensamble metody (rozhodovací lesy, AdaBoost)
4. Hierarchická shlukování a algoritmus k-means
5. Metoda nejbližších sousedů, křížová validace
6. Naivní Bayesův klasifikátor
7. Lineární regrese
8. Logistická regrese
9. Hřebenová regrese, regularizace lineárního modelu
10. Redukce dimenzionality
11. Neuronové sítě
12. Strojové zpracování přirozeného jazyka
- Osnova cvičení:
-
1. Jupyter notebooky a základní balíčky
2. Rozhodovací stromy, ladění (hyper)parametrů
3. Stromy, lesy, AdaBoost
4. Shlukování, hierarchické a k-means
5. kNN a křížová validace
6. Naivní Bayesův klasifikátor
7. Lineární regrese
8. Logistická regrese
9. Hřebenová regrese
10. Redukce dimenzionality
11. Neuronové sítě
12. Strojové zpracování přirozeného jazyka
- Cíle studia:
-
Cílem předmětu je poskytnout základní úvod do velmi rychle se rozvíjejícího oboru - vytěžování znalostí z dat.
- Studijní materiály:
-
1. Data Mining: Practical Machine Learning Tools and Techniques, I. H. Witten, E. Frank, M. A. Hall, Elsevier, 2011, ISBN 978-0080890364.
2. Deep Learning, I. Goodfellow, Y. Bengio, A. Courville, MIT Press, 2016, ISBN 978-0262035613.
3. Machine Learning: A Probabilistic Perspective, K. P. Murphy, MIT Press, 2012, ISBN 978-0262018029.
- Poznámka:
-
Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/BI-VZD/
- Další informace:
- https://courses.fit.cvut.cz/BI-VZD/
- Rozvrh na zimní semestr 2024/2025:
- Rozvrh není připraven
- Rozvrh na letní semestr 2024/2025:
- Rozvrh není připraven
- Předmět je součástí následujících studijních plánů:
-
- Bc. program Informatika, pro fázi studia bez oboru, 2015-2020 (VO)
- Bc. obor Bezpečnost a informační technologie, 2015-2020 (volitelný předmět)
- Bc. obor Teoretická informatika, 2015-2020 (povinný předmět oboru)
- Bc. obor Počítačové inženýrství, 2015-2020 (volitelný předmět)
- Bc. obor Informační systémy a management, 2015-2020 (volitelný předmět)
- Bc. obor Webové a softwarové inženýrství, zaměření Softwarové inženýrství, 2015-2020 (volitelný předmět)
- Bc. obor Webové a softwarové inženýrství, zaměření Webové inženýrství, 2015-2020 (volitelný předmět)
- Bc. obor Webové a softwarové inženýrství, zaměření Počítačová grafika, 2015-2020 (volitelný předmět)
- Bc. obor Znalostní inženýrství, 2018-2020 (povinný předmět oboru)