Games and reinforcement learning
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
NI-GLR | Z,ZK | 4 | 2P+2C | anglicky |
- Přednášející:
- Juan Pablo Maldonado Lopez (gar.)
- Cvičící:
- Juan Pablo Maldonado Lopez (gar.)
- Předmět zajišťuje:
- katedra aplikované matematiky
- Anotace:
-
Oblast posilovaného učení je aktuálně ve středu zájmu mnoha výzkumníků díky pokrokům v hlubokém učení, rekurentních neuronových sítí a obecné umělé intligenci. Tento předmět jsme připravili s cílem seznámit studenty s potřebnými teoretickými a praktickými základy, aby se mohli věnovat výzkumu v této oblasti.
Výuka probíhá v angličtině.
- Požadavky:
-
BI-ZUM - Introduction to artificial intelligence
- Osnova přednášek:
-
Teorie Her
1. Sealed-bid combinatorial auctions
2. Iterative combinatorial auctions
3. Stable matching
4. Congestion games. Selfish routing and the price of anarchy
5. Potential games. Network cost-sharing games
6. Best response dynamics. No-regret dynamics.
Úvod do posilovaného učení
7. Multiarmed Bandit Algorithms.
8. Finite Markov Decision Processes
9. Dynamic Programming
10. Montecarlo methods
11. Temporal-Difference learning
12. Multi-step bootstrapping
13. Planning and learning with tabular methods
- Osnova cvičení:
-
Teorie Her
1. Mechanism design basics. Auctions of physical goods.
2. Sponsored search auctions (online advertising).
3. Congestion games. Selfish routing and the price of anarchy
4. Traffic assignment in networks.
5. Best response dynamics. No-regret dynamics.
6. Rock, paper, scissors.
Úvod do posilovaného učení
7. Multiarmed Bandit Algorithms.
8. Markov chains and MDP's.
9. Algorithms: Q-learning, TD
10. Playing tic-tac-toe, checkers.
11. Tensorflow introduction.
12. Case studies: TD-gammon, Atari games, Go playing.
13. OpenAI Gym. Policy gradient algorithm.
- Cíle studia:
-
Naučit studenty základy teorie her a posilovaného učení. Jak teoreticky, tak prakticky.
- Studijní materiály:
-
Reinforcement Learning: An introduction, Sutton and Barto, 2nd edition draft, 2017.
Algorithmic Game Theory, Roughgarden, Tardos, Vazirani and Nisan, 2007.
- Poznámka:
-
Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/MI-GLR/
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů:
-
- Computer Security, Presented in English, Version 2016 až 2020 (volitelný předmět)
- Computer Systems and Networks, Presented in English, Version 2016 až 2020 (volitelný předmět)
- Design and Programming of Embedded Systems, in English, Version 2016 až 2020 (volitelný předmět)
- Specialization Software Engineering, in English, Version 2016 až 2020 (volitelný předmět)
- Počítačová bezpečnost, verze 2020 (volitelný předmět)
- Návrh a programování vestavných systémů, verze 2020 (volitelný předmět)
- Počítačové systémy a sítě, verze 2020 (volitelný předmět)
- Manažerská informatika, verze 2020 (volitelný předmět)
- Softwarové inženýrství, verze 2020 (volitelný předmět)
- Systémové programování, verze 2020 (volitelný předmět)
- Webové inženýrství, verze 2020 (volitelný předmět)
- Znalostní inženýrství, verze 2020 (volitelný předmět)
- Specializace Teoretická informatika, verze 2020 (volitelný předmět)
- Magisterský program Informatika, plán pro studenty bez specializace, verze 2020 (volitelný předmět)