DB technologie pro Big Data
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
BI-BIG.21 | KZ | 5 | 2P+2C | česky |
- Garant předmětu:
- Monika Borkovcová, Josef Gattermayer
- Přednášející:
- Monika Borkovcová, Josef Gattermayer
- Cvičící:
- Monika Borkovcová, Josef Gattermayer, Jan Matoušek
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Studenti budou uvedeni do oboru zpracování velkých dat (Big Data), kde se dnes typicky používají nerelační (NoSQL) databázové stroje. Předmět je zaměřen prakticky, aby studenti po jeho absolvování byli schopni vybrat vhodné nástroje (většinou open source) a postupy, navrhnout a implementovat jednodušší opakovatelný proces zpracování dat (sběr dat, transformace/agregace, prezentace). Studenti budou seznámeni s různými architekturami pro zpracování a uložení velkých dat. Teoretický výklad a prezentace konkrétních technologií budou doplněny případovými studiemi.
- Požadavky:
-
Základní znalost relačních databází, práce s příkazovou řádkou.
- Osnova přednášek:
-
1. Úvod do zpracování velkých dat, pojem Big Data a jeho vymezení, CAP teorém.
2. Případová studie.
3. [2] Sloupcové (column-oriented) databázové stroje (Cassandra).
5. Dokumentově orientované databáze (MongoDB).
6. [2] Platformy pro zpracování velkých dat založené na předávání dat přes souborový systém (Hadoop).
8. [2] Platformy pro zpracování velkých dat založené na předávání dat přes operační paměť (Spark).
10. Indexování nestrukturovaných a semistrukturovaných dat (ElasticSearch, Solr).
11. Nástroje pro vizualizaci a prezentaci dat (Kibana).
12. [2] Případové studie.
- Osnova cvičení:
-
1. Seznámení s prostředím laboratoře
2. Úvod do práce s Cassandra Clusterem
3. Hadoop MapReduce
4. Cassandra UseCase 1 - 1. část
5. Cassandra UseCase 1 - 2. část
6. Cassandra UseCase 2 - 1. část (Využití Hive / Pig)
7. Cassandra UseCase 2 - 1. část
8. Cassandra UseCase 3 - 1. část (Využíti Solr)
9. Cassandra UseCase 3 - 2. část
10. Cassandra UseCase 4 - 1. část (Komplexní řešení)
11. Cassandra UseCase 4 - 2. část
12. Odevzdání semestrální práce, zápočet
13. Rezerva
- Cíle studia:
- Studijní materiály:
-
1. Zikopoulos P., Eaton Ch. : Understanding big data: Analytics for enterprise class Hadoop and streaming data. McGraw-Hill Osborne Media, 2011. ISBN 978-0071790536.
2. Hewitt E. : Cassandra: The Defnitive Guide. O'Reilly Media, 2010. ISBN 978-1449390419.
3. Meier A., Kaufmann M. : SQL & NoSQL Databases. Springer, 2019. ISBN 978-3-658-24549-8.
4. Bradshaw S., Brazil E., Chodorow Ch. : MongoDB: The Defnitive Guide: Powerful and Scalable Data Storage. O'Reilly Media, 2019. ISBN 9781491954461.
- Poznámka:
- Další informace:
- https://courses.fit.cvut.cz/BI-BIG/
- Rozvrh na zimní semestr 2023/2024:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Rozvrh na letní semestr 2023/2024:
- Rozvrh není připraven
- Předmět je součástí následujících studijních plánů:
-
- Bc. specializace Informační bezpečnost, 2021 (volitelný předmět)
- Bc. specializace Manažerská informatika, 2021 (volitelný předmět)
- Bc. specializace Počítačová grafika, 2021 (volitelný předmět)
- Bc. specializace Počítačové inženýrství, 2021 (volitelný předmět)
- Bc. program, pro fázi studia bez specializace, 2021 (VO)
- Bc. specializace Webové inženýrství, 2021 (PS)
- Bc. specializace Umělá inteligence, 2021 (povinně volitelný předmět, volitelný předmět)
- Bc. specializace Teoretická informatika, 2021 (volitelný předmět)
- Bc. specializace Softwarové inženýrství, 2021 (volitelný předmět)
- Bc. specializace Počítačové systémy a virtualizace, 2021 (povinně volitelný předmět, volitelný předmět)
- Bc. specializace Počítačové sítě a Internet, 2021 (volitelný předmět)