Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

DB technologie pro Big Data

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
BI-BIG.21 KZ 5 2P+2C česky
Garant předmětu:
Monika Borkovcová
Přednášející:
Monika Borkovcová
Cvičící:
Monika Borkovcová, Jan Matoušek
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Studenti budou uvedeni do oboru zpracování velkých dat (Big Data), kde se dnes typicky používají nerelační (NoSQL) databázové stroje. Předmět je zaměřen prakticky, aby studenti po jeho absolvování byli schopni vybrat vhodné nástroje (většinou open source) a postupy, navrhnout a implementovat jednodušší opakovatelný proces zpracování dat (sběr dat, transformace/agregace, prezentace). Studenti budou seznámeni s různými architekturami pro zpracování a uložení velkých dat. Teoretický výklad a prezentace konkrétních technologií budou doplněny konkrétními příklady z praxe.

Požadavky:

Základní znalost relačních databází, práce s příkazovou řádkou, doporučená je znalost technologie Docker.

Osnova přednášek:

1. Úvod do předmětu, distribuovaná řešení, základní pojmy (Big Data, cluster, distribuované file systémy, CAP teorém,...)

2. NoSQL databáze klíč-hodnota (Redis)

3. NoSQL databáze dokumentové (MongoDB)

4. NoSQL databáze sloupcové (Apache Cassandra)

5-6. NoSQL databáze grafové (Neo4j)

7-9. The Elastic Stack (Elasticsearch, Beats, Logstash, Kibana)

10. Ekosystém Hadoop (Hadoop,Map Reduce, HDFS, YARN)

11-12. Apache Spark

13. Zápočtový test

Osnova cvičení:

1. Seznámení s prostředím laboratoře

2. Úvod do práce s Cassandra Clusterem

3. Základy Redis

4. Základy MongoDB

5. Základy Apache Cassandra

6. Základy Neo4j

7. Základy Elasticsearch

8. Způsoby a možnosti prezentace dat pomocí ELK Stack

9. Základy práce s Apache Spark, využití jazyku Scala

10. Praktický workshop na vybrané téma

11. Konzultace k semestrální práci

12. Obhajoba semestrální práce - 1. část

13. Obhajoba semestrální práce - 2. část

Cíle studia:

Po absolvování tohoto předmětu bude student schopen rozlišit jednotlivé typy noSQL databází a práci s Big Data. Bude umět navrhnout a realizovat vhodné řešení pro různé případy užití. Osvojí si v mírně pokročilé úrovni práci s NoSQL databázemi typu key-value, dokumentovými, sloupcovými a grafovými. Součástí praktických i teoretických poznatků je i ekosystém The Elastic Stack a základní přehled v ekosystému Hadoop (Map Reduce, HDFS, YARN, Apache Spark). V rámci výuky se student seznámí i s možnostmi vizualizace dat a procesem čištění a transformace různých datových sad.

Studijní materiály:

1. Holubová Irena, Minařík Karel, Novák David, Kosek Jiří. Big Data a NoSQL databáze. 2015. ISBN 978-80-247-5466-6.

2. Meier A., Kaufmann M. : SQL & NoSQL Databases. Springer, 2019. ISBN 978-3-658-24549-8.

3. Bradshaw S., Brazil E., Chodorow Ch. : MongoDB: The Defnitive Guide: Powerful and Scalable Data Storage. O'Reilly Media, 2019. ISBN 9781491954461.

4. https://redis.io

5. https://cassandra.apache.org/

6. https://neo4j.com/

7. https://www.mongodb.com/

8. https://www.elastic.co/

Poznámka:
Další informace:
https://courses.fit.cvut.cz/BI-BIG/
Rozvrh na zimní semestr 2024/2025:
Rozvrh není připraven
Rozvrh na letní semestr 2024/2025:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 26. 4. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet6608206.html