Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024

Big Data nástroje a architektura

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
18BIG Z 3 1P+1C česky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Prakticky zaměřený předmět, po jehož absolvování bude student rozumět základním nástrojům a postupům používaných v moderních Big Data úložištích – Lakehousech. Student bude mít základní znalost o integraci na ostatní systémy (konzumace dat i jejich poskytování), bude chápat architekturu moderních analytických platforem s ohledem na byznysový model dat, data governance, orchestraci a aktualizaci dat. Kurz dále představí distribuovaný výpočetní framework Spark, nástroje pro správu modelů strojového učení (MLOps) a vizualizaci dat.

Požadavky:

Znalost SQL databází výhodou.

Osnova přednášek:

1. Základní popis a evoluce DWH, Data Lake, Lakehouse, PaaS, IaaS, Business Driven Development

2. Datové zdroje, jejich výhody: fronty (Kafka, Event Hub), object storage, JDBC, některé integrační vzory

3. Návrh Lakehouse systému, vrstvy medallion architektury, jejich určení

4. Vytvoření Core Business modelu v Silver, fyzický model, DDL SQL, dbt

5. Data governance: bezpečnost, modely sdílení, citlivost, kvalita, data lineage

6. Datové toky, Spark processing, škálování, dopady distribuovaného výpočtu

7. Orchestrace: různé přístupy, change data capture. Nástroje: Airflow, Delta Live Tables, Dagster

8. NoSQL, Key-Value stores (CosmosDB, Redis Cache), Operational Data Store

9. MLOps - verzování, monitoring ML modelů, jejich orchestrace

10. Prezentace a vizualizace dat: PowerBI

Osnova cvičení:
Cíle studia:

Cílem předmětu je studenty seznámit s moderním technologickým přístupy a nástroji pro práci s velkými daty.

Studijní materiály:

Doporučená literatura:

[1] Bill Inmon, Building the Data Lakehouse

[2] The Big Book of Data Engineering 2nd Edition - A collection of technical blogs, including code samples and notebooks

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 1. 5. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet7917006.html