Big Data nástroje a architektura
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
18BIG | Z | 3 | 1P+1C | česky |
- Garant předmětu:
- Petr Pokorný
- Přednášející:
- Petr Pokorný
- Cvičící:
- Petr Pokorný
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Prakticky zaměřený předmět, po jehož absolvování bude student rozumět základním nástrojům a postupům používaných v moderních Big Data úložištích – Lakehousech. Student bude mít základní znalost o integraci na ostatní systémy (konzumace dat i jejich poskytování), bude chápat architekturu moderních analytických platforem s ohledem na byznysový model dat, data governance, orchestraci a aktualizaci dat. Kurz dále představí distribuovaný výpočetní framework Spark, nástroje pro správu modelů strojového učení (MLOps) a vizualizaci dat.
- Požadavky:
-
Znalost SQL databází výhodou.
- Osnova přednášek:
-
1. Základní popis a evoluce DWH, Data Lake, Lakehouse, PaaS, IaaS, Business Driven Development
2. Datové zdroje, jejich výhody: fronty (Kafka, Event Hub), object storage, JDBC, některé integrační vzory
3. Návrh Lakehouse systému, vrstvy medallion architektury, jejich určení
4. Vytvoření Core Business modelu v Silver, fyzický model, DDL SQL, dbt
5. Data governance: bezpečnost, modely sdílení, citlivost, kvalita, data lineage
6. Datové toky, Spark processing, škálování, dopady distribuovaného výpočtu
7. Orchestrace: různé přístupy, change data capture. Nástroje: Airflow, Delta Live Tables, Dagster
8. NoSQL, Key-Value stores (CosmosDB, Redis Cache), Operational Data Store
9. MLOps - verzování, monitoring ML modelů, jejich orchestrace
10. Prezentace a vizualizace dat: PowerBI
- Osnova cvičení:
- Cíle studia:
-
Cílem předmětu je studenty seznámit s moderním technologickým přístupy a nástroji pro práci s velkými daty.
- Studijní materiály:
-
Doporučená literatura:
[1] Bill Inmon, Building the Data Lakehouse
[2] The Big Book of Data Engineering 2nd Edition - A collection of technical blogs, including code samples and notebooks
- Poznámka:
- Rozvrh na zimní semestr 2024/2025:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Rozvrh na letní semestr 2024/2025:
- Rozvrh není připraven
- Předmět je součástí následujících studijních plánů:
-
- Aplikace informatiky v přírodních vědách (volitelný předmět)