Technologie pro velká data
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
B0M33BDT | Z,ZK | 4 | 2P+1C | česky |
- Vztahy:
- Předmět B0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět BE0M33BDT (vztah je symetrický)
- Předmět B0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět BE0M33BDT (vztah je symetrický)
- Předmět B0M33BDT může být splněn v zastoupení předmětem BE0M33BDT
- Garant předmětu:
- Jan Hučín, Petr Paščenko, Marek Sušický
- Přednášející:
- Jan Hučín, Petr Paščenko, Marek Sušický
- Cvičící:
- Alisa Benešová, Jan Hučín, Michal Janeček, Petr Paščenko, Sergii Stamenov, Marek Sušický
- Předmět zajišťuje:
- katedra počítačů
- Anotace:
-
Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.
- Požadavky:
-
Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.
- Osnova přednášek:
-
1. Úvod, organizace, motivace, přehled, aplikace
2. Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn)
3. Storage (formáty ukládání a komprese dat, HIVE, Impala)
4. Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů)
5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)
6. Big Data Science (page rank, kolaborativní filtrování, SNA)
7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)
- Osnova cvičení:
-
1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)
2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)
3. Map Reduce (java úlohy na základní map reduce programování)
4. Spark (map reduce ve sparku, práce s RDD a DF)
5. Spark (větší úloha a příprava na zápočtový test)
6. Rezerva (Spark ML a GraphiX)
- Cíle studia:
-
Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).
- Studijní materiály:
-
Hadoop: The Definitive Guide, 4th Edition, by Tom White
- Poznámka:
- Další informace:
- https://cw.fel.cvut.cz/wiki/courses/B0M33BDT
- Rozvrh na zimní semestr 2024/2025:
-
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po Út St Čt Pá - Rozvrh na letní semestr 2024/2025:
- Rozvrh není připraven
- Předmět je součástí následujících studijních plánů: