Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024
UPOZORNĚNÍ: Jsou dostupné studijní plány pro následující akademický rok.

Technologie pro velká data

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
B0M33BDT Z,ZK 4 2P+1C česky

Předmět B0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět BE0M33BDT (vztah je symetrický)

Předmět B0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět BE0M33BDT (vztah je symetrický)

Předmět B0M33BDT může být splněn v zastoupení předmětem BE0M33BDT

Garant předmětu:
Jan Hučín, Petr Paščenko, Marek Sušický
Přednášející:
Jan Hučín, Petr Paščenko, Marek Sušický
Cvičící:
Alisa Benešová, Jan Hučín, Michal Janeček, Petr Paščenko, Sergii Stamenov, Marek Sušický
Předmět zajišťuje:
katedra počítačů
Anotace:

Předmět se zaměřuje na architekturu a aplikace systémů pro správu velkých dat. Studenti si osvojí celistvý pohled na ekosystém technologií od výběru hardware infrastruktury, procesu extrakce, transformace a načítání dat přes jejich uložení, správu a analýzu až po pokročilé metody datové vědy a strojového učení pro zpracování dat a následné aplikace výsledků v byznysu.

Požadavky:

Cvičení budou probíhat standardním způsobem předpokládáme, že studenti si přinesou vlastní počítače pro editování skriptů. Vlastní výpočty plánujeme v počítačovém klastru se vzdáleným přístupem. Pro praktická cvičení budou studenti používat předistalovanou databázi textů. Náplní cvičení bude praktické uplatnění přednášených technologií na konkrétních příkladech. V průběhu semestru jsou plánovány dva krátké testy z dosud probrané látky.

Osnova přednášek:

1. Úvod, organizace, motivace, přehled, aplikace

2. Architektura clusteru - Hadoop (hw, distribuce, hdfs, yarn)

3. Storage (formáty ukládání a komprese dat, HIVE, Impala)

4. Map+reduce - paradigma a implementace (fáze výpočtu, schémata algoritmů)

5. Spark a zpracování streamovaných dat (RDD, DataFrames, zdroje, streaming)

6. Big Data Science (page rank, kolaborativní filtrování, SNA)

7. Datové Architektury (typické architektury Big Data řešení, dwh, data lake)

Osnova cvičení:

1. První kroky na clusteru (připojení, certifikáty, tunely, administrace, tasky, logy)

2. Hive (vytváření a rušení tabulek, interní a externí mapování, dotazy)

3. Map Reduce (java úlohy na základní map reduce programování)

4. Spark (map reduce ve sparku, práce s RDD a DF)

5. Spark (větší úloha a příprava na zápočtový test)

6. Rezerva (Spark ML a GraphiX)

Cíle studia:

Cílem tohoto předmětu je seznámit studenty s novými trendy a technologiemi pro uchovávání, správu a zpracování velmi rozsáhlých dat (big data).

Studijní materiály:

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Poznámka:
Další informace:
https://cw.fel.cvut.cz/wiki/courses/B0M33BDT
Rozvrh na zimní semestr 2023/2024:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
místnost KN:E-307
Paščenko P.
Sušický M.

09:15–10:45
SUDÝ TÝDEN

(přednášková par. 1
paralelka 999)

Karlovo nám.
HW-lab K307
místnost KN:E-310

11:00–12:30
LICHÝ TÝDEN

(přednášková par. 1
paralelka 101)

Karlovo nám.
Lab K310 Linux
místnost KN:E-307

12:45–14:15
LICHÝ TÝDEN

(přednášková par. 1
paralelka 102)

Karlovo nám.
HW-lab K307
místnost KN:E-126
Paščenko P.
Sušický M.

09:15–10:45
(přednášková par. 1)
Karlovo nám.
Trnkova posluchárna K5
Čt

Rozvrh na letní semestr 2023/2024:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 27. 3. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet4773206.html