Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2024/2025

Data processing

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
14PD-E Z,ZK 6 2P+4C anglicky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra aplikované informatiky v dopravě
Anotace:

Studenti se seznámí s nástroji pro zpracování a analýzu dat, na příkladech z praxe si vyzkouší nejčastější možnosti používané při zpracování dat včetně pokročilých možností při prezentaci výsledků analýz. V rámci pokročilých metod budou studenti provádět i specifickou analýzu pomocí Bayesovských sítí. Studenti budou následně samostatně provádět datovou analýzu na datech z existujících otevřených systémů.

Požadavky:

Schopnost logického myšlení, znalost základů algoritmizace a základů libovolného programovacího jazyka na úrovni odpovídající danému ročníku studia technické univerzity.

Osnova přednášek:

1. část seznamuje s nástroji na zpracování dat a je dělena do 3 bloků:

Blok 1: seznámení s R - prostředí, koncept, základy, jednoduché příklady, základní knihovny, jejich příklady a použití (nainstalování R u studentů)

Blok 2: aplikované R - aplikované příklady z praxe, knihovna s mapou, získávání dat z různých zdrojů a jejich úprava (GIS, RDBMS, CSV, apod)

Blok 3: pokročilé R - interaktivní prezentační modul (shiny), další moduly dle domluvy

2. část se zabývá konkrétním modelem pro zpracování dat, Bayesovskými sítěmi a je také dělena do 3 bloků:

Blok 1: Základy Bayesovských sítí, specializovaný software pro Bayesovské sítě, modelování, základy teorie grafů a pravděpodobnosti.

Blok 2: Příprava dat na následné využití Bayesovských sítí, vykreslení první Bayesovské sítě, algoritmy na učení sítě, parametrů, inferencí; propojení s GeNií.

Blok 3: Provádění inferencí v Bayesovských sítích.

Osnova cvičení:

1. část seznamuje s nástroji na zpracování dat a je dělena do 3 bloků:

Blok 1: seznámení s R - prostředí, koncept, základy, jednoduché příklady, základní knihovny, jejich příklady a použití (nainstalování R u studentů)

Blok 2: aplikované R - aplikované příklady z praxe, knihovna s mapou, získávání dat z různých zdrojů a jejich úprava (GIS, RDBMS, CSV, apod)

Blok 3: pokročilé R - interaktivní prezentační modul (shiny), další moduly dle domluvy

2. část se zabývá konkrétním modelem pro zpracování dat, Bayesovskými sítěmi a je také dělena do 3 bloků:

Blok 1: Základy Bayesovských sítí, specializovaný software pro Bayesovské sítě, modelování, základy teorie grafů a pravděpodobnosti.

Blok 2: Příprava dat na následné využití Bayesovských sítí, vykreslení první Bayesovské sítě, algoritmy na učení sítě, parametrů, inferencí; propojení s GeNií.

Blok 3: Provádění inferencí v Bayesovských sítích.

Cíle studia:

Cílem předmětu je primárně studenty seznámit s nástroji pro zpracování a analýzu dat, na příkladech z praxe společně vyzkoušet nejčastější možnosti používané při zpracování dat včetně pokročilých možností při prezentaci výsledků analýz.

Studijní materiály:

Jan Rauch, Milan Šimůnek: Dobývání znalostí z databází, LISp-Miner a GUHA. Praha: Oeconomica VŠE, 2014.

Petr Berka: Dobývání znalostí z databází. Praha: Academia, 2003.

Irena Holubová, Karel Minařík, David Novák, Jiří Kosek: Big Data a NoSQL databáze.

Arun K. Somani, Ganesh Chandra Deka: Big Data Analytics. CRC Press, 2017.

Poznámka:
Další informace:
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 6. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet6824106.html