Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2019/2020

Datové sklady, zpracování velkých objemů dat

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
18DWH ZK 4 2+2 česky
Přednášející:
Kamil Barbierik, Tomáš Liška
Cvičící:
Kamil Barbierik, Tomáš Liška
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

Předmět se zabývá problematikou zpracování, uchovávání, vyhledávání a vyhodnocování v heterogenních zdrojích strukturovaných i nestrukturovaných datech a jejich využití pro analýzu, další zpracování a výkazy. Konstruujeme datové sklady.

Požadavky:
Osnova přednášek:

1.datový sklad (DWH), architektura systému, požadavky na systémový hardware a software, architektura pro zajištění vysoké dostupnosti

2.rozmanitost dat

- specifika binárních formátů a jejich interpretace

- extrakce textových dat pro fulltext a tvorbu metadat (surové texty z formátů office, pdf, exif z jpg apod.)

- metody získávání dat: csv, tsv, xml, nestrukturovaná data, konektor do db

- užití souborového systému a metadat

- principy verzování

- zdroje metadat, tvorba metadat při importu a provozu DWH, auditní stopy

3.heterogenní zdroje dat, metody jejich získávání (manuální, automatizované)

- periodicita získávání dat (pravidelné, nepravidelné, jednorázové)

- vstupní datové formuláře, databázové konektory, soubory zdrojových dat (lokální souborový systém, odkaz na síti, ftp, scp, připojované síťové svazky)

4.import dat do DWH, metodika ETL

- extrakce, transformace, nahrávání

- architektura landing, base, core, unifikace procesu přípravy rozličných dat na import do jednotného systému

- referenční kontroly, typové kontroly, strukturální kontroly, metody unifikace datových typů

- non-sql archiv

- využití souborového systému a databáze v procesu ETL

5.metodika ETL, pokračování

- automatizace ETL procesu

- validace jednotlivých kroků ETL

- záznam auditní stopy pro všechny kroky procesu

- verzování dat

6.archivace dat

- metody pro dlouhodobou archivaci dat DWH

- metody rekonstrukce dat z dlouhodobého archivu

- zálohy (živá replikace, export dat)

- non-sql archív

7.analýza, návrh řešení konstrukce datového skladu

- seznam funkčních požadavků (co má datový sklad poskytovat za funkce?)

- relevantní vzorová data pro všechny datové domény

- předpoklady postupného plnění daty v provozu (nová data, aktualizace, verzování, kampaně)

- obchodní model aplikace (architektura a funkce pro zákazníka, koncového uživatele)

- objektový model aplikace (architektura pro vývojáře)

8.analýza, návrh řešení konstrukce datového skladu

- model architektury provozního prostředí (hardware, software, služby svazku, konfigurace)

- E-R model databáze (databáze, schémata, tabulky, reference, indexy)

- struktury adresářů na souborových svazcích

- datamarty

- ORM - objektově relační mapování vlastností objektů na atributy a entity v databázi a soubory na souborovém systému

9.nadstavbové aplikace

- provozní

- manažerské souhrny a výkazy

- vizualizace dat nad mapou

10.napojení na externí systémy

- webové služby

- formáty JSON, XML

- exporty CSV

- automatizace exportů (periodické, na vyžádání)

11.prezentace týmových prací konstrukce datového skladu

12.rekapitulace

Osnova cvičení:

1.Úvodní cvičení - Příprava a seznámení se s vývojovým prostředím

- Apache server

- Programovací jazyk (PHP / JAVA / C# / C++)

- Databáze (MySQL / PostgreSQL)

- Vytvořeni databáze a prvních struktur

2.Extrakce a import dat z různých formátů

- Prozkoumání nástrojů pro extrakci textových dat

- Extrakce a import dat a metadat z různých formátů do připravené DB struktury

3.Extrakce a import dat z různých zdrojů

- Seznámení s DB konektory

- Import dat přes konektory nebo FTP

4.ETL

- Tvorba schemat loading, base, core

- Tvorba jednoduchých skriptů pro automatizovanou extrakci minimálně z dvou různých zdrojů a dvou různých formátů

- Příprava pro zaznamenávání auditních stop a archivaci

5.ETL

- Tvorba jednoduchých skriptů pro automatizovanou transformaci a nahrání dat

- Zaznamenávání stopy auditu

6.Archivace

- Tvorba záloh exportem DB

- Tvorba non-sql zálohy

7.Zadání, analýza, popis řešení a funkčnost řešení

- Přidání nového zdroje v určitém formátu a test automatizovaných procesů

- Popis modelu architektury

- E-R Model

8.ORM a datagramy

- Průzkum ORM nástrojů

- Příprava VIEWS pro využití v datamartech a následné managerské výstupy

9.Nadstavbové aplikace

- Prezentace dat z datamartů

- Jednoduchá web prezentace s grafem

10.Podpora pro externí systémy

- Příprava a implementace jednoduché webové služby pro přístup k datům (REST / SOAP)

- Tvorba jednoduché nezávislé aplikace, která bude komunikovat s vytvořenou web službou

11.Testování a konzultace

12.Zápočty

Cíle studia:

Studenti získají komplexní znalost problematiky zpracování, správy a vytěžování velkých objemů strukturovaných i nestrukturovaných dat z rozličných datových zdrojů. Navážou na a využijí znalosti z teorie grafů, databázových systémů, algoritmizace, softwarové architektury a optimalizací procesů zpracování dat.

Studijní materiály:

Povinná literatura:

[1] Robert Laberge: Datové sklady. Agilní metody a business intelligence. Brno: Computer Press 2012. ISBN: 978-80-251-3729-1

Doporučená literatura:

[1] vyhledávač Google http://google.com

Poznámka:
Rozvrh na zimní semestr 2019/2020:
Rozvrh není připraven
Rozvrh na letní semestr 2019/2020:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 18. 9. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet5152706.html