Datové sklady, zpracování velkých objemů dat
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
18DWH | ZK | 4 | 2+2 | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra softwarového inženýrství
- Anotace:
-
Předmět se zabývá problematikou zpracování, uchovávání, vyhledávání a vyhodnocování v heterogenních zdrojích strukturovaných i nestrukturovaných datech a jejich využití pro analýzu, další zpracování a výkazy. Konstruujeme datové sklady.
- Požadavky:
- Osnova přednášek:
-
1.datový sklad (DWH), architektura systému, požadavky na systémový hardware a software, architektura pro zajištění vysoké dostupnosti
2.rozmanitost dat
- specifika binárních formátů a jejich interpretace
- extrakce textových dat pro fulltext a tvorbu metadat (surové texty z formátů office, pdf, exif z jpg apod.)
- metody získávání dat: csv, tsv, xml, nestrukturovaná data, konektor do db
- užití souborového systému a metadat
- principy verzování
- zdroje metadat, tvorba metadat při importu a provozu DWH, auditní stopy
3.heterogenní zdroje dat, metody jejich získávání (manuální, automatizované)
- periodicita získávání dat (pravidelné, nepravidelné, jednorázové)
- vstupní datové formuláře, databázové konektory, soubory zdrojových dat (lokální souborový systém, odkaz na síti, ftp, scp, připojované síťové svazky)
4.import dat do DWH, metodika ETL
- extrakce, transformace, nahrávání
- architektura landing, base, core, unifikace procesu přípravy rozličných dat na import do jednotného systému
- referenční kontroly, typové kontroly, strukturální kontroly, metody unifikace datových typů
- non-sql archiv
- využití souborového systému a databáze v procesu ETL
5.metodika ETL, pokračování
- automatizace ETL procesu
- validace jednotlivých kroků ETL
- záznam auditní stopy pro všechny kroky procesu
- verzování dat
6.archivace dat
- metody pro dlouhodobou archivaci dat DWH
- metody rekonstrukce dat z dlouhodobého archivu
- zálohy (živá replikace, export dat)
- non-sql archív
7.analýza, návrh řešení konstrukce datového skladu
- seznam funkčních požadavků (co má datový sklad poskytovat za funkce?)
- relevantní vzorová data pro všechny datové domény
- předpoklady postupného plnění daty v provozu (nová data, aktualizace, verzování, kampaně)
- obchodní model aplikace (architektura a funkce pro zákazníka, koncového uživatele)
- objektový model aplikace (architektura pro vývojáře)
8.analýza, návrh řešení konstrukce datového skladu
- model architektury provozního prostředí (hardware, software, služby svazku, konfigurace)
- E-R model databáze (databáze, schémata, tabulky, reference, indexy)
- struktury adresářů na souborových svazcích
- datamarty
- ORM - objektově relační mapování vlastností objektů na atributy a entity v databázi a soubory na souborovém systému
9.nadstavbové aplikace
- provozní
- manažerské souhrny a výkazy
- vizualizace dat nad mapou
10.napojení na externí systémy
- webové služby
- formáty JSON, XML
- exporty CSV
- automatizace exportů (periodické, na vyžádání)
11.prezentace týmových prací konstrukce datového skladu
12.rekapitulace
- Osnova cvičení:
-
1.Úvodní cvičení - Příprava a seznámení se s vývojovým prostředím
- Apache server
- Programovací jazyk (PHP / JAVA / C# / C++)
- Databáze (MySQL / PostgreSQL)
- Vytvořeni databáze a prvních struktur
2.Extrakce a import dat z různých formátů
- Prozkoumání nástrojů pro extrakci textových dat
- Extrakce a import dat a metadat z různých formátů do připravené DB struktury
3.Extrakce a import dat z různých zdrojů
- Seznámení s DB konektory
- Import dat přes konektory nebo FTP
4.ETL
- Tvorba schemat loading, base, core
- Tvorba jednoduchých skriptů pro automatizovanou extrakci minimálně z dvou různých zdrojů a dvou různých formátů
- Příprava pro zaznamenávání auditních stop a archivaci
5.ETL
- Tvorba jednoduchých skriptů pro automatizovanou transformaci a nahrání dat
- Zaznamenávání stopy auditu
6.Archivace
- Tvorba záloh exportem DB
- Tvorba non-sql zálohy
7.Zadání, analýza, popis řešení a funkčnost řešení
- Přidání nového zdroje v určitém formátu a test automatizovaných procesů
- Popis modelu architektury
- E-R Model
8.ORM a datagramy
- Průzkum ORM nástrojů
- Příprava VIEWS pro využití v datamartech a následné managerské výstupy
9.Nadstavbové aplikace
- Prezentace dat z datamartů
- Jednoduchá web prezentace s grafem
10.Podpora pro externí systémy
- Příprava a implementace jednoduché webové služby pro přístup k datům (REST / SOAP)
- Tvorba jednoduché nezávislé aplikace, která bude komunikovat s vytvořenou web službou
11.Testování a konzultace
12.Zápočty
- Cíle studia:
-
Studenti získají komplexní znalost problematiky zpracování, správy a vytěžování velkých objemů strukturovaných i nestrukturovaných dat z rozličných datových zdrojů. Navážou na a využijí znalosti z teorie grafů, databázových systémů, algoritmizace, softwarové architektury a optimalizací procesů zpracování dat.
- Studijní materiály:
-
Povinná literatura:
[1] Robert Laberge: Datové sklady. Agilní metody a business intelligence. Brno: Computer Press 2012. ISBN: 978-80-251-3729-1
Doporučená literatura:
[1] vyhledávač Google http://google.com
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů: