Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Skriptování a analýza dat v jazyce R

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
17VSADR Z 2 0+2 česky
Přednášející:
Cvičící:
Lubomír Štěpánek
Předmět zajišťuje:
katedra biomedicínské informatiky
Anotace:

Předmět je doporučen všem studentům se zájmem o interpretovaný jazyk a prostředí R, eventuálně oblast data science, kde je R široce používáno. Jazyk R je určen nejen pro analýzu dat a grafické náhledy, ale i pro obecné programovací úlohy. Výhodou jazyka R oproti komerčním systémům typu MATLAB je fakt, že R je zcela open-source, lze ho tedy zdarma stáhnout (?free as in beer?) a svobodně upravovat jeho zdrojový kód (?free as in speech?), nebo ho dokonce následně komerčně využít. Dalšími výhodami je silná komunita kolem jazyka (a tedy snadné nalezení odpovědí na dotazy v rámci informatických online fór), rychlý vývoj balíčků s novými funkcionalitami, možnost snadného vytváření online aplikací nad kódem R či snadné sázení TeXových dokumentů přímo v R. Syntaxe jazyka R je relativně jednoduchá a podobná syntaxi MATLABu. Dle některých statistik portálu kaggle.com je R v oblasti analýzy dat, data science nebo machine learning celosvětově vůbec nejpoužívanějším nástrojem. V rámci výuky je důraz kladen na praktické procvičování jazyka R postupně od jednodušších ke složitějším příkladům a k analýzám různorodých datasetů pomocí R.

Požadavky:

Žádné apriorní znalosti jazyka R nejsou vyžadovány. Schopnost jakkoliv programovat v libovolném procedurálním, nebo dokonce interpretovaném jazyce (např. MATLAB, Octave, Python) je výhodou, ale nikoliv nutnou podmínkou.

Aktivní účast na cvičeních, vypracování zadaných domácích úloh a jejich odevzdání.

Osnova přednášek:
Osnova cvičení:

1.Úvod, instalace, přehled základních datových typů a struktur, jednoduché operace, čísla, vektory a práce s nimi.

2.Další datové struktury a práce s nimi. Matice. Datové tabulky. Seznamy.

3.Načítání dat do R z externích zdrojů a jejich ukládání na pevný disk, (pro)cessing.

4.Funkce v R. Užitečné vestavěné funkce a uživatelsky definované funkce v R.

5.R jako programovací jazyk. Scoping, if-statement, cykly for-do, while-do, repeat-until. Varování, chyby, flow-control. Rodina příkazů apply().

6.Základy statistiky a analýzy dat v R. Pravděpodobnostní rozdělení. Míry polohy a variability. Testování hypotéz.

7.Pokročilejší statistika a analýza dat v R. Lineární modely včetně zobecněných. Lineární regrese. Logistická regrese. Analýza přežití.

8.Vybrané pokročilejší statistické metody v R. Shluková analýza. Diskriminační analýza, Časové řady. Jacknife. Bootstrap.

9.Některé metody strojového učení v R. Naivní Bayesův klasifikátor. Support Vector Machine (SVM). Křížová validace (CV). Analýza hlavních komponent (PCA). Rozhodovací stromy. Náhodné lesy. Neuronové sítě. Asociační pravidla.

10.Grafické výstupy v R. Low-level a high-level grafické příkazy. Zobrazování mnohorozměrných dat. Parametry diagramů.

11.Diagramy vhodné pro jednotlivé výstupy analýz v R. Přehled typů diagramů a jejich ukládání na pevný disk.

12.Práce s textem v R. Základní práce s textovými řetězci. Regulární výrazy v R. Tokenizace, n-gramming. TeXový kód uvnitř R-kového kódu, TeXový výstup R-kových analýz a diagramů do pdf.

13.Vývoj webových aplikací pomocí R a balíčku Shiny. Balíček Shiny. Komponenty webové aplikace napsané v R. Použití HTML, CSS a javascriptu v R-kové aplikaci.

14.Časová rezerva pro dokončení některých témat nebo jejich podrobnější zopakování.

Cíle studia:
Studijní materiály:

[1] ZVÁRA, Karel. Základy statistiky v prostředí R. 1. vydání. Praha : Karolinum, 2013. Biomedicínská statistika; sv. 4. ISBN 978-80-246-2245-3.

[2] KOMÁREK, Arnošt. Základy práce s R [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~komarek/vyuka/dataRko/Rmanual1.pdf

[3] KOMÁREK, Arnošt. Hrátky s R [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~kulich/vyuka/Rdoc/arnost_introR.pdf

[4] BÍNA, Vladislav, Arnošt KOMÁREK a Lenka KOMÁRKOVÁ. Jak na jazyk R: instalace a základní příkazy [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~kulich/vyuka/Rdoc/arnost_introR.pdf

[5] KONEČNÁ, Kateřina a Jan KOLÁČEK. Jak pracovat s jakyzem R [online]. [cit. 2017-04-13]. Dostupné z: http://www.math.muni.cz/~xkonecn3/vyuka/MUNI/VMS/navod_R.pdf

[6] The R Project for Statistical Computing [online]. [cit. 2017-04-13]. Dostupné z: https://www.r-project.org/

[7] Quick-R: accessing the power of R [online]. [cit. 2017-04-13]. Dostupné z: http://www.statmethods.net/

[8] R-bloggers: R news and tutorials contributed by R bloggers [online]. [cit. 2017-04-13]. Dostupné z: https://www.r-bloggers.com/

[9] GROLEMUND, Garrett a Hadley WICKHAM. R for Data Science [online]. [cit. 2017-04-13]. Dostupné z: http://r4ds.had.co.nz/

Poznámka:
Rozvrh na zimní semestr 2018/2019:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
místnost KL:B-331_N
Štěpánek L.
16:00–17:50
(paralelka 1)
Kladno FBMI
Počítačová učebna
St
Čt

Rozvrh na letní semestr 2018/2019:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 15. 7. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet5249406.html