Skriptování a analýza dat v jazyce R
Kód | Zakončení | Kredity | Rozsah | Jazyk výuky |
---|---|---|---|---|
17VSADR | Z | 2 | 2C | česky |
- Garant předmětu:
- Přednášející:
- Cvičící:
- Předmět zajišťuje:
- katedra biomedicínské informatiky
- Anotace:
-
Předmět je doporučen všem studentům se zájmem o interpretovaný jazyk a prostředí R, eventuálně oblast data science, kde je R široce používáno. Jazyk R je určen nejen pro analýzu dat a grafické náhledy, ale i pro obecné programovací úlohy. Výhodou jazyka R oproti komerčním systémům typu MATLAB je fakt, že R je zcela open-source, lze ho tedy zdarma stáhnout (?free as in beer?) a svobodně upravovat jeho zdrojový kód (?free as in speech?), nebo ho dokonce následně komerčně využít. Dalšími výhodami je silná komunita kolem jazyka (a tedy snadné nalezení odpovědí na dotazy v rámci informatických online fór), rychlý vývoj balíčků s novými funkcionalitami, možnost snadného vytváření online aplikací nad kódem R či snadné sázení TeXových dokumentů přímo v R. Syntaxe jazyka R je relativně jednoduchá a podobná syntaxi MATLABu. Dle některých statistik portálu kaggle.com je R v oblasti analýzy dat, data science nebo machine learning celosvětově vůbec nejpoužívanějším nástrojem. V rámci výuky je důraz kladen na praktické procvičování jazyka R postupně od jednodušších ke složitějším příkladům a k analýzám různorodých datasetů pomocí R.
- Požadavky:
-
Žádné apriorní znalosti jazyka R nejsou vyžadovány. Schopnost jakkoliv programovat v libovolném procedurálním, nebo dokonce interpretovaném jazyce (např. MATLAB, Octave, Python) je výhodou, ale nikoliv nutnou podmínkou.
Aktivní účast na cvičeních, vypracování zadaných domácích úloh a jejich odevzdání.
- Osnova přednášek:
- Osnova cvičení:
-
1.Úvod, instalace, přehled základních datových typů a struktur, jednoduché operace, čísla, vektory a práce s nimi.
2.Další datové struktury a práce s nimi. Matice. Datové tabulky. Seznamy.
3.Načítání dat do R z externích zdrojů a jejich ukládání na pevný disk, (pro)cessing.
4.Funkce v R. Užitečné vestavěné funkce a uživatelsky definované funkce v R.
5.R jako programovací jazyk. Scoping, if-statement, cykly for-do, while-do, repeat-until. Varování, chyby, flow-control. Rodina příkazů apply().
6.Základy statistiky a analýzy dat v R. Pravděpodobnostní rozdělení. Míry polohy a variability. Testování hypotéz.
7.Pokročilejší statistika a analýza dat v R. Lineární modely včetně zobecněných. Lineární regrese. Logistická regrese. Analýza přežití.
8.Vybrané pokročilejší statistické metody v R. Shluková analýza. Diskriminační analýza, Časové řady. Jacknife. Bootstrap.
9.Některé metody strojového učení v R. Naivní Bayesův klasifikátor. Support Vector Machine (SVM). Křížová validace (CV). Analýza hlavních komponent (PCA). Rozhodovací stromy. Náhodné lesy. Neuronové sítě. Asociační pravidla.
10.Grafické výstupy v R. Low-level a high-level grafické příkazy. Zobrazování mnohorozměrných dat. Parametry diagramů.
11.Diagramy vhodné pro jednotlivé výstupy analýz v R. Přehled typů diagramů a jejich ukládání na pevný disk.
12.Práce s textem v R. Základní práce s textovými řetězci. Regulární výrazy v R. Tokenizace, n-gramming. TeXový kód uvnitř R-kového kódu, TeXový výstup R-kových analýz a diagramů do pdf.
13.Vývoj webových aplikací pomocí R a balíčku Shiny. Balíček Shiny. Komponenty webové aplikace napsané v R. Použití HTML, CSS a javascriptu v R-kové aplikaci.
14.Časová rezerva pro dokončení některých témat nebo jejich podrobnější zopakování.
- Cíle studia:
- Studijní materiály:
-
[1] ZVÁRA, Karel. Základy statistiky v prostředí R. 1. vydání. Praha : Karolinum, 2013. Biomedicínská statistika; sv. 4. ISBN 978-80-246-2245-3.
[2] KOMÁREK, Arnošt. Základy práce s R [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~komarek/vyuka/dataRko/Rmanual1.pdf
[3] KOMÁREK, Arnošt. Hrátky s R [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~kulich/vyuka/Rdoc/arnost_introR.pdf
[4] BÍNA, Vladislav, Arnošt KOMÁREK a Lenka KOMÁRKOVÁ. Jak na jazyk R: instalace a základní příkazy [online]. [cit. 2017-04-13]. Dostupné z: http://www.karlin.mff.cuni.cz/~kulich/vyuka/Rdoc/arnost_introR.pdf
[5] KONEČNÁ, Kateřina a Jan KOLÁČEK. Jak pracovat s jakyzem R [online]. [cit. 2017-04-13]. Dostupné z: http://www.math.muni.cz/~xkonecn3/vyuka/MUNI/VMS/navod_R.pdf
[6] The R Project for Statistical Computing [online]. [cit. 2017-04-13]. Dostupné z: https://www.r-project.org/
[7] Quick-R: accessing the power of R [online]. [cit. 2017-04-13]. Dostupné z: http://www.statmethods.net/
[8] R-bloggers: R news and tutorials contributed by R bloggers [online]. [cit. 2017-04-13]. Dostupné z: https://www.r-bloggers.com/
[9] GROLEMUND, Garrett a Hadley WICKHAM. R for Data Science [online]. [cit. 2017-04-13]. Dostupné z: http://r4ds.had.co.nz/
- Poznámka:
- Další informace:
- Pro tento předmět se rozvrh nepřipravuje
- Předmět je součástí následujících studijních plánů: