Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024
UPOZORNĚNÍ: Jsou dostupné studijní plány pro následující akademický rok.

Big Data Technologies

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
BE0M33BDT Z,ZK 4 2P+1C anglicky

Předmět BE0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět B0M33BDT (vztah je symetrický)

Předmět BE0M33BDT může při kontrole studijních plánů nahradit předmět B0M33BDT

Předmět BE0M33BDT nesmí být zapsán, je-li v témže semestru zapsán anebo již dříve absolvován předmět B0M33BDT (vztah je symetrický)

Garant předmětu:
Jan Hučín
Přednášející:
Jan Hučín, Petr Paščenko, Marek Sušický
Cvičící:
Alisa Benešová, Jan Hučín, Michal Janeček, Petr Paščenko, Sergii Stamenov, Marek Sušický
Předmět zajišťuje:
katedra počítačů
Anotace:

The objective of this elective course is to familiarize students with new trends and technologies for storing, management and processing of Big Data. The course will focus on methods for extraction, analysis as well as a selection of hardware infrastructure for managing persistent and streamed data, such as data from social networks. As part of the course we will present how to apply the traditional methods of artificial intelligence and machine learning to Big Data analysis.

Požadavky:

Seminars will be run the standard way. We assume that students will bring their own computers for editing scripts. Calculations will be executed in the computer cluster with remote access. For practical exercises, students will use pre-loaded text database. The seminars will focus on practical application of technology to specific examples. During the semester are scheduled two short tests of subject matter.

Osnova přednášek:

1. Introduction, Big Data processing motivation, requirements

2. Hadoop overview - all components and how they work together

i) Hadoop Common: The common utilities that support the other Hadoop modules.

ii) Hadoop Distributed File System (HDFS?): A distributed file system that provides high-throughput access to application data.

iii) Hadoop YARN: A framework for job scheduling and cluster resource management.

iv) Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

3. Introduction to MapReduce, how to use pre-installed data. Basic skeleton for running words histogram in Java

4. HDFS, NoSQL databases, HBase, Cassandra, SQL access, Hive,

5. What is Mahout, what are the basic algorithms

6. Streamed data - real time processing

7. Twitter data processing, simple sentiment algorithm

Osnova cvičení:

1. Cloud computing cluster OpenStack basic commands, virtualization.

2. Install hadoop, hw requirements, sw requirements, how to administer (create access), introduce to the basic setup on our cluster, how to monitor. Run the words histogram, single thread.

3. The bag of words notion, TF-IDF, run SVD, LDA.

4. Manipulation with data, how to upscale-downscale HDFS, How to run and monitor computation progres, how to organize the computation.

5. Run random forest classification task using the Mahout algorithms, show how much faster is the map reduce implementation compared to single thread on one box.

6. Prezentace semestrálních prací a zápočet

Cíle studia:

The goal of the course is to show on practical examples to the basic methods for processing Big Data. Examples will focus on the statistical data processing.

Studijní materiály:

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Poznámka:
Další informace:
https://cw.fel.cvut.cz/wiki/courses/BE0M33BDT
Rozvrh na zimní semestr 2023/2024:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
místnost KN:E-307

09:15–10:45
SUDÝ TÝDEN

(přednášková par. 1
paralelka 999)

Karlovo nám.
HW-lab K307
místnost KN:E-310

11:00–12:30
LICHÝ TÝDEN

(přednášková par. 1
paralelka 101)

Karlovo nám.
Lab K310 Linux
místnost KN:E-310

12:45–14:15
LICHÝ TÝDEN

(přednášková par. 1
paralelka 102)

Karlovo nám.
Lab K310 Linux
místnost KN:E-126
Paščenko P.
Sušický M.

09:15–10:45
(přednášková par. 1)
Karlovo nám.
Trnkova posluchárna K5
Čt

Rozvrh na letní semestr 2023/2024:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 27. 3. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet4845206.html