Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024

Text Mining

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah
PI-TMN ZK 4 3C
Garant předmětu:
Petr Kroha
Přednášející:
Petr Kroha
Cvičící:
Petr Kroha
Předmět zajišťuje:
katedra softwarového inženýrství
Anotace:

S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je číst. Metody oboru Information Retrieval sice poskytují přehled o tom, ve kterých dokumentech se hledaná informace zřejmě nachází, ale to jenom znamená, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah. Tím jen vytvářejí síto, kterým protéká stále větší a větší počet dokumentů.

Metody oboru Text Mining mají za cíl nejen dokumenty vybírat podle klíčových slov, ale také určovat, co vypovídají. To je úloha velmi složitá, neboť souvisí se sémantikou přirozeného jazyka, kterou často i školení lidé interpretují nejednoznačně.

Text Mining zkoumá zejména následující možnosti práce s textem:

-Informatin extraction - identifikace klíčových komponent textu a vztahů mezi nimi.

-Topic tracking - inteligentní filtrování textů na základě profilu uživatele.

-Summarization - shrnutí obsahu textu.

-Sentence extraction - identifikace vět, které jsou pro obsah dokumentu klíčové.

-Kategorizace, klasifikace, clustering - rozdělování textů do tříd podle příbuznosti obsahu

-Concept linkage - hledání vztahů mezi texty, které mají společné koncepty.

Používají se statistické metody, metody information retrieval, metody počítačové linguistiky i klasifikační metody umělé intelligence.

Cílová skupina studentů:

Přednáška je primárně určena pro doktorandy.

Požadavky:

Předmět PI-TMN navazuje na PI-IRT, takže absolvování PI-IRT je podmínkou pro PI-TMN.

Osnova přednášek:

1.Text Mining, Data Mining, Knowledge Discovery

2.Text Processing - základní pojmy

3.Information Retrieval - základní pojmy

4.Latentní semantické indexování, chi-square testování

5.Clustering

6.Klasifikace textů

7.Metody linguistiky v text mining

8.Aplikace

Osnova cvičení:
Cíle studia:

Cílová skupina studentů:

Přednáška je primárně určena pro doktorandy.

Studijní materiály:

Základem jsou materiály přednášejícího, které studenti obdrží.

Z dostupné literatury je přednášce nejblíže kniha:

Weiss, S.M. et all: Text Mining - Predictive Methods for Analyzing Unstructured Information. Springer, 2005.

Poznámka:

Informace o předmětu a výukové materiály naleznete na https://courses.fit.cvut.cz/PI-TMN/

Další informace:
https://courses.fit.cvut.cz/PI-TMN/
Rozvrh na zimní semestr 2023/2024:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
místnost TH:A-949
Kroha P.
09:15–10:45
(přednášková par. 1)
Thákurova 7 (budova FSv)
KSI konzultacni mistnost
Čt

Rozvrh na letní semestr 2023/2024:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 16. 7. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet2390806.html