Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Text mining

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
XP33TTM ZK 4 2+0s česky
Přednášející:
Petr Kroha (gar.)
Cvičící:
Petr Kroha (gar.)
Předmět zajišťuje:
katedra kybernetiky
Anotace:

S nástupem elektronických dokumentů nastala situace, kdy jejich počet roste mnohem vyšším tempem, než možnosti, schopnosti a ochota lidí je číst. Metody oboru Information Retrieval sice poskytují přehled o tom, ve kterých dokumentech se hledaná informace zřejmě nachází, ale to jenom znamená, že umožňují vybírat dokumenty podle klíčových slov, kterými indexování dokumentů charakterizuje jejich obsah. Tím jen vytvářejí síto, kterým protéká stále větší a větší počet dokumentů. Metody oboru Text mining mají za cíl nejen dokumenty vybírat podle klíčových slov, ale také určovat, co vypovídají. To je úloha velmi složitá, neboť souvisí se sémantikou přirozeného jazyka, kterou často i školení lidé interpretují nejednoznačně. Text mining zkoumá zejména následující možnosti práce s textem: Information extraction - identifikace klíčových komponent textu a vztahů mezi nimi. Topic tracking - inteligentní filtrování textů na základě profilu uživatele. Summarization - shrnutí obsahu textu. Sentence extraction - identifikace vět, které jsou pro obsah dokumentu klíčové. Kategorizace, klasifikace, clustering - rozdělování textů do tříd podle příbuznosti obsahu. Concept linkage - hledání vztahů mezi texty, které mají společné koncepty. Používají se statistické metody, metody information retrieval, metody počítačové linguistiky a klasifikační metody umělé inteligence.

Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/XP33TTM

Požadavky:
Osnova přednášek:

1. Text mining, Data Mining, Knowledge Discovery

2. Text Processing - základní pojmy

3. Information Retrieval

3.1. Textové dokumenty a klíčová slova

3.2. Relevance a fuzzy logika

3.3. Indexování

3.4. Vektorový model

4. Clustering

4.1. Clustering klíčových slov

4.2. Clustering dokumentů

5. Klasifikace textů

5.1. Probabilistická klasifikace - Naive Bayes

5.2. Klasifikace pomocí metody k-NN

5.3. Klasifikace pomocí rozhodovacích stromů

5.4. Klasifikace pomocí neuronových sítí

5.5. Klasifikace pomocí metody support vector machine

6. Metody linguistiky v text mining

6.1. Lexikon

6.2. Part-of-speech tagging

6.3. Named entity recognition

6.4. Parsing

6.5. Koreferente

7. Aplikace

7.1. Automatická extrakce obsahu dokumentu

7.2. Automatické shrnutí obsahu dokumentu

7.3. Automatické odpovědi na dotazy

Osnova cvičení:
Cíle studia:
Studijní materiály:

Weiss, S.N. et all. Text mining. Springer, 2005

Poznámka:
Rozvrh na zimní semestr 2018/2019:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
Út
St
Čt

místnost KN:E-220
Kroha P.
08:15–10:00
(přednášková par. 1)
Karlovo nám.
Laboratoř PC
Rozvrh na letní semestr 2018/2019:
Rozvrh není připraven
Předmět je součástí následujících studijních plánů:
Platnost dat k 26. 6. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet1945606.html