Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024
UPOZORNĚNÍ: Jsou dostupné studijní plány pro následující akademický rok.

Zpracování řeči

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
B2M31ZRE Z,ZK 6 2P+2C česky

Podmínkou zápisu na předmět B2M31ZRE je, že student si nejpozději ve stejném semestru zapsal příslušný počet předmětů ze skupiny BEZBM

Garant předmětu:
Petr Pollák
Přednášející:
Petr Pollák
Cvičící:
Petr Pollák
Předmět zajišťuje:
katedra teorie obvodů
Anotace:

Předmět je zaměřen na problematiku zpracování řečových signálů. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví, kde nejvýznamnější aplikace jsou informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, automatický hlasový výstup. V rámci předmětu studenti se studenti seznámí se základními algoritmy analýzy řeči (spektrální analýza, LPC, kepstrální reprezentace, základní tón, formanty, apod.), principy rozpoznávání řeči (GMM-HMM, ANN-HMM systémy, rozpoznávače s malým i velkým slovníkem), s rozpoznáváním řečníka (na bázi GMM či VQ), se syntézou řeči či zvýrazňováním řeči snímané v hlučném prostředí. Další informace lze nalézt na <a href=http://noel.feld.cvut.cz/vyu/a2m31zre>http://noel.feld.cvut.cz/vyu/a2m31zre</a>. Pro zapsané studenty jsou detailní informace na výukovém portálu <a href=https://moodle.fel.cvut.cz/course/view.php?id=158>Moodle FEL</a>.

Požadavky:

Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Osnova přednášek:

1. Úvod - model vzniku a vnímání řeči, základní charakteristiky (fonetické a artikulační aspekty)

2. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum).

3. Kepstrální reprezentace řeči. Příznaky pro rozpoznávání. Detekce řečové aktivity.

4. Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy.

5. Základní rozpoznávací úlohy a používané techniky (GMM, HMM, VQ, ANN, DNN)

6. Verifikace a identifikace mluvčího. Rozpoznávání jazyka.

7. Rozpoznávání řeči s malým a velkým slovníkem (DTW, GMM-HMM, LVCSR, nástroje HTK a KALDI).

8. Moderní systémy LVCSR (DNN-HMM). Adaptační techniky v rozpoznávání řeči. Speciální parametrizace.

9. Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA).

10. Audio-visuální rozpoznávání řeči.

11. Kódování řeči

12. Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči.

13. Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků).

14. Databáze pro hlasové technologie. Rezerva.

Osnova cvičení:

1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů

2. Základní časové a spektrální charakteristiky řeči

3. Odhad základního tónu řeči

4. LPC spektrum a odhad formantů

5. Kepstrum a kepstrální vzdálenost: detekci řečových úseků

6. Základní klasifikační metody (GMM, VQ, HMM): klasifikace samohlásek

7. Verifikace mluvčího na bázi VQ

8. Identifikace mluvčího na bázi GMM

9. Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov

10. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem

11. Potlačování aditivního šumu v řečovém signálu

12. Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace

13. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů

14. Rezerva. Zápočty

Cíle studia:

Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro analýzu řečového signálu.  

Studijní materiály:

[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.

[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.

[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.

Poznámka:
Další informace:
https://moodle.fel.cvut.cz/courses/B2M31ZRE
Rozvrh na zimní semestr 2023/2024:
Rozvrh není připraven
Rozvrh na letní semestr 2023/2024:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
místnost T2:C3-132
Pollák P.
12:45–14:15
(přednášková par. 1)
Dejvice
T2:C3-132
místnost T2:B3-802
Pollák P.
14:30–16:00
(přednášková par. 1
paralelka 1)

Dejvice
Laborator K802
Út
St
Čt

Předmět je součástí následujících studijních plánů:
Platnost dat k 18. 4. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet4636006.html