Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2023/2024
UPOZORNĚNÍ: Jsou dostupné studijní plány pro následující akademický rok.

Řečové aplikace v telekomunikacích

Předmět není vypsán Nerozvrhuje se
Kód Zakončení Kredity Rozsah Jazyk výuky
A2M31RAT Z,ZK 6 2P+2C česky
Garant předmětu:
Přednášející:
Cvičící:
Předmět zajišťuje:
katedra teorie obvodů
Anotace:

Předmět je zaměřen na seznámení studentů magisterského studia s problematikou zpracování řečových signálů s užším zaměřením na komunikační aplikace. Tato problematika má široký aplikační záběr v komunikačních systémech. Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/a2m31rat . Pro zapsané studenty jsou detailní informace na výukovém portálu http://moodle.kme.feld.cvut.cz .

Výsledek studentské ankety předmětu je zde: http://www.fel.cvut.cz/anketa/aktualni/courses/A2M31RAT

Požadavky:

Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Osnova přednášek:

1. Úvod - řečový signál, základní charakteristiky, model vzniku řeči

2. Digitalizace a základní kódovací strategie (PCM, ADPCM, a-law)

3. Spektrální charakteristiky řečového signálu (DFT a LPC spektrum, LSF a LSP, kepstrum)

4. Vokodéry používané v telekomunikacích (RPE-LTP, CELP, ACELP)

5. Metody potlačování šumu v řečovém signálu (šum kanálu a šum akustický, VAD)

6. Metody potlačování echa v řečovém signálu

7. Měření kvality řečového signálu (subjektivní a objektivní metody)

8. Principy rozpoznávání řeči, základní úlohy, extrakce příznaků, algoritmus DTW

9. Jednoduché rozpoznávače s malým slovníkem na bázi HMM (nástroje HTK)

10. Rozpoznávání mluvčího: verifikace a identifikace.

11. Syntéza řeči, principy základních přístupů (konkatenační a formantová syntéza, PSOLA)

12. Dialogové komunikační systémy s hlasovým vstupem

13. Náhrada ztracených segmentů řeči při přenosu komunikačním kanálem

14. Další aplikace rozpoznávání řeči v komunikačních systémech. Rezerva

Osnova cvičení:

1. Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů

2. Základní časové charakteristiky: energie, intenzita, průchody nulou, základní tón

3. Spektrální charakteristiky: krátkodobé DFT a LPC spektrum, spektrogram

4. LPC vokodér: jednotlivých principiálních bloků

5. Potlačování aditivního šumu v řečovém signálu

6. Potlačování echa v řečovém signálu

7. Kepstrum a kepstrální vzdálenost: detekce řečových úseků, příznaky pro rozpoznávání

8. Rozpoznávání na bázi DTW: jednoduchý rozpoznávač jednotlivých slov

9. Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem

10. Verifikace mluvčího na bázi GMM

11. Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů

12. Prezentace semestrálních prací

13. Prezentace semestrálních prací

14. Rezerva. Zápočty

Cíle studia:

Cílem studia je podat studentům úvodní přehled o řečových technologiích v nejvýznamnějších komunikačních aplikacích. Studenti by měli ovládnout problematiku zahrnující základní popis a charakteristiky řečového signálu, problematiku kódování řeči, zvýrazňování řeči, rozpoznávání řeči a řečové syntézy. Základní úlohy jsou procvičovány v programovém systému MATLAB a v dalších veřejně dostupných nástrojích pro analýzu řečového signálu. V rámci domácí přípravy studenti zpracovávají semestrální práci jejíž výsledky jsou prezentovány na cvičení podle daného harmonogramu.

Studijní materiály:

[1] Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.

[2] Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.

[3] Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.

Poznámka:

Rozsah výuky v kombinované formě studia: 14p+6c

Další informace:
https://moodle.fel.cvut.cz/course/view.php?id=540
Pro tento předmět se rozvrh nepřipravuje
Předmět je součástí následujících studijních plánů:
Platnost dat k 27. 3. 2024
Aktualizace výše uvedených informací naleznete na adrese https://bilakniha.cvut.cz/cs/predmet12525904.html