Logo ČVUT
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
STUDIJNÍ PLÁNY
2018/2019

Internet a klasifikační metody

Přihlášení do KOSu pro zápis předmětu Zobrazit rozvrh
Kód Zakončení Kredity Rozsah Jazyk výuky
MI-IKM Z,ZK 4 1P+1C česky
Přednášející:
Martin Holeňa (gar.)
Cvičící:
Martin Holeňa (gar.), Tomáš Šabata
Předmět zajišťuje:
katedra aplikované matematiky
Anotace:

V rámci předmětu se student seznámí s klasifikačními metodami používanými ve třech důležitých internetových nebo obecně síťových aplikacích: při filtraci spamu, v doporučovacích systémech a v systémech pro odhalení hrozeb v síti. Dozví se však více než jenom to, jak se při řešení těchto tří problémů klasifikace provádí. Na pozadí uvedených aplikací získá celkový přehled o základech klasifikačních metod. Předmět je vyučován v dvoutýdenním cyklu v rozsahu 2 hodiny přednášek a 2 hodiny cvičení. Na cvičeních studenti jednak implementují jednoduché příklady k tématům z přednášky.

Požadavky:
Osnova přednášek:

Téma 1. Tři důležité internetové aplikace klasifikačních metod. 1. Filtrace spamu. Klasifikační úlohy vyskytující se při filtraci spamu. Klasifikace spamu na základě obsahu zpráv a na základě metainformací o zprávách. Začlenění klasifikace do celkového procesu filtrace spamu. Příklady existujících spamových filtrů. 2. Doporučovací systémy (recommender systems). Klasifikační úlohy vyskytující se v doporučovacích systémech. Klasifikace při obsahovém filtrování a při kolaborativním filtrování. Příklady existujících doporučovacích systémů založených na obsahovém filtrování a systémů založených na kolaborativním filtrování. 3. Systémy pro odhalení hrozeb v síti (intrusion detection systems). Klasifikační úlohy vyskytující se v systémech pro odhalení hrozeb. Klasifikace anomálního chování sítě jako důležitá komponenta systému pro odhalení hrozeb. Klasifikace přítomnosti a nepřítomnosti anomálního chování. Klasifikace do jednotlivých druhů anomálního chování. Příklady existujících systémů pro odhalení hrozeb v síti. O čem budou zbývající přednášky?

Téma 2. Základní koncepty týkající se klasifikace. Klasifikace a klasifikátory. Binární klasifikace a klasifikace do více tříd. Použití klasifikace do 3 tříd ve spamových filtrech. Koncepty specifické pro binární klasifikaci: pozitivní a negativní třída, falešná pozitivita a falešná negativita. Charakterizace kvality klasifikace pomocí její chybovosti. Zahrnutí různé ceny chyb pro různé třídy. Různá cena falešné pozitivity a falešné negativity při filtraci spamu. Specifické charakteristiky kvality binární klasifikace: správnost, přesnost, citlivost, specificita, F-míra, ROC křivka a plocha pod ní. Charakterizace kvality klasifikace při filtraci spamu. Tvar hranice mezi třídami. Lineární separabilita tříd. Obecná metoda přechodu od lineárně neseparabilních tříd ke třídám lineárně separabilním. Konstrukce klasifikátorů z existujících dat Učení klasifikátorů. Učení spamových filtrů. Přeučení klasifikátoru. Souvislost klasifikace a regrese, klasifikátorů a regresních funkcí. Role regrese v doporučovacích systémech. Odlišnost klasifikace a shlukování. Použití shlukování v doporučovacích systémech.

Téma 3. Hlavní typy klasifikačních metod. Rozdělení klasifikačních metod podle toho, zda hledají hranice mezi třídami. Hlavní přístupy používané v metodách nehledajících hranice: podobnost a odhadování pravděpodobnosti příslušnosti k jednotlivým třídám. Klasifikátory založené na podobnosti nejbližším sousedům se známou příslušností do tříd - k-NN klasifikátory. Použití k-NN klasifikátorů při kolaborativním filtrování. Použití k-NN klasifikátorů při odhalování malware. Volba počtu nejbližších sousedů v k NN klasifikátorech. Míry podobnosti užívané v k-NN klasifikátorech. Měření podobnosti při kolaborativním filtrování. Klasifikátory založené na bodových odhadech pravděpodobnosti příslušnosti k třídám - bayesovské klasifikátory. Bodové odhady pravděpodobnosti příslušnosti k třídám logitovou metodou. Použití bayesovských klasifikátorů ve spamových filtrech. Učení bayesovských spamových filtrů. Narušitelnost učení bayesovských filtrů spamery (bayesian poisoning). Klasifikace založená na odhadech pravděpodobnosti příslušnosti k třídám prokládáním vícerozměrného normálního rozdělení - Fisherova diskriminační analýza. Lineární a kvadratická diskriminační analýza. Diskriminační analýza při klasifikaci obrázků a videí. Klasifikátory hledající hranice mezi třídami pomocí umělých neuronových sítí. Hledání lineární hranice pomocí perceptronů a nelineární hranice pomocí vícevrstvých perceptronů. Použití umělých neuronových sítí pro filtraci spamu. Použití umělých neuronových sítí v doporučovacích systémech. Použití umělých neuronových sítí při odhalování různých druhů hrozeb v síti.

Téma 4. Kdy dělá klasifikátor nejméně chyb na nových datech? Správnost klasifikátoru na nových datech - generalizační schopnost klasifikátoru. Předpoklad o zvýšení generalizační schopnosti binárního klasifikátoru při klasifikaci lineárně separabilních tříd se zvětšením šířky pásu mezi třídami. Hledání opěrných nadrovin obou tříd svírajících nejširší pás. Klasifikátory pro lineárně separabilní třídy konstruované pomocí vektorů opěrných nadrovin svírajících nejširší pás - SVM klasifikátory (support vector machines). Použití SVM klasifikátorů pro lineárně neseparabilní třídy. Jádrové funkce. Přechod od lineárně neseparabilních tříd ke třídám lineárně separabilním pomocí jádrových funkcí. Konstrukce SVM klasifikátorů pro lineárně neseparabilní třídy kombinací jádrových funkcí a SVM klasifikátorů pro lineárně separabilní třídy. Aktivní učení a jeho využití v SVM klasifikátorech. Použití SVM klasifikátorů pro filtraci spamu. Použití SVM klasifikátorů v doporučovacích systémech. Použití SVM klasifikátorů při odhalování malware. Další použití SVM klasifikátorů v systémech pro odhalení hrozeb v síti. Používání SVM klasifikátorů při klasifikaci do více tříd. Klasifikace do více tříd pomocí SVM klasifikátorů v doporučovacích systémech.

Téma 5. Kdy je klasifikace srozumitelná uživateli? Snaha o srozumitelné vyjádření klasifikace pomocí jazyka formální logiky. Výsledky klasifikace vyjádřené jako implikace nebo ekvivalence nějaké formální logiky - klasifikační pravidla. Klasifikační pravidla v booleovské logice. Klasifikační pravidla ve fuzzy logice. Konstrukce klasifikačních pravidel pomocí odhadů pravděpodobností. Konstrukce klasifikačních pravidel pomocí testování hypotéz. Učení klasifikačních pravidel pomocí genetických a dalších evolučních algoritmů. Použití klasifikačních pravidel pro filtraci spamu na základě metainformací. Použití klasifikačních pravidel při odhalování malware. Klasifikační stromy a získávání klasifikačních pravidel z nich. Učení klasifikačních stromů. Prořezávání klasifikačních stromů. Klasifikační stromy pro filtraci spamu na základě obsahu zpráv. Pravidla pro filtraci spamu na základě metainformací získávaná z klasifikačních stromů. Použití klasifikačních stromů v doporučovacích systémech. Odhalování různých druhů hrozeb v síti pomocí klasifikačních stromů.

Téma 6. Tým zvládne více než jedinec. Spojování více klasifikátorů do týmu. Týmy různých klasifikátorů a soubory (ensembles) stejných klasifikátorů učených s různými daty. Použití týmu různých klasifikátorů při klasifikaci multimediálních dat. Hlavní metody vytváření souborů klasifikátorů: bagging, boosting, stacking. Zahrnutí různé důvěry různým klasifikátorům v týmu. Použití týmů klasifikátorů v doporučovacích systémech. Použití týmů klasifikátorů při odhalování malware. Další použití týmů klasifikátorů v systémech pro odhalení hrozeb v síti. Hierarchické uspořádání týmů do týmů vyšší úrovně. Hierarchické uspořádání týmu klasifikátorů v systémech pro odhalení hrozeb v síti. Týmy klasifikačních pravidel. Učení týmů klasifikačních pravidel pomocí evolučních algoritmů: michiganský přístup, pittsburgský přístup. Týmy klasifikačních stromů - klasifikační náhodné lesy. Použití náhodných lesů pro filtraci spamu.

Osnova cvičení:

1. Seznámení s vývojovým prostředím Matlab pro ty, kdo ho dosud nepoužívali.

2. Představení možných semestrálních prací, které budou studenti na zápočet doma vypracovávat + jednoduché příklady k tématu 2.

3.-7. Jednoduché příklady k tématům 2.-6. + konzultace k semestrálním pracím.

Cíle studia:
Studijní materiály:
Poznámka:
Rozvrh na zimní semestr 2018/2019:
Rozvrh není připraven
Rozvrh na letní semestr 2018/2019:
06:00–08:0008:00–10:0010:00–12:0012:00–14:0014:00–16:0016:00–18:0018:00–20:0020:00–22:0022:00–24:00
Po
místnost TH:A-1247
Holeňa M.
16:15–17:45
LICHÝ TÝDEN

(přednášková par. 1)
Thákurova 7 (FSv-budova A)
seminární místnost
místnost T9:348
Šabata T.
16:15–17:45
SUDÝ TÝDEN

(přednášková par. 1
paralelka 101)

Dejvice
NBFIT PC ucebna
Út
St
Čt

Předmět je součástí následujících studijních plánů:
Platnost dat k 23. 8. 2019
Aktualizace výše uvedených informací naleznete na adrese http://bilakniha.cvut.cz/cs/predmet2961206.html