Posudek na diplomovou práci studenta Michala Odstrčila orlearning

Transkript

Posudek na diplomovou práci studenta Michala Odstrčila orlearning
Posudek na diplomovou práci studenta Michala Odstrčila
orlearning Machines in Applications to Massive Tokamak Data Analyses
,,
Jan Mlynář, vedoucí diplomové práce
Téma diplomové práce a její zadání jsme pro Bc. Michala Odstrčila určili záměrně
relativně náročnéa osobně jsem byl rád, že student tuto výzvu přijal. Tématika strojového
učenía hromadné analýzy velkých datových souboru je ve fuzi poměmě nová a pro naše
pracoviště je nová úplně. Student M. Odstrčil - spolu s doktorandem ing. J. Sovou zFEL,
který ovšem pracuje na poněkud odlišnémtématu - se tak v rámci diplomové práce vydal na
pruzkum nové oblasti, kterou považujeme z hlediska tokamaku COMPASS za potenciálně
zajimavou. V rámci řešení diplomové práce se nám podařilo, zčásti díky podpoře EURATOM
a zčásti díky individuální cestovní podpoře od konsorcia FUSENET, aby student M. Odstrčil
strávil několik měsícůna společnémevropském pracovišti fuzního výzkumu JET, kde se
problematice hromadné analýzy dat úspěšněvěnoval spolu s těmi, kteří s ní již mají
zkušenosti. Ostatně, právě proto je práce psaná anglicky a věnuje se převážně alalýze dat
z tokamaku JET. Jde skutečně o práci, která se pohybuje na přední hranici současného
fúzníhovýzkumu a která přináší cenné a věrohodné informace o nové metodice, a také o
možnostech a nevýhodách aplikování metod hromadné analýzy dat ve fázním výzkumu.
Samotná diplomová práce je rozdělena na šest kapitol. První čtyři kapitoly se podle
zadéni věnují především rešerši,ale již v rámci rešeršeobsahují řadu vlastních ýsledků
v souvislosti s testováním diskutovaných numerických metod. První kapitola představuje
krátký přehled těch úkolůfi-rzního výzkumu, pro které by mohly být metody hromadného
zpracováni dat užitečné,a to včetně ťyzlkálni motivace. Druhá kapitola poskytuje
systematický a ucelený přehled algoritmů pollživaných pro strojové učení,se zvláštním
důrazem na identifikaci toho, čímse mezi sebou liší.Ve třetí kapitole je pak podan
systematický přehled samotných učícíchse systémů,které jsou často k dispozici už
v numerických knihovnách dnešníchmoderních vyššíchvýpočetníchjazyků. Na konci této
třetí kapitoly je provedeno i numerické testování, srovnávající vlastnosti těchto systémů
(učícíchse strojů). Ve čtvrtékapitole je podrobně vysvětlena metodika volby příslušného
modelu pro učení,a to jak na zétkladě bayesovských, tak nebayesovských metod. V prvních
čtyřech částech je tak bezvýhradně splněn první úkol zaďání diplomové práce, totiž,,provést
rešeršivhodných metod hromadné analýzy ďat".
Pátá a šestá kapitola se věnují vlastnímu tvůrčímupoužitíučícíchse metod
k hromadnému zpracování dat a k pravděpodobnostnímu určenívývoje experimentu. Pátá
kapitola představuje zajímavý, ilustrativní a poměrně dobře pochopitelný příklad aplikace
učícíchse metod při hromadném zpracovnání dat pomoci zpracování databáze studentského
tokamaku GOLEM z hlediska předpovědi prirazu plazmatu. Výsledná tabulka 5.1. opravdu
stojí za pozomost. Pátou část považuji za doklad velmi elegantního splnění druhého úkolu
diplomové práce, jmenovitě ,,demonstrovat použitípříslušnýchnumerických metod na
skutečných datech z experimentů".
Přesně podle zadání je pak těžištěm celé diplomové práce kapitola šestá, která
rozsahem představuje zhruba 40Yo ce|kového počtu stran. Zďeje podrobně řešen hlavní úkol,
a sice studium ,, predikce a klasifikace disrupcí pomocí uěících se algoritmů aplikovaných na
novou ďatabázi disrupcí na tokamaku JET". Tato kapitola se tedy zabývá disrupcemi (náhlými
zániky plazmatu) na tokamaku JET a především zásadní otázkott, zda apllkace učícíchse
strojů na hromadné zpracování ďat můžeochránit JET a budoucí reaktory před disrupcemi.
Taková ochrana by měla přinejmenším poskytnout nástroj včasnélrovarování, díky kterému
by mohly by.t spuštěny mechanismy ke sníženízávažných mechanických a tepelných
důsledkůdisrupcí. Tato část je také vedena systematicky, cílevědomé, nabízířadu původních
myšlenek a mnoho ilustrací. Domnívám se, že v této části se diplomová práce, svojí
metodikou i obsahovou bohatostí, blížístandardu doktorské dizertace. Dosažené výsledky
jsou pak srozumitelně a jasně shmuty v závěru práce. }rÍožnánejsou tak jednoznačně pozitivní
a optimistické, jak bychom mohli čekat na základéŤady již vydaných článkůna tuto tématiku,
ale i v tom je třeba vidět důležitýpříspěvek této práce ke směřování našeho dalšího výzkumu.
K odevzdané diplomové práci lze mít i několik qfhrad, přinejmenším formálních. Asi
největším zádrhelem práce je angličtina, ve které je celá řada poměmé zbytečných, základních
chyb, které jsou místy velmi rušivé.Zde si musím trochu povzdechnout, že méně je někdy
více: Některé části diplomové práce byly původně napsány z hlediska angličtiny mnohem
pečlivěji, ale pak došlo na poslední chvíli kjejich změně. Zadruhé, některé odbomé pojmy
(ako UFO, pelet) nejsou v práci vysvětleny vůbec, jiné jsou nejprve použity a pak vysvětleny
(např. CV output). Byl bych uvítal i širšídiskusi ohledně toho, zdajsou ve fúznímvýzkumu
splněny předpoklady k použitíjednotlivých metod strojového učení.Pokud vím, v tomto
ohledu nejsou odborníci zajedno. Konečně považuji za véůnýnedostatek, že v práci chybí
poděkování konzultantovi zJET, kterým byl Dr. Andrea Murari. Bez mimořádného zájmu
tohoto vedoucího vědeckého pracovníka JET o podporu studentů a o hledání nových
myšlenek by předložená diplomová práce v této podobě vůbec nemohla vzniknout.
Přesto se domnívám, že si za odvedenou práci student Michal Odstrčil zaslouží
nejlepší hodnocení a pochvalu.Yážím si toho, že Michal na rozvoji svého talentu neustále
tvrdě pracuje. Nebojí se riskovat avybírat si tynáročnějšíúlohy,vždyodvede hodně práce,
přesto si udržuje i široký zájem o dalšímožnéprojekty a v okamžiku, kdy je to nutné, je
ochotný ke kompromisům. Ostatně, dokázal to i tím, že se mu právě v době vrcholícípřípravy
diplomové práce podařilo dotáhnout do konce i svoji první publikaci pro impaktovaný časopis
Nuclear Instruments and Methods A, která byla v květnu přijata do tisku:
DOI:10.10I6lj.nima.20I2.05.063. Jde o článek, který má kořeny v bakalářské práci, čili
v poněkud odlišnéproblematice tomografie plazmatu. Pokud je mi známo, Michal připravuje
s Dr Andrea Murari i článek vycházející z výsledků předloženédiplomové práce. S takovým
profilem se můžepochlubit jen minimum studentů magisterského stupně. Rád bych Michalovi
popřál ty nejlepšíodborné podmínky do dalšíhostudia.
Vzhledem k tomu, že byly všechny úkoly zaďání diplomové práce beze zbytku
splněny a vzhledem k vysoké odborné úrovni předloženépráce doporučuji předloženou
diplomovou práci k obhajobě a k ohodnocení stupněm A -výborně.
V Culhamu
dne 29, května 2012
Posudek oponenta diplomové práce
Název práce: Learnig Machines in applications to massive tokamak data analysis
Autor diplomové práce: Bc. Michal Odstrčil
Posudek vypracoval: Ing. Vojtěch Franc, Ph,D.
Diplomová práce se zabývá použitímmetod strojového učenípro predikci disrupcí, ke
kterým docházi při provozu fízníchzaíízení.(Jvod práce obsahuje poměrně rozsáhlou rešeršivybraných metod strojového učení.Popis metod je dostatečně srozumitelný. Pěkné je
zhodnocení slabých a silných stránek popisovaných algoritmů. Text ukazuje, že diplomant je
dostatečně kompetentním uživatelem nástrojů strojového učení,se kterými experimentoval
ve své práci. Těžištěm práce je experimetální vyhodnocení použitelnosti SVM, RVM a vybraných metod pro selekci příznaků v detekci disrupcí na reálných datech z tokomaků JET
a GOLEM. Rozsah experimentů je značný. Návrh experimentů a použitý testovací protokol
je rozumný. Výborná je interpretace a hodnocení věrohodnosti dosaženÝch výsledků.
Práce je psána anglicky. Přes poměrně velké množstvípřeklepů a gramatických chyb je
většina textu dostatečně srozumitelná.
Předložené práci bych vytkl následující nedostatky:
o (Jvodní část práce (kapitoly 2 až 4) věnovaná rešerši metod strojového učenípředchází
definici problému, pro který se metody vybírají. Podrobnější úvod do problému detekce disrupcí spolu s popisem kritéria hodnotícíhokvalitu detektoru je popsán až v
předposlední kapitole.
o V práci jsem nenalezl přesnou definici statistického rozhodovacího problému, který by
odpovídal řešenéaplikaci.
o Není zcela vysvětleno podle jakého klíčebyly testované metody strojového učenívybrány, tj. proč jsou právě tyto metody vhodné pro predikci disrupcí na tokamaku.
.
Hlavním důvodem se zdá být dostupnost efektivní implementace těchto metod a jejich
současná popularita v komunitě strojového učení.
Úlohy, pro které jsou uvedené metody navrženy (tj. minimalizace klasifikačníchyby a
odhad kvantilu rozdělení) se zcela jistě lišíod problému detekce disrupcí. Např. kriterium definované v práci (tzv. "total erlor") je funkcí sekvence rozhodnutí, zatimco
ztrátové fukce SVM a RVM minimalizují ztrátu pro každérozhodnutí nezávisle. Na
druhou stranu je z ptáce zŤejmé,že autor si je tohoto problému vědom.
o Kapitola 5 popisující experimenty na datech z tokamaku GOLEM patří mezi slabší
místa této diplomové práce. (Jvodní část věnovaná popisu a motivaci pro proved,ení
experimentu není zcela jasná. Problém je jak angličtina, tak nedostatečný popis testovacího protokolu a použitých statistik pro měření přesnosti detektoru, které nekorespondují s jejich standardní definicí.
Přes uvedené kritické poznámky se jedná o přínosnou diplomovou práci. Doporučuji předIoženou diplomovou práci k obhajobě a hodnotím ji známkou A-výborně.
V Heidelbergu
30. května 2012
Ing. Vojtěch tr'ranc, Ph.D.
Centrum strojového vnímání
Katedra kybernetiky, FEL ČVUT
Karlovo nám. 13, 72I 35 Praha 2
?hItY*-
_,