Posudek na diplomovou práci studenta Michala Odstrčila orlearning
Transkript
Posudek na diplomovou práci studenta Michala Odstrčila orlearning
Posudek na diplomovou práci studenta Michala Odstrčila orlearning Machines in Applications to Massive Tokamak Data Analyses ,, Jan Mlynář, vedoucí diplomové práce Téma diplomové práce a její zadání jsme pro Bc. Michala Odstrčila určili záměrně relativně náročnéa osobně jsem byl rád, že student tuto výzvu přijal. Tématika strojového učenía hromadné analýzy velkých datových souboru je ve fuzi poměmě nová a pro naše pracoviště je nová úplně. Student M. Odstrčil - spolu s doktorandem ing. J. Sovou zFEL, který ovšem pracuje na poněkud odlišnémtématu - se tak v rámci diplomové práce vydal na pruzkum nové oblasti, kterou považujeme z hlediska tokamaku COMPASS za potenciálně zajimavou. V rámci řešení diplomové práce se nám podařilo, zčásti díky podpoře EURATOM a zčásti díky individuální cestovní podpoře od konsorcia FUSENET, aby student M. Odstrčil strávil několik měsícůna společnémevropském pracovišti fuzního výzkumu JET, kde se problematice hromadné analýzy dat úspěšněvěnoval spolu s těmi, kteří s ní již mají zkušenosti. Ostatně, právě proto je práce psaná anglicky a věnuje se převážně alalýze dat z tokamaku JET. Jde skutečně o práci, která se pohybuje na přední hranici současného fúzníhovýzkumu a která přináší cenné a věrohodné informace o nové metodice, a také o možnostech a nevýhodách aplikování metod hromadné analýzy dat ve fázním výzkumu. Samotná diplomová práce je rozdělena na šest kapitol. První čtyři kapitoly se podle zadéni věnují především rešerši,ale již v rámci rešeršeobsahují řadu vlastních ýsledků v souvislosti s testováním diskutovaných numerických metod. První kapitola představuje krátký přehled těch úkolůfi-rzního výzkumu, pro které by mohly být metody hromadného zpracováni dat užitečné,a to včetně ťyzlkálni motivace. Druhá kapitola poskytuje systematický a ucelený přehled algoritmů pollživaných pro strojové učení,se zvláštním důrazem na identifikaci toho, čímse mezi sebou liší.Ve třetí kapitole je pak podan systematický přehled samotných učícíchse systémů,které jsou často k dispozici už v numerických knihovnách dnešníchmoderních vyššíchvýpočetníchjazyků. Na konci této třetí kapitoly je provedeno i numerické testování, srovnávající vlastnosti těchto systémů (učícíchse strojů). Ve čtvrtékapitole je podrobně vysvětlena metodika volby příslušného modelu pro učení,a to jak na zétkladě bayesovských, tak nebayesovských metod. V prvních čtyřech částech je tak bezvýhradně splněn první úkol zaďání diplomové práce, totiž,,provést rešeršivhodných metod hromadné analýzy ďat". Pátá a šestá kapitola se věnují vlastnímu tvůrčímupoužitíučícíchse metod k hromadnému zpracování dat a k pravděpodobnostnímu určenívývoje experimentu. Pátá kapitola představuje zajímavý, ilustrativní a poměrně dobře pochopitelný příklad aplikace učícíchse metod při hromadném zpracovnání dat pomoci zpracování databáze studentského tokamaku GOLEM z hlediska předpovědi prirazu plazmatu. Výsledná tabulka 5.1. opravdu stojí za pozomost. Pátou část považuji za doklad velmi elegantního splnění druhého úkolu diplomové práce, jmenovitě ,,demonstrovat použitípříslušnýchnumerických metod na skutečných datech z experimentů". Přesně podle zadání je pak těžištěm celé diplomové práce kapitola šestá, která rozsahem představuje zhruba 40Yo ce|kového počtu stran. Zďeje podrobně řešen hlavní úkol, a sice studium ,, predikce a klasifikace disrupcí pomocí uěících se algoritmů aplikovaných na novou ďatabázi disrupcí na tokamaku JET". Tato kapitola se tedy zabývá disrupcemi (náhlými zániky plazmatu) na tokamaku JET a především zásadní otázkott, zda apllkace učícíchse strojů na hromadné zpracování ďat můžeochránit JET a budoucí reaktory před disrupcemi. Taková ochrana by měla přinejmenším poskytnout nástroj včasnélrovarování, díky kterému by mohly by.t spuštěny mechanismy ke sníženízávažných mechanických a tepelných důsledkůdisrupcí. Tato část je také vedena systematicky, cílevědomé, nabízířadu původních myšlenek a mnoho ilustrací. Domnívám se, že v této části se diplomová práce, svojí metodikou i obsahovou bohatostí, blížístandardu doktorské dizertace. Dosažené výsledky jsou pak srozumitelně a jasně shmuty v závěru práce. }rÍožnánejsou tak jednoznačně pozitivní a optimistické, jak bychom mohli čekat na základéŤady již vydaných článkůna tuto tématiku, ale i v tom je třeba vidět důležitýpříspěvek této práce ke směřování našeho dalšího výzkumu. K odevzdané diplomové práci lze mít i několik qfhrad, přinejmenším formálních. Asi největším zádrhelem práce je angličtina, ve které je celá řada poměmé zbytečných, základních chyb, které jsou místy velmi rušivé.Zde si musím trochu povzdechnout, že méně je někdy více: Některé části diplomové práce byly původně napsány z hlediska angličtiny mnohem pečlivěji, ale pak došlo na poslední chvíli kjejich změně. Zadruhé, některé odbomé pojmy (ako UFO, pelet) nejsou v práci vysvětleny vůbec, jiné jsou nejprve použity a pak vysvětleny (např. CV output). Byl bych uvítal i širšídiskusi ohledně toho, zdajsou ve fúznímvýzkumu splněny předpoklady k použitíjednotlivých metod strojového učení.Pokud vím, v tomto ohledu nejsou odborníci zajedno. Konečně považuji za véůnýnedostatek, že v práci chybí poděkování konzultantovi zJET, kterým byl Dr. Andrea Murari. Bez mimořádného zájmu tohoto vedoucího vědeckého pracovníka JET o podporu studentů a o hledání nových myšlenek by předložená diplomová práce v této podobě vůbec nemohla vzniknout. Přesto se domnívám, že si za odvedenou práci student Michal Odstrčil zaslouží nejlepší hodnocení a pochvalu.Yážím si toho, že Michal na rozvoji svého talentu neustále tvrdě pracuje. Nebojí se riskovat avybírat si tynáročnějšíúlohy,vždyodvede hodně práce, přesto si udržuje i široký zájem o dalšímožnéprojekty a v okamžiku, kdy je to nutné, je ochotný ke kompromisům. Ostatně, dokázal to i tím, že se mu právě v době vrcholícípřípravy diplomové práce podařilo dotáhnout do konce i svoji první publikaci pro impaktovaný časopis Nuclear Instruments and Methods A, která byla v květnu přijata do tisku: DOI:10.10I6lj.nima.20I2.05.063. Jde o článek, který má kořeny v bakalářské práci, čili v poněkud odlišnéproblematice tomografie plazmatu. Pokud je mi známo, Michal připravuje s Dr Andrea Murari i článek vycházející z výsledků předloženédiplomové práce. S takovým profilem se můžepochlubit jen minimum studentů magisterského stupně. Rád bych Michalovi popřál ty nejlepšíodborné podmínky do dalšíhostudia. Vzhledem k tomu, že byly všechny úkoly zaďání diplomové práce beze zbytku splněny a vzhledem k vysoké odborné úrovni předloženépráce doporučuji předloženou diplomovou práci k obhajobě a k ohodnocení stupněm A -výborně. V Culhamu dne 29, května 2012 Posudek oponenta diplomové práce Název práce: Learnig Machines in applications to massive tokamak data analysis Autor diplomové práce: Bc. Michal Odstrčil Posudek vypracoval: Ing. Vojtěch Franc, Ph,D. Diplomová práce se zabývá použitímmetod strojového učenípro predikci disrupcí, ke kterým docházi při provozu fízníchzaíízení.(Jvod práce obsahuje poměrně rozsáhlou rešeršivybraných metod strojového učení.Popis metod je dostatečně srozumitelný. Pěkné je zhodnocení slabých a silných stránek popisovaných algoritmů. Text ukazuje, že diplomant je dostatečně kompetentním uživatelem nástrojů strojového učení,se kterými experimentoval ve své práci. Těžištěm práce je experimetální vyhodnocení použitelnosti SVM, RVM a vybraných metod pro selekci příznaků v detekci disrupcí na reálných datech z tokomaků JET a GOLEM. Rozsah experimentů je značný. Návrh experimentů a použitý testovací protokol je rozumný. Výborná je interpretace a hodnocení věrohodnosti dosaženÝch výsledků. Práce je psána anglicky. Přes poměrně velké množstvípřeklepů a gramatických chyb je většina textu dostatečně srozumitelná. Předložené práci bych vytkl následující nedostatky: o (Jvodní část práce (kapitoly 2 až 4) věnovaná rešerši metod strojového učenípředchází definici problému, pro který se metody vybírají. Podrobnější úvod do problému detekce disrupcí spolu s popisem kritéria hodnotícíhokvalitu detektoru je popsán až v předposlední kapitole. o V práci jsem nenalezl přesnou definici statistického rozhodovacího problému, který by odpovídal řešenéaplikaci. o Není zcela vysvětleno podle jakého klíčebyly testované metody strojového učenívybrány, tj. proč jsou právě tyto metody vhodné pro predikci disrupcí na tokamaku. . Hlavním důvodem se zdá být dostupnost efektivní implementace těchto metod a jejich současná popularita v komunitě strojového učení. Úlohy, pro které jsou uvedené metody navrženy (tj. minimalizace klasifikačníchyby a odhad kvantilu rozdělení) se zcela jistě lišíod problému detekce disrupcí. Např. kriterium definované v práci (tzv. "total erlor") je funkcí sekvence rozhodnutí, zatimco ztrátové fukce SVM a RVM minimalizují ztrátu pro každérozhodnutí nezávisle. Na druhou stranu je z ptáce zŤejmé,že autor si je tohoto problému vědom. o Kapitola 5 popisující experimenty na datech z tokamaku GOLEM patří mezi slabší místa této diplomové práce. (Jvodní část věnovaná popisu a motivaci pro proved,ení experimentu není zcela jasná. Problém je jak angličtina, tak nedostatečný popis testovacího protokolu a použitých statistik pro měření přesnosti detektoru, které nekorespondují s jejich standardní definicí. Přes uvedené kritické poznámky se jedná o přínosnou diplomovou práci. Doporučuji předIoženou diplomovou práci k obhajobě a hodnotím ji známkou A-výborně. V Heidelbergu 30. května 2012 Ing. Vojtěch tr'ranc, Ph.D. Centrum strojového vnímání Katedra kybernetiky, FEL ČVUT Karlovo nám. 13, 72I 35 Praha 2 ?hItY*- _,