prezentace
Transkript
prezentace
Úvod do analýzy komplexnı́ch sı́tı́ Radek Mařı́k ČVUT FEL, K13132 02.03.2016 Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 1 / 65 02.03.2016 2 / 65 Obsah 1 Úvod Praktické přı́klady Přehled CNA/SNA Terminologie - teorie grafů 2 Analýza sociálnı́ch sı́tı́ Heterogenita stupně Náhodné sı́tě Modularita 3 Projekt s egyptology Cı́le projektu Ukázky problémů 4 Závěr Shrnutı́ Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod Praktické přı́klady [PASP09] Konzervatismus glogálnı́ch metabolických sı́tı́ (20) Phenylalanine, tyrosine and tryptophan biosynthesis (21) Nitrogen metabolism (22) Pantothenate and CoA biosynthesis (23) Riboflavin metabolism (24) Galactose metabolism (25) Porphyrin and cholorophyll biosynthesis (23) (22) (20) (19) Pyrimidine metabolism (19) (1) (24) (2) (18) (18) Purine metabolism (5) (21) Superclass membership : Node color Carbohydrate metabolism Energy metabolism Lipid metabolism Nucleotide metabolism Amino acid metabolism Other amino acid metabolism Glycan metabolism Co-factors and vitamins Secondary metabolites Xenobiotics Multiple superclasses Multiple pathways White border in same superclass (25) Conservation : Node size Highly conserved (>=140 genomes) Less well conserved (< 140 genomes) (6) (17) Thiamine metabolism (4) (17) (3) Pathway examples (16) Urea cycle and metabolism of amino groups (15) Glycine, serine and threonine metabolism (1) Blood group glycolipid and ganglioside biosynthesis; globoside metabolism (16) (2) Aminosugars biosynthesis (7) (3) Fructose and mannose metabolism (4) N-glycan metabolism (12) (15) (5) Alkaloid biosynthesis I (6) Flavanoids, stilbene and lignin biosynthesis (8) (9) (7) Inositol phosphate metabolism (8) Prostaglandin and leukotriene metabolism (9) Folate metabolism (14) (10) Penicillin and cephaloporin biosynthesis (14) Fatty acid biosynthesis pathway I (13) Lysine biosynthesis and degradation Radek Mařı́k ([email protected]) (10) (11) (13) (12) Glutathione metabolism (11) Diterpenoid biosynthesis Úvod do analýzy komplexnı́ch sı́tı́ Úvod 4 / 65 02.03.2016 5 / 65 Praktické přı́klady Analýza vazeb v teroristických sı́tı́ch Al Kaida Radek Mařı́k ([email protected]) 02.03.2016 Úvod do analýzy komplexnı́ch sı́tı́ [FMS] Úvod Mapa internetu v roce 1995 Radek Mařı́k ([email protected]) Praktické přı́klady [Bri95] Úvod do analýzy komplexnı́ch sı́tı́ Úvod 02.03.2016 6 / 65 Praktické přı́klady Porozuměnı́ kódu asembleru počı́tačů třı́dy mainframe Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 7 / 65 Úvod Praktické přı́klady Závislosti procesu výroby čokolády Radek Mařı́k ([email protected]) [Fre14] Úvod do analýzy komplexnı́ch sı́tı́ Úvod 8 / 65 02.03.2016 9 / 65 Praktické přı́klady Detekce témat (TFIDF, cosine) - selhánı́ Radek Mařı́k ([email protected]) 02.03.2016 Úvod do analýzy komplexnı́ch sı́tı́ [Mar13] Úvod Přehled CNA/SNA Knihy SNA Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod Koncept sı́tě 02.03.2016 11 / 65 Přehled CNA/SNA [Weh13] Hlavnı́ proud společenských věd Společnost je množina nezávislých jedinců. Jedinec je jednotkou analýzy, reprezentovaný jako soubor atributů. Analýza sociálnı́ch sı́tı́ (SNA, angl. Social Network Analysis) Relace (dvojice, trojice) jsou základnı́ jednotkou analýzy. Akce aktérů jsou nezávislé. Statika: o struktuře se (nejprve) předpokládá, že vykazuje stabilnı́ vzor. Dynamika: selekce/akce ovlivňujı́ vznik struktur, ale struktury majı́ vliv na rozhodnutı́ a akce, tj. pozorujeme sı́t’ové sociálnı́ procesy. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 12 / 65 Úvod Sı́tě - důraz na relace Přehled CNA/SNA [Weh13] Důraz na RELACE! v kontrastu s atomistickým pohledem či pohledem jako na celek Analýza sociálnı́ch sı́tı́ (SNA, angl. Social Network Analysis) humanitnı́ a společenské vědy aktivity a struktury spojené s lidmi analýza nákupnı́ho košı́ku, cı́lená reklama analýza podnikových procesů (spolupráce lidı́, distribuce zbožı́) Analýza komplexnı́ch sı́tı́ (CNA, angl. Complex Network Analysis) použı́vá stejné metody jako SNA aplikuje je ve všech doménách lidských aktivit biologie, vojenstvı́, počı́tačové sı́tě, bibliografie, telekomunikace Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod 02.03.2016 13 / 65 Přehled CNA/SNA Typické charakteristiky sociálnı́ch sı́tı́ [Weh13] Rozmanitost stupňů uzlů Aktéři se lišı́ počtem vazeb, které udržujı́. Mı́ry centrality pomáhajı́ identifikovat výrazné aktéry. Mosty a malé světy Nová informace se šı́řı́ skrze slabé vazby (Granovetter) nebo mosty (Burt). Mosty vytvářenı́ zkratky v sı́tı́ch, . . . jsou odpovědné za krátké průměrné délky cest. Modularita Sı́tě často obsahujı́ husté podgrafy. K nalezenı́ takových podgrafů sloužı́ metody detekce komunit. ... Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 14 / 65 Úvod Sı́t’ Terminologie - teorie grafů [Weh13] Sı́t’ Sı́t’ tvořı́ graf a dalšı́ informace o vrcholech a hranách grafu. Formálně, sı́t’ N = (V, L, P, W) se skládá z: grafu G = (V, L), kde V je množina vrcholů, E je množina hran (orientovaných a neorientovaných) P je vrcholová hodnotı́cı́ funkce / vlastnosti: p : V → A W je hranová hodnotı́cı́ funkce / váhy: w : L → B Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod Vlastnosti sı́tě 02.03.2016 16 / 65 Terminologie - teorie grafů [Weh13] Graf G může být reprezentován pomocı́ množin nebo pomocı́ matic. Vlastnosti vrcholů P a hran W mohou být měřeny v různých škálách: numerické (zobrazenı́ do reálných čı́sel), ordinálnı́ (kategorické hodnoty s uspořádánı́m), a nominálnı́ (kategorické hodnoty bez přirozeného uspořádánı́). Velikost sı́tě/grafu se vyjadřuje pomocı́ dvou čı́sel: počet vrcholů n = |V| počet hran m = |E|. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 17 / 65 Úvod Mistři analýzy sociálnı́ch sı́tı́ Terminologie - teorie grafů [RP13, Weh13] US National Security Agency provozuje velké projekty využı́vajı́cı́ analýzu sociálnı́ch sı́tı́ věřı́ se, že zpracovávajı́ událostı́ modifikujı́cı́ 2 × 1010 uzlů a vazeb za den Cı́l: ”Lepšı́ analýza zaměřená na člověka” Typy 94 typů entit/uzlů (telefonnı́ch čı́sel, e-mailových adres, IP adres, atd.) 164 typů vztahů reprezentujı́cı́ profily ”komunit zájmů” (cestujeS, maOtce, poslalZpravuNaForum, zamestnava, atd.) Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod Graf 02.03.2016 18 / 65 Terminologie - teorie grafů [Weh13] Graf je množina vrcholů a množina hran mezi páry vrcholů. Aktér - vrchol (angl. vertex, node, point) Relace - hrana, vazba (angl. line, edge, arc, link, tie) Neorientovaná hrana = (angl. edge), {c, d} c a d jsou krajnı́ vrcholy Orientovaná hrana = (angl. arc), (a, d) a je počátečnı́ vrchol, (angl. initial vertex, source, start) d je koncový vrchol, (angl. terminal vertex, target, end) Paralelnı́ (násobné) hrany jsou povoleny pouze v multigrafech s vı́ce než jednou relacı́. smyčka (angl. loop, self-choice) Zaměřı́me se jednoduché grafy! Jednoduchý neorientovaný graf nemá smyčky ani paralelnı́ hrany. Jednoduchý orientovaný graf nemá paralelnı́ hrany. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 19 / 65 Úvod Reprezentace grafu Terminologie - teorie grafů [Bei95] Graf 10 7 14 Matice sousednosti (tabulka) 22 25 30 7 10 14 22 25 30 Seznam 7: 10: 14: 22: 25: 30: 10 14, 22 10 1 . . . . . 14 . 1 . 1 . . 22 . 1 . . . 1 25 . . . 1 . . 30 . . . . 1 . 14, 25 30 22 Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Úvod Stupeň 7 . . . . . . 02.03.2016 20 / 65 Terminologie - teorie grafů [Weh13] Stupeň vrcholu v , deg (v ) = dv = počet hran incidentnı́ s v , (počátečnı́ i koncový) Vstupnı́ stupeň vrcholu v , indeg (v ), deg + (v ) = počet hran incidentnı́ s koncovým vrcholem v Výstupnı́ stupeň vrcholu v , outdeg (v ), deg − (v ) = počet hran incidentnı́ s počátečnı́m vrcholem v . Example 1 n = 12, m = 23, deg + (e) = 3, deg − (e) = 5, deg (e) = 6 X X + deg (v ) = deg − (v ) = |Eo | + 2|En | v ∈V Radek Mařı́k ([email protected]) v ∈V Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 21 / 65 Analýza sociálnı́ch sı́tı́ Heterogenita stupně Typické charakteristiky sociálnı́ch sı́tı́ [Weh13] Heterogenita stupňů aktéři se lišı́ počtem vazeb, které udržujı́. mı́ry centrality pomáhajı́ identifikovat výrazné aktéry. domněnka, že vrcholy nebo hrany, které se (v nějakém významu) nacházı́ ve středu sı́tě, jsou důležité pro funkci sı́tě. Mosty a malé světy nová informace přicházı́ do sı́tě skrze slabé vazby (Granovetter) nebo mosty (Burt). mosty vytvářejı́ zkratky v sı́ti, . . . vzhledem k nim je krátká průměrná délka cest. Modularita sı́tě často majı́ husté podgrafy, podgrafy se hledajı́ pomocı́ detekce komunit. ... Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ Rozmanitost stupňů 02.03.2016 24 / 65 Heterogenita stupně [Weh13] ne všechny uzly vykazujı́ tu samou aktivitu (stupeň) v sı́ti, některé uzly se projevujı́ vyjı́mečnou aktivitou, stupeň typicky odpovı́dá ceně vytvořenı́ vazeb. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 25 / 65 Analýza sociálnı́ch sı́tı́ Heterogenita stupně Mı́ry centrality / umı́stěnı́ v žebřı́čku [BE06, Weh13] Měřenı́ důležitosti/vyjı́mečnosti vrcholu v rámci sı́tě Degree Centrality (aktivita) Betweenness Centrality (zprostředkujı́cı́ pozice) Closeness Centrality (vzdálenost k ostatnı́m uzlům) Eigenvector Centrality (reprezentačnı́ uzly) Power Centrality (v blı́zkosti mocných uzlů) Page Rank Hodnocenı́ pozice aktérů v sı́ti náhled na různé role a uskupenı́ v sı́ti, spojky, znalci, vedoucı́, mosty, samotáři, zprostředkovalé, centrály, . . . Kde jsou shluky a kdo k nim patřı́? Kdo tvořı́ jádro sı́tě? Kdo je na periférii? Co je jednoduchým bodem selhánı́ (angl. single point of failure)? Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ Stupňová centralita 02.03.2016 26 / 65 Heterogenita stupně [Fre79, BE06, Weh13] Jaký je stupeň aktéra? Jak aktivnı́ je aktér? Degree centrality is a count of the number of edges incident upon a given vertex. Degree centrality for actor i cid = X aij = A1 j where A is the adjacency matrix 1 is a vector of 1 with size n. Normalized degree centrality for actor i P A1 j aij d c 0i = = n−1 n−1 Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 27 / 65 Analýza sociálnı́ch sı́tı́ Porovnánı́ mı́r centralit A Heterogenita stupně [Roc12] A Degree centrality, B B Closeness centrality, C Betweenness centrality, D Eigenvector centrality, E Katz centrality, C D F Alpha centrality toho samého grafu. E F Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ 02.03.2016 28 / 65 Náhodné sı́tě Bezškálové sı́tě Distribuce stupňů Distribuce stupňů uzlů distribuce s těžkým chvostem sledujı́c mocninný zákon (asymptoticky) P(k) ∼ k −γ Středisko (angl. hub) malé sı́tě Předpoklady: preferenčnı́ připojovánı́ k sı́ti model kondice (angl. fitness) Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 31 / 65 Analýza sociálnı́ch sı́tı́ Náhodné sı́tě Spolupráce lidı́ na projektech Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ 02.03.2016 32 / 65 02.03.2016 36 / 65 Modularita Extrahovánı́ struktury comunity [BGLL08] Modularita: funkce měřı́cı́ kvalitu dekompozice sı́tě Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ Modularita Modularita [BGLL08, New06] modularita je až na multiplikatvnı́ konstantu počet vnitřnı́ch hran skupiny zmenšený o očekávaný počet hran ekvivalentnı́ sı́tě s hranami umı́st’ovanými náhodně vážená sı́t’ ci . . . atribut daného vrcholu di dj 1 X Q= Aij − δ(ci , cj ) 2m 2m i,j kde Aij . .P . váha hrany mezi i a j di = j Aij . . . stupeň vrcholu i P m = 12 i,j Aij . . . celková váha di dj /2m . . . očekávaný počet hran mezi vrcholy di a dj δ(u, v ) je 1 jestliže u = v a jinak 0 Q ∈ [−1, 1] Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Analýza sociálnı́ch sı́tı́ Extrakce struktury komunit 02.03.2016 38 / 65 Modularita [BGLL08] Krok iterace 1 optimalizace modularity lokálnı́mi změnami komunit 2 nalezené komunity jsou agregovány a vytvořı́ se nová sı́t’ komunit Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 39 / 65 Analýza sociálnı́ch sı́tı́ Modularita Mobilnı́ sı́t’ belgického operátora [BGLL08] 2.6 miliónů zákaznı́ků jazyky: holandština, angličtina, francouština, němčina, 6.3 miliónů vazeb váhy . . . počet volánı́ + sms červená . . . Francouzi, střed . . . Brusel Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Projekt s egyptology 02.03.2016 40 / 65 Cı́le projektu O čem je projekt z našeho pohledu Aplikace metod umělé inteligence v egyptologii shlukovánı́ dolovánı́ relacı́ analýza komplexnı́ch/sociálnı́ch sı́tı́ Specifikace projektu Metody komplexnı́ch sı́tı́ aplikované na data starověkého Egypta v obdobı́ Staré Řı́še (2700-2180 př. Kr.) GAČR projekt 2016-2018 1-2 PhD studenti, 0.3 + 0.5 1-3 BSc/MSc studenti, 0.2 implementace a studium vybraných metod Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 49 / 65 Projekt s egyptology Cı́le projektu Cı́le projektu Identifikace a analýza sociálnı́ch procesů společnost Starého Královstvı́ pokrývá obdobı́ 3. až 6. dynastie (2700–2180 BC) pozvolná transformace egyptské společnosti z královstvı́ na stát přı́stup k řešenı́ strojové učenı́ analýza komplexnı́ch/sociálnı́ch sı́tı́ (CNA/SNA) multidisciplinárnı́ výzkumný přı́stup v archeologii komplexnı́ společnosti Starého královstı́ Egypta Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Projekt s egyptology 02.03.2016 50 / 65 Cı́le projektu Vstupnı́ datové kanály Hieroglyfy na stěnách Nepravé dveře Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 51 / 65 Projekt s egyptology Cı́le projektu Data v databázi Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Projekt s egyptology 02.03.2016 52 / 65 Ukázky problémů Rekonstrukce rodin starověkého Egypta rodina: použı́tı́ rodinného označenı́ manžel, manželka, syn, atd. silně souvislá komponenta grafu předpokládá se řı́dká struktura grafu transformuje se na klasický rodokmen použitı́m uzlů manželstvı́ Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 54 / 65 Projekt s egyptology Ukázky problémů Pole nepotismu 100 90 102 70 60 100 50 40 50 30 count 80 index nepotismu [0-1000] administrativnı́ titul [index] 150 101 100 0 10 10 0 20 40 60 80 100 rodokmen přı́buzných [index] Radek Mařı́k ([email protected]) 102 103 degree sı́t’ titulů distribuce stupňů vrcholů 20 0 101 0 Úvod do analýzy komplexnı́ch sı́tı́ Projekt s egyptology 02.03.2016 56 / 65 02.03.2016 57 / 65 Ukázky problémů Detekované přı́pady nepotismu vezı́ři, sýpky, pokladnice, justice Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Projekt s egyptology Ukázky problémů Výzkumáky/BSc/MSc náměty/metody Témata Graph Partitioning Community Detection, Non-negative matrix factorization (NMF, BMF), Úloha studenta syntetická/reálna data kód použı́ti knihoven (pokud implementace existuje) Relation Mining, Feature Selection, Uncertainty, Graph/Time Series Anomaly Detection Influence Detection, implementace metod a algoritmů (přehled/výzkum/důkazy metod) Hidden Markov Models, Bayes Networks, Missing Links Prediction, Network Dynamics (Diffusion, Epidemics) Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ Závěr 02.03.2016 60 / 65 Shrnutı́ Shrnutı́ úvod do analýzy komplexnı́ch/soliálnı́ch sı́tı́ všudepřı́tomné aplikace: organizace, firmy, biologie, technické sı́tě, obchodnı́ a produkčnı́ procesy, složité abstraktnı́ relace, senzorová pole, banky, pojišt’ovny, média, atd. základnı́ metriky centralita modularita mnoho algoritmů opatrnost při škálovánı́ reálných aplikacı́. projekt GAČR s egyptology: výzkumák/BSc/MSc/PhD finančnı́ podpora Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 62 / 65 Závěr Radek Mařı́k ([email protected]) Shrnutı́ Úvod do analýzy komplexnı́ch sı́tı́ Závěr 02.03.2016 63 / 65 Shrnutı́ References I Stephen P. Borgatti and Martin G. Everett. A graph-theoretic perspective on centrality. Social Networks, 28(4):466–484, 2006. Boris Beizer. Black-Box Testing, Techniques for Functional Testing of Software and Systems. John Wiley & Sons, Inc., New York, 1995. Vincent D Blondel, Jean-Loup Guillaume, Renaud Lambiotte, and Etienne Lefebvre. Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008(10):P10008, 2008. Matt Britt. Partial map of the internet 1995, accessed 28.1.2014. http://en.wikipedia.org/wiki/Wikipedia:Featured_picture_candidates/Internet_Map, 1995. FMS. Social network analysis (SNA) diagram, al qaeda terrorist network, accessed 28.1.2014. Linton C. Freeman. Centrality in social networks: I. conceptual clarification. Social Networks, (1):215–239, 1979. Fremantle. Celebrating a soy-free easter with amedei chocolate, accessed 28.1.2014. http://infonolan.hubpages.com/hub/Celebrating-a-Soy-Free-Easter-with-Amedei-Chocolate, 2014. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 64 / 65 Závěr Shrnutı́ References II Petr Martinec. Topic detection in news (in czech). Master’s thesis, Fakulta elektrotechnická, ČVUT Praha, May 2013. M E Newman. Modularity and community structure in networks. Proc Natl Acad Sci U S A, 103(23):8577–8582, June 2006. Jose M Peregrin-Alvarez, Chris Sanford, and John Parkinson. The conservation and evolutionary modularity of metabolism. Genome Biology, 10(6), June 2009. Claudio Rocchini. Centrality. http://en.wikipedia.org/wiki/File:Centrality.svg, November 2012. James Risen and Laura Poitras. N.S.A. gathers data on social connections of U.S. citizens, September 2013. Stefan Wehrli. Social network analysis, lecture notes, December 2013. Radek Mařı́k ([email protected]) Úvod do analýzy komplexnı́ch sı́tı́ 02.03.2016 65 / 65