Informační systémy - Katedra automatizační techniky a řízení

Transkript

Informační systémy - Katedra automatizační techniky a řízení
13
Vysoká škola báňská – Technická univerzita Ostrava
Fakulta strojní, Katedra automatizační techniky a řízení
Informační systémy
2006/2007
Ivan Kedroň
1
Obsah
zAnalytické nástroje SQL serveru.
zOLAP analýza údajů v databázi.
zData Mining.
zDoporučená literatura:
Lacko, L. Analytické možnosti produktu
Microsoft SQL Server 2000. Praha :
Microsoft, s. r. o. 74 s.
Informační systémy 2006/2007
2
Analytické možnosti MS SQL Server
zMS SQL Server
{ Relační databázový systém
zMS Data transformation Services (ETL)
{ Nástroj pro extrakci, transformaci a loading
zMS OLAP Server
{ Systém pro On-line Analytical Processing
zMS Data Mining services
{ Nástroj pro Data Mining – tedy dolování dat
Informační systémy 2006/2007
3
1
Nástroje pro ETL
zProč transformovat data
{Data pochází z několika různých
nehomogenních zdrojů
{Data jsou v lepším případě pouze zpracovány
do sestav
{Do skladu (Data Werehouse) je třeba uložit
data jednoho typu, aby bylo možno je
zpracovávat pro analýzu
Informační systémy 2006/2007
4
Nástroje pro ETL
zSchéma datového skladu
Informační systémy 2006/2007
5
Nástroje pro ETL
zEtapy procesu ETL
{Extrakce
z Výběr dat prostřednictvím určitých metod
{Transformace
z Ověření, čištění, integrování a časové označení dat
{Loading
zTransport (uložení) dat do datového skladu
Informační systémy 2006/2007
6
2
Nástroje pro ETL
zV MS SQL Server zajišťuje ETL
Data Transformation Services pomocí
služeb importu dat, který umí pracovat s
daty z velkého množství různých zdrojů
zImport probíhá na základě průvodce a
definicí v něm zadaných nebo za pomoci
workflow diagramů procesu ETL
Informační systémy 2006/2007
7
Příklad použití DTS
Jako příklad využijeme databázi FoodMart, která je součástí instalace
SQL Server. Tato databáze je vytvořena v MS Access a proto je nutno
data převést pomocí ETL do formy vhodnější pro zpracování.
Postup:
z
Vytvoříme databázi do
které budeme importovat
data pomocí např. pomocí
Enterprise Manageru
z
Zadáme import dat, čímž
spustíme DTS Import
Wizzard
Informační systémy 2006/2007
8
Příklad použití DTS
z Stanovíme typ zdroje dat z
výběru a zadáme cestu k jeho
umístění
Informační systémy 2006/2007
9
3
Příklad použití DTS
z Určíme cílovou databázi a přístup k ní
z Následně zvolíme způsob tvorby tabulek
Informační systémy 2006/2007
10
Příklad použití DTS
z Zvolíme zdrojové
tabulky a pohledy pro
novou databázi
Informační systémy 2006/2007
11
Příklad použití DTS
z Nakonec ještě nastavíme čas provedení a spustíme samotný
převod, jehož průběh je zobrazen a ukončení ohlášeno
Informační systémy 2006/2007
12
4
On-line Analytical Processing
zPro analýzu velkého množství údajů
zVýsledkem analýzy jsou souhrny a reporty
sloužící v procesu řízení
zJe třeba velkého množství výpočtů a
agregací v ´téměř reálném čase´
zJedná se o definovanou řadu principů,
které poskytují dimenzionální rámec pro
podporu rozhodování
Informační systémy 2006/2007
13
On-line Analytical Processing
z Dvanáct pravidel OLAP
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Multidimenzinální konceptuální pohled
Transparentnost
Dostupnost
Konzistentní vykazování
Architektura klient-server
Generická dimenzionalita
Dynamické ošetření řídkých matic
Podpora více uživatelů
Neomezené křížové dimenzionální operace
Intuitivní manipulace s údaji
Flexibilní vykazování
Neomezené dimenze a úrovně agregace
Informační systémy 2006/2007
14
On-line Analytical Processing
zMultidimenzionální databázový model je
tzv. OLAP kostka (tři dimenze jsou pouze
ilustrativní, obvykle je jich mnohem více)
Informační systémy 2006/2007
15
5
On-line Analytical Processing
zTabulka Faktů
{Fakty jsou numerické měrné jednotky
obchodování
{Tabulka je největší a má hvězdicové schéma
zTabulky dimenzí
{Dimenze jsou textové popisy obchodování
{Obsahují logicky nebo organizačně hierarchicky
uspořádané údaje
{Obvykle mají stromovou strukturu
Informační systémy 2006/2007
16
On-line Analytical Processing
zPostup tvorby kostky v MS SQL Server
{Připojení ke zdroji dat
{Volba tabulky faktů
{Vytvoření dimenzí
{Konečné vytvoření kostky
{Výpočet kostky (volba úložiště)
{Zpracování výsledků
(výsledky je možno zobrazit např v MS Excel
jako kontingenční tabulku)
Informační systémy 2006/2007
17
Příklad OLAP analýzy
Jako příklad využijeme opět databázi FoodMart, tentokráte již
převedenou do MS SQL Server 2000 v předchozím příkladě. Budeme
pracovat s Analysis Managerem – nástrojem analytických služeb
Postup:
z
Založíme novou databázi
tentokráte v Analysis
Manageru
z
V záložce Cubes dáme
vytvořit novou kostku
pomocí průvodce
Informační systémy 2006/2007
18
6
Příklad OLAP analýzy
z
z
Zvolíme tabulku faktů, tedy data se kterými chceme pracovat
- v našempřípadě to může být např. tabulka sales_fact_1997
Z ní pak vybereme sloupce které budou měrnými jednotkami
pro analýzu (Store_Sales, Store_Cost, Unit Sales)
Informační systémy 2006/2007
19
Příklad OLAP analýzy
z
Dále se dostaneme k vytvoření jednotlivých dimenzí, k čemuž
slouží další průvodce
Informační systémy 2006/2007
20
Příklad OLAP analýzy
z
z
V tomto průvodci zvolíme schéma z nabídky (Star Schema)
Zvolíme tabulku, případně tabulky ze kterých se budou
dimenze tvořit (pro náš případ budou tři dimenze – jedna z
tabulky customer, druhá z time_by_day a třetí ze spojení
tabulek product a product class)
Informační systémy 2006/2007
21
7
Příklad OLAP analýzy
z
z
Následně z tabulky vybereme jednotlivé sloupce tak, aby
tvořily strukturu dimenzí (na obr. Je vidět zvolené sloupce pro
dimenzi Customers)
Zadáme název, podíváme se na náhled a dokončíme tvorbu
dimenze (postup opakujeme pro všechny další dimenze)
Informační systémy 2006/2007
22
Příklad OLAP analýzy
z
Jakmile máme vytvořeny všechny dimenze, vybereme je v
průvodci tvůrce kostky a dokončíme tvorbu kostky zadáním
názvu
Informační systémy 2006/2007
23
Příklad OLAP analýzy
z
z
Tím se
dostaneme do
Cube Editoru, kde
si můžeme
prohlédnout
schéma, provést
kontrolu a
případné úpravy
Pokud je vše v
pořádku, pak
zvolíme Process
Cube čímž dojde
k výpočtu kostky
Informační systémy 2006/2007
24
8
Příklad OLAP analýzy
z
Po ukončení výpočtu si
můžeme v záložce
data prohlédnot
výsledek analýzy s
možností libovolného
vnoření
zData můžeme také
přenést do
MS Access a
zobrazit pomocí
kontingenční tabulky
Informační systémy 2006/2007
25
Data Mining
zZjišťování závislostí jednotlivých údajů
mezi sebou na základě nashromážděných
údajů
zUmožňuje vyhledávat vzory informací v
údajích
zJe založený na heuristických algoritmech,
neuronových sítích apod.
zPomáhá sledovat a analyzovat trendy a
předvídat události
Informační systémy 2006/2007
26
Data Mining
zData Mining v MS SQL Server
{Volba typu zdroje údajů (relační nebo OLAP)
{Výběr tabulek obsahujících data pro dolování
{Výběr typu algoritmu pro analýzu údajů
z MS clustering – vícerozměrné zhlukové diagramy
z MS decision trees – nevyvážený rozpadový strom
{Výběr vstupních a predikovaných sloupců
{Výsledkem je diagram který ukazuje závislosti
{Na základě výsledků je možno provádět
predikci
Informační systémy 2006/2007
27
9
Příklad Data Miningu
Jako příklad využijeme již oblíbenou databázi FoodMart. Tentokráte se
však pokusíme odhadnout našeho zákazníka. Zkusíme zjistit co
ovlivňuje jeho příjem a jak výrazně.
Postup:
z
V Analysis Manageru
zadáme vytvoření nového
Data Mining modelu, čímž
se nám spustí průvodce
Informační systémy 2006/2007
28
Příklad Data Miningu
z
Zvolíme typ dat se
kterými budeme pracovat
(v našem případě tedy
relační data)
Zvolíme tabulku se kterou
chceme pracovat
(tedy tabulku Customer)
z
Informační systémy 2006/2007
29
Příklad Data Miningu
z
z
Zvolíme Data Miningovou
techniku kterou chceme
použít
V následující nabídce si
zvolíme sloupec který nás
zajímá a ty jejichž význam na
zvolený chceme zjistit
Informační systémy 2006/2007
30
10
Příklad Data Miningu
z
z
Po provedení se nám
pomocí barevného
schématu zobrazí
výsledné vlivy
A pomocí Dependency Network
Browseru se můžeme podívat
obdobně na nejvýraznější vlivy
Informační systémy 2006/2007
31
11

Podobné dokumenty

Informační systémy - Katedra automatizační techniky a řízení

Informační systémy - Katedra automatizační techniky a řízení Vysoká škola báňská – Technická univerzita Ostrava Fakulta strojní, Katedra automatizační techniky a řízení

Více

Formát PDF

Formát PDF řadou tzv. prognostických faktorů, z nichž největší význam má klinické stadium onemocnění, biologický charakter nádoru ahistopatologický typ nádoru. Udává se, že až 80 % endometriálních nádorů je z...

Více

Maturitní témata

Maturitní témata inerciální a neinerciální vztažné soustavy, prostor a čas v klasické mechanice, základní principy speciální teorie relativity, důsledky Einsteinových principů (relativnost současnosti, kontrakce dé...

Více

Pokročilé analýzy dat a textů / Data mining, text/web mining

Pokročilé analýzy dat a textů / Data mining, text/web mining podle hodnoty, rizikovosti, druhu chování atd. Využívají se pokročilé techniky tzv. clusteringu (shlukování) v kombinaci s expertními obchodními náhledy. Hledání podvodného chování (realizace – zdr...

Více

SPEEDWARE Financials

SPEEDWARE Financials Analýza standardních účetních výkazů, analýza nákladů a výnosů, analýza odběratelů a dodavatelů, porovnání skutečných dat s plánem, zobrazení plánovaných dat pro další období, vypočítané ukazatele,...

Více

postup modelování v Data Miner Recipe

postup modelování v Data Miner Recipe Dalším krokem nad z databáze vygenerovanými daty je příprava datového souboru, neboť data z databáze, někdy označovaná jako surová, obsahují velké množství chybějících údajů, extrémních hodnot, mno...

Více