statistica 10 - Data mining - Prediktivní modelování

Transkript

statistica 10 - Data mining - Prediktivní modelování
STATISTICA 10
Nové funkce a vylepšení
Obsah
STATISTICA 10.............................................................................................................................1
VÝKONNOST ...............................................................................................................................1
KONEKTIVITA A INTEGRACE .......................................................................................................1
SHAREPOINT ...............................................................................................................................1
OFFICE 2010..............................................................................................................................1
OLAP .......................................................................................................................................2
STATISTICA PI CONNECTOR..........................................................................................................3
VIZUALIZACE DAT .......................................................................................................................3
PŘEHLED ....................................................................................................................................3
INTERAKTIVNÍ ROLOVÁNÍ ................................................................................................................4
PRŮHLEDNOST.............................................................................................................................4
REFERENČNÍ ČÁRY ........................................................................................................................5
INTERAKTIVNÍ EDITACE TEXTU ..........................................................................................................5
ERGONOMIE UŽIVATELSKÉHO ROZHRANÍ..................................................................................6
PŘEHLED ....................................................................................................................................6
RIBBON BAR................................................................................................................................6
VYLEPŠENÝ PRACOVNÍ PROSTOR .......................................................................................................6
DOPLŇKY STATISTICA PRO RIBBON BAR...........................................................................................7
STATISTIKY..................................................................................................................................7
SIMULACE, ROZDĚLENÍ A KOVARIANCE ...............................................................................................7
COXOVY MODELY PROPORCIONÁLNÍCH RIZIK ........................................................................................8
LEPŠÍ ŠKÁLOVATELNOST A VYŠŠÍ RYCHLOST U RŮZNÝCH TYPŮ POPISNÝCH STATISTIK .......................................9
DATA MINING.............................................................................................................................9
GRAF ZISKU.................................................................................................................................9
KŘIVKA ROC...............................................................................................................................9
JEŠTĚ LEPŠÍ ŠKÁLOVATELNOST A VYŠŠÍ RYCHLOST ROZLIČNÝCH PREDIKTIVNÍCH MODELOVACÍCH METOD ...............9
TEXT MINING ............................................................................................................................10
JAVA AND NASAZENÍ C# ...............................................................................................................10
STATISTICA SCORECARD ............................................................................................................11
STATISTICA ENTERPRISE ...........................................................................................................11
RIBBON BAR .............................................................................................................................11
KONFIGURACE DAT .....................................................................................................................11
MIGRACE DATABÁZE ...................................................................................................................12
SDÍLENÍ MAKER VE STATISTICA ENTERPRISE ....................................................................................12
JMÉNA KONFIGURACÍ ENTERPRISE ..................................................................................................12
STATISTICA ENTERPRISE SERVER: AUTOMATICKÁ AKTUALIZACE GRAFŮ DEFINOVANÝCH ANALÝZ ...................12
STATISTICA MSPC ONLINE ........................................................................................................13
STATISTICA WEB DATA ENTRY..................................................................................................14
STATISTICA LIVE SCORE ............................................................................................................14
STATISTICA SCORECARD ...........................................................................................................15
NÁPOVĚDA A DOKUMENTACE .................................................................................................15
PŘÍKLADY OBJEKTOVÉHO MODELU STATISTICA ................................................................................15
STATISTICA 10
Výkonnost
(Všechny produkty)
STATISTICA 10 nově automaticky využívá 64-bitovou technologii CPU (pokud je k dispozici na
používaném hardwaru, bude nainstalována automaticky 64-bitová verze). Dalším zlepšením
jsou vysoce optimalizované paralelní výpočty (multithreading). Mnoho funkcí ve správě dat a
mnoho analýz (C & RT, CHAID, Obecné lineární modely, atd.), které pracovaly ve verzi 9 v
jednovláknovém režimu, nyní nově využívají technologie paralelních výpočtů a předností více
jader či procesorů. Tím je dosaženo významného zvýšení výkonnosti.
KONEKTIVITA a INTEGRACE
SharePoint
(Všechny produkty)
Vstup (a také výstup) do prostředí STATISTICA 10 je nyní integrován s nejrychleji rostoucím
standardem pro výměnu dat - Microsoft SharePoint. K dokumentům lze nyní přistupovat přes
SharePoint přímo z uživatelského rozhraní STATISTICA, což šetří čas uživatelů. Navíc je software
STATISTICA v současnosti jediným analytickým a dataminingovým programem, který tuto
možnost nabízí.
Office 2010
(Všechny produkty)
STATISTICA podporuje přímý import původních souborů Office 2007 a 2010, včetně informace o
jejich formátování. Technologie pro import do pracovního sešitu STATISTICA má významně
vylepšenou kompatibilitu s nestandardními soubory Excel 2007 a 2010, import a export z Excelu
2007/2010 nyní reflektuje nastavený formát buněk.
-1-
OLAP
(Všechny produkty)
Prostřednictvím STATISTICA Query se lze nyní připojit také k poskytovatelům datových kostek
OLAP, kterými jsou např. Microsoft OLE DB Provider for Analysis Services nebo SAP Business
Warehouse. MDX dotazy lze generovat v grafickém uživatelském rozhraní (táhni a pusť) nebo
lze psát přímo kód MDX.
-2-
STATISTICA PI Connector
(doplňkový produkt)
Verze 10 přináší jednodušší instalaci a správu STATISTICA PI konektoru. Konektor PI je nyní
distribuován jako součást verze 10 a samostatný instalátor proto již není vyžadován.
Vizualizace dat
(Všechny produkty)
Přehled
Grafy v software STATISTICA 10 byly modernizovány, využívají vysoký výkon grafických
akcelerátorů, který je dostupný nejen v kartách typu „high-end“, ale také v ostatních grafických
kartách, např. v přenosných počítačích.
Výsledek je generován nejen rychleji, ale grafy mají také vyhlazenější a zřetelnější vzhled a
podporují nově implementované barevné přechody a zjemněné vykreslovací postupy. Všechny
grafy jsou nově vybaveny interaktivními posuvníky, které umožňují rychle upravit grafiku
zobrazení. Dále bylo vylepšeno otáčení 3D grafů - vertikálně i horizontálně, které má vliv na
odhalení skrytých trendů v rozsáhlých datových souborech.
-3-
Interaktivní rolování
S 3D grafem lze přímo, pomocí spodních posuvných lišt, interaktivně otáčet a měnit tak úhel
pohledu na data. To umožňuje zkoumat nové závislosti v modelovaných datech.

Po přejetí kurzoru myši nad popis osy a tažením lze interaktivně měnit měřítko grafu a tím
vybrat pouze určitou oblast dat, zvětšit ji a detailně zkoumat její průběh.
Průhlednost
Grafy softwaru STATISTICA 10 nově, oproti předchozím verzím, podporují průhlednost.
Průhlednost je ovládána interaktivně přes posuvníky na spodní části grafu, a lze s její pomocí
kontrolovat překrývající se složky grafu (je vyžadován operační systém Windows Vista SP 2 nebo
Windows 7). Průhlednost je užitečná technika, která umožňuje odhalit skryté trendy v husté
koncentraci datových bodů, zejména u bodových graf, které vznikly z extrémně velkých
datových souborů.

-4-
Cílem těchto technik je dosáhnout optimální úrovně hustoty dat a odkrýt skryté vzory, které
zakrývají náhodné body. Lze překrývat jednotlivé části např. u histogramu, tím naznačit shodu v
části dat a zároveň udržet graf přehledný.
Referenční čáry
Referenční čáry, průměry a další vodící hodnoty mohou být přidány do grafu mnohem snadněji
než dříve. K přidání slouží nová funkce v dialogovém okně Možnosti grafu – Vztažné čáry.
Interaktivní editace textu
Textové popisky grafu lze nyní interaktivně upravovat přímo na obrazovce bez nutnosti otevření
okna editoru. Textový editor je stále k dispozici pro pokročilou úpravu textu.
-5-
ERGONOMIE UŽIVATELSKÉHO ROZHRANÍ
Přehled
Vylepšeno bylo také uživatelské rozhraní a ergonomie ovládacích prvků, což podle nejnovějších
zkušeností:
1) Snižuje únavu očí.
2) Zlepšuje interakci člověk – počítač.
STATISTICA ve verzi 10 nabízí efektivnější uživatelské rozhraní, kompletně přepracované
zobrazovací technologie a v neposlední řadě také novou ikonografii.
Ribbon bar
(Všechny produkty)
Všechny prvky Ribbon baru byly aktualizovány a byly také přepracovány jejich symboly (tradiční
klasické menu je i nadále podporováno z důvodu kompatibility). Do Ribbon Baru mohou být
nově přidána i makra STATISTICA Visual Basic.
Vylepšený pracovní prostor
(STATISTICA Data Miner/STATISTICA Text Miner)
STATISTICA Data Miner nyní nabízí větší (a vizuálně optimalizovaný) pracovní prostor
jednotlivých ikon a další nové vylepšení uživatelského rozhraní tohoto modulu.
-6-
Doplňky STATISTICA pro Ribbon bar
(Všechny produkty)
STATISTICA Ribbon bar lze nově programově ovládat. Vývojáři mohou přizpůsobit Ribbon bar
prostřednictvím volání API (Application Programming Interface). Tato vlastnost je užitečná
zejména při vytváření vlastních doplňků STATISTICA.
STATISTIKY
Simulace, rozdělení a kovariance
(Všechny produkty kromě STATISTICA Base)
Ve STATISTICA verze 10 byl posílen modul Rozdělení a simulace. STATISTICA 10 nyní usnadňuje
generování simulovaných dat z konkrétního rozdělení pomocí nástroje: Návrh simulace.
V této verzi lze jednoduše najít rozdělení, které nejlépe odpovídá konkrétním proměnným, a
použít tuto informaci společně se zvolenou korelační maticí pro simulaci potřebného počtu
nových případů.
Nemusíte tedy čekat na nárůst rozsahu dat, ale můžete využít aproximaci teoretického
rozdělení pozorovaných dat a tu využít pro simulaci a na základě této simulace formulovat
závěry. Pro účely simulace lze použít metody korelace, které jsou stále více oblíbené v různých
oborech a jsou velmi vhodné například pro analýzy typu „Co se stane, když…“
Například u společnosti používající výrobní zařízení, která jsou přesně kalibrována, lze znalost
kalibračních parametrů a reálných nastavení stroje použít pro simulaci, která poslouží jako
vstup pro analýzu spolehlivosti.
Příklad níže ukazuje korelační matici pro sazební stroj a dobu realizace jednotlivých částí. Tato
korelace byla odhadnuta na základě předchozích procesů a informuje o tomto konkrétním
procesu, přestože výroba ještě nezačala, máme k dispozici odhady parametrů a charakteristik
variability. Pomocí nového modulu „Návrh simulace“ jsou pomocí teoretických rozdělení
simulovány hodnoty všech proměnných se zachováním jejich korelací. Uživatel má možnost
zvolit konkrétní rozdělení pro každou proměnnou (včetně specifikace jeho parametrů).
Výsledná data jsou znázorněna v korelačním grafu, směrnice přímky je -1, s rostoucím časem
klesá počet chyb. Simulace procesu a jeho následná analýza mohou být použity pro optimalizaci
nastavení stroje ještě před započetím vlastní práce.
-7-

Dalším příkladem je studie Quality by Design federálního úřadu pro potravinářské a
farmaceutické produkty (FDA) v USA, který používá vícerozměrné simulace pro stanovení
výsledků ve farmaceutických výrobních procesech.
Coxovy modely proporcionálních rizik
(Všechny produkty kromě STATISTICA Base)
Kompletní a vysoce škálovatelný modul Coxova modelu byl přidán do verze 10. Nový modul
zahrnuje:
 Aplikace analýzy přežití z údajů pacientů ze zdravotnických studií.
 Analýza odchodu zákazníků (modelování ztráty zákazníka).
 Modelování a selhání mechanických částí (spolehlivost).
Coxovy modely proporcionálního rizika umožňují pružné zpracování cenzorovaných dat,
vytvoření kategorických prediktorů a schémat obsahujících interakcích nebo hierarchické
efekty. Modul využívá techniky pro výstavbu modelu jako jsou např. kroková regrese anebo
metoda best subsets. K nasazení funkcí přežití pro nová data slouží modul STATISTICA Rapid
Deployment.
-8-
Lepší škálovatelnost a vyšší rychlost u různých typů popisných statistik
(Všechny produkty kromě STATISTICA Base)
Ve výpočtech různých popisných statistik byla provedena četná vylepšení, která zvyšují rychlost
zpracování u velkých objemů dat. Příkladem je paralelní zpracování popisných statistik pro
analýzu po skupinách, včetně výpočtů percentilů, které má za následek velmi rychlé zpracování i
pro velké objemy dat.
DATA MINING
Graf výtěžnosti
(STATISTICA Data Miner)
Nyní je možné grafy výtěžnosti (Profit charts) vytvářet pomocí nástroje Rapid Deployment. Graf
výtěžnosti vyjadřuje vztah nákladů a odhadovaného zisku pro daný model. Lze jej využít pro
široké spektrum dataminingových aplikací jako jeden z nástrojů pro vyhodnocování modelů.
Křivka ROC
(STATISTICA Data Miner)
Křivky ROC je nyní možné vytvářet pomocí nástroje Rapid Deployment. Jde o další z užitečných
nástrojů pro vyhodnocení kvality modelů pomocí vizualizace míry správně a chybně určených
pozitivních odezev. Křivky ROC mají uplatnění v mnoha různých oblastech jako je medicína,
kontrola kvality a psychologie.
Poznámka: Zajímavé je, že křivky ROC májí své kořeny v raných dobách radarové technologie, kdy byly využívány
během druhé světové války. Operátoři radarů byli hodnoceni na základě jejich schopnosti odlišit "správné" signály
(letadla) od těch "falešných" (ptáci). ROC křivky jsou dnes běžně používány v data miningu ze stejných důvodů.
Ještě lepší škálovatelnost a vyšší rychlost rozličných prediktivních modelovacích
metod
(STATISTICA Data Miner)
Dalšího významného zvýšení výkonu bylo dosaženo pro různé prediktivní metody modelování a
při práci s velmi velkými soubory dat. Například, všechna modelování prostřednictvím
zobecněných lineárních modelů (např. logistická regrese) nyní využívají vícejádrové procesory a
-9-
dokáží zpracovat velké objemy dat. Podobné škálovatelnosti a významného nárůstu výkonu
bylo dosaženo pro C&RT a CHAID algoritmy.
Text Mining
(STATISTICA Text Miner)
V reakci na současné trendy získávání informací z textu, kde enormně vzrůstají velkosti
zkoumaných souborů dat, byl výpočetní algoritmus STATISTICA Text Mineru podstatně
přepracován a optimalizován pro zvýšení škálovatelnosti a výkonu. Vnitřní řídící procesy
databáze byly přepracovány a modul je nyní schopen velmi efektivně zpracovávat extrémně
velké soubory dat s využitím paralelních výpočtů (multithreading).
Java and nasazení C#
(Nasazení STATISTICA Data Miner – In-Place Database)
STATISTICA 10 nabízí dvě nové možnosti nasazení: Java and C#. Druhá z možností také zahrnuje
schopnost generovat kód v jazyku C# v takové podobě, že jej lze přímo začlenit do SQL serveru
jako uživatelskou funkci, kterou lze následně využít ke skórování modelu přímo uvnitř databáze.
Java kód může být využit podobným způsobem v rámci uživatelských funkcí serveru Oracle.
Tato funkcionalita vyžaduje dodatečnou licenci. Hlavním přínosem této metody nasazení je
nárůst výkonnosti; zpracování uvnitř databáze může být vykonáno řádově rychleji, ve srovnání s
externím zpracováním.
- 10 -
STATISTICA Scorecard
(Produkt STATISTICA Scorecard)
Průvodce výstavbou skórovacích karet je nyní plně začleněn do řešení platformy STATISTICA a
zahrnuje řadu vylepšení.
STATISTICA Scorecard je specializované řešení pro vývoj, ověření a monitorování skórovacích
karet včetně kroků pro výběr proměnných, kategorizaci prediktorů a výstavbu skórkarty, volby
cut-off bodů, reject inference a ověření stability populace.
Program umožňuje vytvářet tradiční skórovací karty založené na regresi a nabízí možnost
vzájemného porovnání kvality skórovacích karet jakož i skóringových modelech založených na
data miningu (prediktivní modely). Scorecard také podporuje rozličné specializované analýzy a
grafické průzkumné nástroje pro skóring nových případů a ověření přesnosti modelů. Více
informací najdete na adrese http://www.statsoft.com/solutions/credit-scoring/.
STATISTICA ENTERPRISE
Ribbon Bar
Navigace v aplikaci STATISTICA 10 Enterprise Manager je promocí nového Ribbon baru snazší a
efektivnější.
Konfigurace dat
Konfigurace databázových připojení je nyní dostupná jako volba ve STATISTICA System View,
umožňující uživateli procházet datové konfigurace v rámci uživatelského rozhraní STATISTICA,
bez nutnosti použití modulu Enterprise Manager.
- 11 -
Migrace databáze
Nástroj Migrace databáze je upraven pro databázové schéma STATISTICA 10 Enterprise a je nyní
dostupný přímo v rámci STATISTICA Enterprise. Může být spouštěn administrátorem pro
kopírování konfigurací z jedné databáze do jiné.
Sdílení maker ve STATISTICA Enterprise
STATISTICA 10 umožňuje snadněji publikovat makra ve STATISTICA Enterprise. Jedná se o
jednodušší metodu, jak vytvořit SVB (STATISTICA Visual Basic) konfiguraci analýzy a lze použít
nejen SVB, ale také R skripty. Pro zpřístupnění této volby se po vytvoření makra ve STATISTICE
přepněte do záložky Enterprise a klikněte na Deploy Macro.
Jména konfigurací Enterprise
Enterprise Manager nyní nabízí vyšší flexibilitu při formulaci jmen konfigurací STATISTICA
Enterprise. Jména musí být unikátní pouze v rámci stejné složky v System View.
STATISTICA Enterprise Server:
Automatická aktualizace grafů definovaných analýz
Nyní jsou automaticky obnovovány i QC analýzy, které běží prostřednictvím webového
prohlížeče; uživatel může nastavit interval obnovení přímo v prohlížeči nebo může použít ruční
obnovení. Pro aktualizaci obrázků v grafech jsou použity nejnovější webové technologie bez
nutnosti znovu načítat webovou stránku (to znamená bez “problikávání” stánky).
- 12 -
STATISTICA Enterprise Server: Průzkumník grafů pro kontrolu kvality
Grafy pro kontrolu kvality lze nyní interaktivně upravovat i v prostředí webového prohlížeče.
Přiřazení Příčin, akcí a komentářů (stejně tak i akce zahrnout/vyloučit) lze nyní také provádět ve
webovém prohlížeči. Jsou použity nejnovější webové technologie pro aktualizaci obrázků v
grafech bez nutnosti znovu načítat webovou stránku (to znamená bez “problikávání” stánky).
STATISTICA MSPC Online
(Produkt STATISTICA MSPC Online)
V programu STATISTICA 10 umožňuje volba STATISTICA MSPC Online snadněji nasadit modely
vícerozměrných analýz (PCA, PLS) do prostředí STATISTICA Enterprise, jejich aktualizaci
v reálném čase, monitorování a interaktivní drill-down vedoucí k detailním výsledkům, jakými
jsou komponentní skóre, grafy příspěvků jednotlivých proměnných a grafy jednotlivých
proměnných.
- 13 -
STATISTICA Web Data Entry
(Produkt STATISTICA Web Data Entry)
STATISTICA Web Data Entry umožňuje uživateli nadefinovat si obrazovku pro vkládání dat přes
webový prohlížeč a uchování/práci s těmito daty v databázi STATISTICA Enterprise.
STATISTICA 10 Web Data Entry zahrnuje řadu vylepšení, jakými jsou:
 Snadná konfigurace “požadovaných polí”.
 Vylepšená navigace.
 Možnost rozdělení polí do sekcí pro snazší vkládání dat.
 Možnost vyhledávat historické vzorky s použitím libovolného textového popisku vzorku.
 Vylepšení možností získávání dat pro analýzy pomocí databázových dotazů.
STATISTICA Live Score
(Produkt STATISTICA Live Score)
Společně s produktem STATISTICA 10 vyšla také nová a vylepšená verze STATISTICA Live Score.
Jedná se o serverový software STATISTICA v rámci platformy STATISTICA pro analýzu dat a
datamining. Data jsou agregována, čištěna a modely jsou trénovány a ověřovány s využitím
softwaru STATISTICA Data Miner. Jakmile jsou modely ověřeny, jsou nasazeny na server
STATISTICA Live Score. STATISTICA Live Score nabízí podporu paralelních výpočtů, výkonný a na
platformě nezávislý nástroj pro skórování dat v obchodní oblasti. Několik příkladů využití
STATISTICA Live Score:
 Poskytování kreditních skórovacích karet pro podporu aplikací zákaznických služeb
(např. systémy call center a webových aplikací),
 Segmentace zákazníků, up-sell-cross-sell, identifikace klientů, kteří chtějí odejít, (churn
analysis) pro zákaznické služby a obchodní zástupce,
 Zajištění proaktivní detekce podvodů pro analytiky.
- 14 -
STATISTICA Scorecard
(Produkt STATISTICA Scorecard)
STATISTICA Scorecard je specializované řešení pro vývoj, hodnocená a monitorování
skórovacích karet včetně kroků pro výběr proměnných, kategorizace prediktorů a výstavbu
skórkarty, volby cut-off bodů, reject inference a ověření stability populace.
NÁPOVĚDA a DOKUMENTACE
(Všechny produkty)
Příklady objektového modelu STATISTICA
Do položky „Nápověda“ byly přidány stovky příkladů pro STATISTICA Visual Basic.
- 15 -

Podobné dokumenty

Jak mravenčí kolonie dobývají znalosti

Jak mravenčí kolonie dobývají znalosti Ant je třídou reprezentující jedince mravenčí kolonie a jejich kandidátní pravidla. Metody související přímo s budováním či prořezáváním klasifikačních pravidel jsou volány prostřednictvím této tříd...

Více

Leták ke stažení

Leták ke stažení položky jsou snadno přístupné a související nástroje rychle dosažitelné. Původní nabídky a panely jsou stále k dispozici a uživatel může kdykoli přepnout mezi těmito dvěma prostředími.

Více

Data mining

Data mining Využívá metody um lé inteligence, metody založené na strojovém u ení Využívá metod shlukové analýzy Využívá metod modelování a automatické tvorby modelu Využívá širokou škálu klasifikátor

Více

Využití dataminingových metod v praxi

Využití dataminingových metod v praxi nemáme dostatečně silné argumenty, kterými bychom přesvědčili vedení firmy nebo instituce o vhodnosti implementace modelů vytvořených pomocí těchto moderních metod. Přesto jejich oblíbenost stále r...

Více

S velkou chutí do sezony

S velkou chutí do sezony v klubu. K ničemu jinému ho to neopravňuje. Je ale velmi obtížné kontrolovat, zda dodržuje amatérský status,“ říká lektor. Profesionál, to ale není jen pouhý učitel švihu. „Naší snahou je prezent...

Více

postup modelování v Data Miner Recipe

postup modelování v Data Miner Recipe splatit tento úvěr. O konkrétním využití v oblasti průmyslu si můžete přečíst např. v případové studii Unipetrol RPA, kde neuronová síť odhaduje složení vyráběného produktu. Cílovou proměnnou v his...

Více

Zjednodušený návod k programu Atlas DMT

Zjednodušený návod k programu Atlas DMT stavby byl „vodotěsný“. Po všech úpravách lze hotový DMT dále upravovat v programu Atlas, vytvářet 3D pohledy a výkresy. Nebo jej lze exportovat do formátu DXF, kde se bude jevit jako drátový model...

Více

MagnusWeb

MagnusWeb Nástroj pro práci se skupinami, který umožňuje dle zadaných kritérií, což může být jákakoli položka databáze, zobrazit skupinu subjektů a vybrané informace o nich. Díky tomuto modulu budete mít vžd...

Více

číslo 2 - Vítejte na stránkách Senior Tennis Clubu

číslo 2 - Vítejte na stránkách Senior Tennis Clubu To jsem nezažil, ale občas mi vadí takové ty blbé kecy. Někdo to moc prožívá a třeba je to i dobrý hráč, ale pořád si potřebuje něco dokazovat. Všichni na kurtu i okolo vědí, že jsi si v právě hran...

Více