Co je Hadoop

Transkript

Co je Hadoop
3.12.2013
Hadoop
a
HDFS
Bc. Milan Nikl
Co je Hadoop:
•
•
•
•
www.company.com
Open-Source Framework
Vyvíjený Apache Software Foundation
Pro ukládání a zpracovávání velkých
objemů dat
Big Data – trojrozměrný růst dat (3V)
•
•
•
Objem (Volume) – množství dat se zvyšuje
Typ (Variety) – roste různorodost
Rychlost (Velocity) – zrychluje se vytváření
dat – roste potřeba rychlé analýzy (real time)
Vývoj Hadoopu:
www.company.com
•
•
•
•
Vyvíjen od r. 2006
04.09.2007 – verze 0.14.1
27.12.2011 – verze 1.0.0
15.10.2013 – verze 2.2.0
•
•
Odvozený od Google File System (GFS)
Založený na programovacím modelu
MapReduce
Struktura Hadoopu:
www.company.com
Komponenty Hadoopu:
1. MapReduce - přehled
•
•
•
•
•
www.company.com
Framework zajišťující distribuci a
paralelizaci úloh
Dělí komplexní úlohy (Job) na dílčí (Task)
Dále obstarává veškerou komunikaci a
datové přenosy
Řeší redundantní ukládání aktuálně
zpracovávaných dat a s tím související
problematiku přidávání a odebírání uzlů
Sort dat v objemu PB za pár hodin
Komponenty Hadoopu:
1. MapReduce - princip
•
•
•
•
www.company.com
Snaha je dostat výpočet co nejblíže
datům – minimalizuje zbytečné přenosy
JobTracker (Master)
•
•
Přijímá úkoly od klienta
Rozděluje tasky, monitoruje, obnovuje
TaskTracker (Slave)
•
•
vykoná zadanou úlohu a vrátí odpověď
Každý task se spouští na nové JVM
Z jednotlivých odpovědí slave uzlů se
sestavuje odpověď na původní dotaz
Komponenty Hadoopu:
1. MapReduce - princip
•
•
•
www.company.com
Uživatel řeší pouze co se s daty děje,
nikoli jak se to dělá. Tedy:
Funkci Map()
•
•
Vybere z dat relevantní údaje
Dvojice <Klíč, hodnota>
Funkci Reduce()
•
•
•
Nad vybranými údaji provádí nějaký výpočet
Obvykle nějaká forma analýzy, statistiky, atd.
Vrátí opět <Klíč, hodnota> ale jiný typ – např.
výsledek statistiky
Komponenty Hadoopu:
2. HDFS - vlastnosti
•
•
•
•
•
•
•
www.company.com
Distribuovaný, škálovatelný souborový
systém
Vysoce odolný proti chybám
Velká míra redundance – nevyžaduje
RAID
Navržený pro použití na běžném HW
Naprogramovaný v Javě
Využívá TCP/IP pro komunikaci
Pro práci vzdálené volání procedur
(RPC)
Komponenty Hadoopu:
2. HDFS - struktura
www.company.com
Komponenty Hadoopu:
2. HDFS - struktura
•
•
www.company.com
Řídící prvek - Namenode (Master)
•
•
•
•
Spravuje FS namespace, mapuje bloky 64MB
Řídí požadavky klientů
Otevření, uzavření, přejmenování souboru
Obsahuje všechna metadata
Pracující prvky – Datanode (Slave)
•
•
•
•
•
Zařizuje práci s bloky podle instrukcí
Čtení, zápis, vytváření a mazání bloků
Zajišťuje replikaci bloků
Standard jsou 3 repliky na blok
HeartBeat, BlockReport
Komponenty Hadoopu:
2. HDFS – Bezpečnost
•
•
•
•
www.company.com
Namenode zaznamenává všechny
změny do EditLogu
•
Vytváření souborů, ale i změna replikace
Popis celého FS namespace uložen v
souboru FsImage na Namenode
Checkpoint
•
•
•
•
Namenode načte EditLog a FsImage
Provede změny popsané v EditLogu
Vytvoří nové verze souborů
Zatím pouze při startu
Snapshoty
Komponenty Hadoopu:
2. HDFS – omezení a výhody
•
•
•
•
•
•
www.company.com
Nejedná se o klasický FS – fyzický mount
pod OS není možný
Jde o použití FUSE
Zaměřený na čtení dat – u většiny se
předpokládá, že se nebudou měnit
Nevhodný pro potřeby vícenásobného
současného zápisu souborů
/trash – možnost obnovení souborů (6h)
Používá Java API, ale pomocí Thrift API
lze používat i v jiných jazycích
Komponenty Hadoopu:
3. Hive
•
•
•
•
•
www.company.com
Použití SQL-like dotazů nad daty v HDFS
Vlastní jazyk HQL
Převádí dotazy na MapReduce úlohy
Oproti SQL značně omezen (pouze čtení,
vyšší latence)
Vytvořen ve Facebooku
Komponenty Hadoopu:
4. Pig
•
•
•
•
www.company.com
Vyvinut společností Yahoo!
Pro jednoduché analyzování rozsáhlých
dat – paralelizaci neřeší uživatel
Používá vlastní jazyk Pig Latin
•
•
•
Zaměřen na jednoduchost psaní kódu
Struktura kódu umožňuje dobrou čitelnost,
udržovatelnost a snadnou optimalizaci
Snadno rozšiřitelný
Převádí Pig Latin na MapReduce úlohy
Komponenty Hadoopu:
5. Mahout
•
•
Knihovna pro strojové učení
Základní typy úloh:
•
•
•
•
www.company.com
Recommendation mining – analyzuje
chování uživatele a provádí doporučení
Clustering – seskupuje obsahově podobné
dokumenty
Klasifikace neoznačených dokumentů
Frequent itemset mining – analyzuje výskyt
určitých objektů – které položky se nejčastěji
vyskytují společně – např. nákupní košík
Komponenty Hadoopu:
6. Cassandra
•
•
•
•
•
•
•
•
www.company.com
Alternativa k HDFS
NoSQL databázový systém
Využívá decentralizaci a replikaci dat
Odolnost proti poruchám a výpadkům
Výkonný, přesto přizpůsobitelný systém
Adaptabilní – snadná rozšiřitelnost
V praxi používá např. Ebay, Twitter
Největší Cluster 300 TB na 400 strojích
Komponenty Hadoopu:
7. HBase
•
•
•
•
•
www.company.com
Sloupcově orientovaný přístup
Vhodné pro náhodný Read/Write přístup
k Big Datům
Nadstavba nad HDFS, která umožňuje
práci s rozsáhlými tabulkami (mld x mil)
Není relační databázový systém, ani
nepodporuje SQL
Postavena na Javě, psána podobně jako
MapReduce
Podporované FS:
•
•
•
•
•
www.company.com
Amazon S3 filesystem – používané u
clusterů založených na Amazon Cloudu
FTP file servery – ukládání dat na
vzdálené servery
HTTP a HTTPS file systémy – pouze pro
čtení
Teoreticky provozovatelný na jakémkoli
distribuovaném FS podporujícím
file:// URL
Hrozí ale ztráta výkonnosti
Významní uživatelé:
•
•
•
•
www.company.com
Ebay
•
532 Nodů v clusteru, 8x532 jader, 5,3 PB
Facebook
•
•
1100 Nodů, 8800 jader, 12 PB
300 Nodů, 2400 jader, 3 PB
Spotify
•
690 Nodů, 8280 jader, 28 PB
Yahoo!
•
•
•
Přes 40000 počítačů
4500 Nodů, 36000 jader, 18 PB
Přes 60% tvoří Pig
Použití Hadoop:
•
•
•
•
•
www.company.com
Nativní řešení pouze pro linuxové
distribuce (nejčastěji Red Hat, CentOS)
Na windows přes Cygwin
Příp. přes WMware
Základní verze od ASF
X
Enterprise řešení různých firem (IBM,
HortonWorks, Cloudera, Oracle, …)
Závěrem:
Děkuji za pozornost.
www.company.com
Zdroje:
•
•
•
•
•
www.company.com
http://hadoop.apache.org/
http://www.linuxexpres.cz/software/kdyzse-rekne-hadoop
http://www.systemonline.cz/clanky/bigdata.htm
http://www01.ibm.com/software/data/infosphere/bigi
nsights/
http://en.wikipedia.org/wiki/Hadoop a
další odkazy zde nalezené

Podobné dokumenty

DIVIZE SOLUTION SALES AND DELIVERY

DIVIZE SOLUTION SALES AND DELIVERY Strategie cloudových služeb Možnosti nasazení cloudových služeb v rámci firmy Spektrum dnes dostupných cloudových služeb nabízí obrovský potenciál pro zvýšení efektivity IT služeb koncovým uživatel...

Více

Dostupné škálovateľné riešenia pre spracovanie veľkého objemu

Dostupné škálovateľné riešenia pre spracovanie veľkého objemu obsahujúcim už dané zmeny. GFS bol navrhnutý tak, aby údaje do neho nahraté už neboli nikdy vymazané (toto je možné dosiahnuť aj pridaním časových značiek k súborom), pretože podľa Google je jednod...

Více

stáhout - Sophia Solutions

stáhout - Sophia Solutions které obsahují velké datové sady. Cassandra – nejedná se o souborový systém, ale o NoSQL (klíč-hodnota) úložiště. Cassandra je vhodnou alternativou k HDFS v aplikacích, které vyžadují rychlý přístu...

Více

Licenční modely TSM křížem krážem

Licenční modely TSM křížem krážem Licence je dle množství dat v záloze (obecné pravidlo zní: zálohovaná data x 3 s uvažovanou deduplikací) Počet dat v záloze: 3 x 2 TB = 6TB Cena za 1 TB: 2377 EUR Cena za licence celkem = 2377 x 6 ...

Více

Specifikace Název: Capybaras vs. Crocodiles Jazyk: C# Platforma

Specifikace Název: Capybaras vs. Crocodiles Jazyk: C# Platforma Specifikace: Hra ve Windows na námět Worms (2D) s pár úpravami. Stále se bude jedna o tahovou bitvu „červíků“ různých týmů, ale budou rozděleni do dvou frakcí, přibude například boj o území v podob...

Více

Predmluva - Zborník konferencie ITAT 2016

Predmluva - Zborník konferencie ITAT 2016 boty předzpracováno a reprezentováno tak, aby v něm byla možná rychlá navigace. Pro tento účel se v UT04 reprezentuje prostředı́ jako orientovaný graf navigačnı́ch bodů. Mı́sta, která...

Více