Efektivita antispamových nástrojů v komplexním řešení

Transkript

Efektivita antispamových nástrojů v komplexním řešení
Česká zemědělská univerzita v Praze
Provozně ekonomická fakulta
Doktorská vědecká konference
4. února 2013
T
T
THINK TOGETHER
Think Together 2013
Efektivita antispamových nástrojů v komplexním řešení
Efectivity of antispam tools in a complex solution
Alexander Vasilenko
226
Abstrakt
Úvod do problematiky
Spam tvoří velkou část emailové komunikace, dle různých
zdrojů lze kvalifikovaně odhadnout, že z 5 odeslaných zpráv
jsou 4 nevyžádané. Procentní podíl v emailové schránce se liší
dle způsobu propagace emailové adresy na veřejnost. Pokud
emailovou adresu nebudeme zveřejňovat, jsme do jisté míry
chránění, ale pro firmu, která je na emailové komunikaci
závislá není možné skrývat své kontakty. Emailové adresy
bohužel kromě zákazníků shromažďují i spameři.
V boji s nevyžádanými zprávami máme na výběr z mnoha
nástrojů. Ne všechny přinášejí pouze pozitivní efekt. Pokud
je použit nevhodný nástroj, můžeme poškodit komunikaci
s klienty.
Dle MAAWG, kaspersky.com, projecthoneypot a dalších tvoří
cca 80% celkového objemu emailové komunikace. Z každých
odeslaných 5 emailových zpráv je jedna zpráva ham a 4 jsou
spam [1].
• Ham – očekávaná nebo vyžádaná zpráva
• Spam – nevyžádaná zpráva, zpráva, která je připravena
pro velké množství příjemců. Obvykle komerčního
charakteru. Může však představovat i bezpečnostní riziko
– malware, scam [1].
Klíčová slova
Spam, ham, antispam, nástroj, filtrace
Abstract
Spam is a big trouble for electronic communication. Number of
spam messages in various mailbox depends on communication
strategy – how we are presenting email address to public.
This is a big issue for business companies, because the
communication through the internet and email is a popular
method how to send text to another person or business. We
can use many antispam tools, but some of them haven’t only
positive effect.
Key Words
Procentní podíl spamu se v průběhu času mění. Ovlivňují
jej aktivity směřující k potlačení nelegálních sítí ovládaných
počítačů – tzv. botnet [2]. Tato síť počítačů je vytvořená
za pomoci malware, tedy škodlivého kódu [2], který po
proniknutí počítač zpřístupní pro účely třetí osoby. Toto riziko
je velmi vysoké, neboť funkční botnet je velmi výnosným [3].
Jako příklad lze uvést botnet Rustock, který byl aktivní v letech
2006 – 2011. Ovládal 150 000 počítačů a byl schopen generovat
okolo 30 miliard nevyžádaných email denně [3],[4],[5].
Tato výpočetní síla je schopná provádět kromě rozesílání
spamu také další aktivity – sdílená kapacita pro výpočty,
použitelné pro prolamování šifrování, DDoS útok na vybranou
IP adresu, shromažďování emailových adres, a další [3],[4],[5].
Velká část malware se šíří pomocí emailu, a také vzhledem
k velkým propočteným ztrátám je nutné se této problematice i
nadále věnovat a podrobovat ji dalšímu zkoumání.
Klíčovou otázkou je, proč vlastně je spam stále i po mnoha letech
existence tak rozšířený. Cílem článku je analyzovat úspěšnost
antispamových filtrů jako celku, tedy při komplexním nasazení.
Spam, ham, antispam, tool, filtration
Think Together 2013
Dostupné z: http://www.thinktogether.cz/
Postup řešení
Cílem zkoumání byla analýza současného stavu antispamových
řešení cílených k nasazení v prostředí malých firem. Probíhal
dlouhodobý sběr emailových zpráv z různých zdrojů (viz
níže), při absenci antispamového software. Zprávy byly
podrobeny obsahové analýze a provedena analýza účinnosti
několika běžných antispamových opatření.
Vstupní data
Pro analýzu spamu je nutné mít dobrý zdroj těchto zpráv, který
poslouží jako nosná základna analýzy účinnosti antispamových
nástrojů. Výzkum byl zásobován daty z několika zdrojů.
Vasilenko.cz – osobní doména. Doména existuje již sedm let a
je aktivně využívána v komunikaci. Nachází se zde zejména
rozšiřující materiály pro výuku. Na samotných stránkách
email uveden není. Tato skutečnost je i pro další analýzu velmi
důležitá a její vliv bude zmíněn dále.
Malestranky.cz – jsou doménou fungující necelé dva roky.
Doména funguje jako fiktivní poskytovatel hostingu a
webdesignu pro účely výuky. Není založen žádný email a ani
na stránkách není zveřejněn.
Jablickov.cz – jsou stránky mateřského a otcovského centra
na Praze 10. Stránky prošly před dvěma lety částečným
redesignem a ve stejné době byly zřízeny emailové adresy
s touto doménou. Emailové adresy jsou využívány a část jich
také na stránkách zveřejněna dle uvážení uživatelů.
Nespamu.cz – doména zřízena pro účely výzkumu. Obsahovala
obecné informace o fiktivní firmě a zejména skryté emailové
adresy. Ty byly dostupné pouze případným spambotům.
ISBN: 978-80-213-2379-7
Project HoneyPot je zaměřen na analýzu harvestorů či
crawlerů, což je software procházející webové prezentace a
takto získané emailové adresy předává do spamlistů. Odtud
byl zajištěn přístup k několik vzorkům zpráv o rozsahu stovek
emailů.
Abusix.com – německá firma po podepsání NDA umožnila
přístup k nevyžádaným zprávám v německém jazyce.
Spamfeed probíhal po dobu šesti měsíců tempem zhruba
10 000 zpráv denně. Bohužel formát zpráv se lišil a tak nebylo
možné provést detailní analýzu.
Antispamové postupy
Existuje několik základních antispamových nástrojů, které
se snaží zajistit, aby emailové schránky uživatelů nebyly
přeplněné nevyžádanou poštou. Jejich účinnosti jsou však
různé a není vhodné je nasazovat všechny najednou bez
zvážení jejich důsledků.
Sofistikované nástroje či komplexní řešení z těchto základních
nástrojů vycházejí a pouze je vhodně kombinují do jednoho
vyváženého celku. Nicméně jejich efektivitu může ovlivnit
také způsob jejich nasazení. Příkladem mohou být dva
obecní úřady v rámci jednoho bývalého okresu. Jejich jména
nebylo umožněno zveřejnit. Na jednom dosahuje procento
nevyžádaných zpráv ve schránkách uživatelů cca 10% na
druhém cca 45%. Tento rozdíl je způsobem právě nevhodným
nasazením a konfigurací antispamových nástrojů.
Rozdělení antispamových opatření
Pro účely zkoumání byly nástroje kategorizovány do několika
skupin, které lépe umožní pochopit možnosti a využití dílčích
řešení.
228
• Maskování
• Obstrukce
• Filtrace
Chybí aktivní působení proti rozesílatelům nevyžádaných
zpráv. Toto je klíčové pro pochopení celé této problematiky.
V současnosti je spam stále velmi zastoupený právě z důvodu
absence účinného postupu přímo proti zdroji. Lze to přirovnat
k symptomatické léčbě – u bolestí hlavy způsobených migrénou
se léčí její příznaky – tedy bolest hlavy, ne však příčina. Stejně
tak antispamové nástroje jsou pouze v roli působení na vnější
příznaky.
Aktivní postup má velmi povrchní účinnost, neboť v případě
botnetů je zde mnoho překážet. Vzhledem k mnohastupňové
architektuře botnetu není prakticky možné detekovat primární
ovládací prvek. Dále jednotlivé uzly leží na územní mnoha
států s odlišnou legislativou. Zde je v přímém rozporu snaha
o potlačení nežádoucích aktivit se svobodou působení na
internetu.
Maskování
Hlavním nástrojem pro maskování emailových adres je
tzv. address munging (jedna z preventivních metod) [6].
V překladu lze přeložit jako Individuálně reverzibilní zmatení
(dále jako IRZ). Tento postup definuje několik možností jak
upravit emailovou adresu tak, aby je nebylo možné strojově
zpracovat a použít pro rozesílání spamu.
Mezi tyto techniky patří přidání textového řetězce, nahrazení
speciálních znaků textem nebo reverzní zápis například
domény. Takto pozměněná adresa nefunguje a je nutné ji
upravit. Ukázky změny jsou uvedeny zde:
ISBN: 978-80-213-2379-7
[email protected]
[email protected]
Email(at)domena(dot)cz
Všechny tyto postupy jsou proti harvestorům efektivní, pokud
se použije zápis anglicky tak, jak je zde uveden, objevuje se
software, který je proti tomuto řešení imunní. Klíčové je právě
použití anglických přepisů, což je běžné u mnoha webových
stránek. Tato možnost je harvestorem předpokládána a
upravený postup analýzy stránky umožňuje tento postup
znehodnotit. Na doméně nespamu.cz byly adresy ve
dvojím zápise – česky a anglicky. Po uplynutí roku a půl již
v doménovém koši končilo určité množství spamových zpráv
– ale pouze pro schránky zapsané anglicky.
Jinou možností je využití obrázku pro zobrazení emailové
adresy. Tento způsob je využíván například právě na ČZU.
Obrázek č. 1: Zobrazení emailové adresy pomocí obrázku
Pokročilé harvestory však obsahují také OCR software, jsou
tudíž schopny určité procento adres načíst. Tento postup byl
ověřen několik spamových zpráv na takto zobrazenou adresu
došlo. Uživatel také nemůže adresu zkopírovat, musí ji přepsat,
což může vést k chybám a problémům s doručením.
Poslední hlavní metodou, jak maskovat adresy je použití jiného
kódování či Javascriptu pro zobrazení adres. Tyto metody
nebyly testovány.
Zhodnocení IRZ
Efekt těchto postupů je sice kladný, bohužel stejně jako u jiných
opatření platí, že pokud jsou široce používány, dochází k jejich
obejití. Prozatím lze říci, že přepis adres pomocí českého
229
jazyka je funkční. Harvestory se zaměřují na majoritní jazyky a
je jasné, že český jazyk mezi nimi není.
Negativem je však značné omezení komfortu pro uživatele
stránek. IRZ bylo nasazeno na stránkách jablickov.cz během
doby registrace rodičů a dětí do nového školního roku.
Opatření bylo staženo po týdnu na základě stížností rodičů –
jejich zpětné úpravy nebyly vždy správné a část zpráv končila
v doménovém koši (celkem 42), což nebylo akceptovatelné.
Lze tedy na základě dostupných dat říci, že IRZ je zejména při
použití českého jazyka účinné, avšak je velmi důležité zvážit
negativní dopad na uživatele a potencionální riziko ztráty
benefitní akce provedené na webové stránce.
Obstrukce
Obstrukční akce nejsou zaměřeny na kladení překážek
v komunikaci, ale spíše na důraz pro dodržování RFC
dokumentů – tedy přesné dodržení norem v emailové
korespondenci. Klíčem k principu fungování je pochopení
procesu odeslání spamové zprávy. Zde dochází ke
zjednodušení či obejití části pravidel a nastavení. Zprávy je
tak možné těmito procesy odfiltrovat. Byť opět s částečnými
negativními efekty [6].
Filtrace
Filtrace je poslední způsob obrany. Jedná se o analýzu obsahu
zprávy či hlavičky emailové zprávy. Na základě pravidel je
pak zpráva ohodnocena a zařazena do tří kategorií:
• Ham
• Pravděpodobně spam
• Spam
ISBN: 978-80-213-2379-7
Prostřední kategorie je pro zprávu, u níž existuje podezření
na spam, ale není zde jistota, je tedy předána uživateli ke
zhodnocení. Ten svým rozhodnutím upřesňuje nastavení
filtrace.
Filtraci lze rozdělit na dvě skupiny:
• Učící se
• Statistickou
Statistická filtrace
Statistické metody filtrace fungují na principu černých
seznamů – blacklistů (dále BL) [6]. BL může být aplikován
na IP adresu nebo doménu odesílatele. Pokud je při příjmu
zprávy zjištěno, že IP adresa nebo doména je na dostupné
BL, je zpráva zahozena jako spam. Toto filtrování je rychlé,
nicméně jeho účinnost je diskutabilní.
V úvodu bylo zjištěno na příkladu boletu Rustock, že spamové
sítě mají stovky tisíc počítačů na velkém geografickém území.
Toto zjištění je klíčové právě pro efektivitu BL pro IP adresu,
které tímto ztrácí účinnost. Zdrojů spamu – jednotlivých
počítačů, je velké množství a jsou obvykle schovány v rámci
lokální sítě internetového poskytovatele (ISP). Pomocí služby
NAT (network address translation) je pak za jedinou veřejnou
IP adresou schováno několik set či tisíc počítačů. V případě,
že jeden z nich bude zachycen na BL, bude zakázáno přijímat
emaily od IP adresy poskytovatele, tudíž bude ovlivněno velké
množství „čistých“ uživatelů.
Druhým způsobem je BL zaměřený na doménové jméno.
Tento způsob již není efektivní. Vzhledem k tomu, že lze
lehce zfalšovat adresu odesílatele, je tento způsob hodnocení
spamovosti zpráv neefektivní a lze ho označit za nebezpečný. I
230
ČZU se již setkala s tím, že byla zavedena na blacklist a výmaz
z něj je časově náročný.
Analýza hlavičky zprávy je jinou metodou statistického
hodnocení. V hlavičce zprávy je mnoho údajů, které mohou
sloužit pro zhodnocení spamovosti zprávy. Jednoduchým
úkonem je například porovnání data odeslání zprávy s datem
na emailovém serveru. Část zpráv je datově chybně označena
– záměr spamerů (v angličtině spammer – zde počeštěno)
[7], jak dostat zprávu na první místo v přijatých zprávách.
1,2% zachycených spamových zpráv jsou datována „do
budoucnosti“ Extrémní náskok měla zpráva s datem odeslání
12.6.2016 zachycena dne 14.3.2012.
Z hlediska časového lze bodovat také zprávy, které dojdou
v určitou denní dobu. Je více pravděpodobné, že zpráva
obdržená v ranních hodinách, například 3:40, bude spíše
spam než ham. Tento předpoklad platí pro komunikaci
v české republice. Při komunikaci se zahraničím je toto
pravidlo použitelné pro přepočtu doby odeslání na místní čas
odesílatele.
Zhodnocení efektivity blacklistu
Black list se na vybraných emailových schránkách neosvědčil,
byl sice schopen odstranit část spamových zpráv, ale také jeho
působením bylo zahozeno velké procento hamu. Z tohoto
důvodu je nutné jeho nasazení velmi zvážit a při stanovení vah
pro jednotlivé metody by měl být brán pouze jako pomocný
nástroj.
Zhodnocení efektivity statistického zkoumání hlavičky
zprávy
Tento nástroj, pokud abstrahujeme od „jasných“ spamů
(zmiňovaná zpráva z budoucnosti), lze obsah hlavičky použít
ISBN: 978-80-213-2379-7
jako pomocné kriterium pro určení spamovosti zprávy. Na
základě dat z hlavičky je pak možné upravovat a podporovat
další antispamové nástroje. Více ve Výsledcích.
Učící se filtrace
Filtry, které se vyznačují zvyšující se účinností s množstvím
zpráv, které analyzují, se označují jako učící se. Jsou obvykle
variantou na Bayesův teorém, který se zabývá analýzou
textových řetězců. Tyto vzorce jsou využívány v několika
variantách a stanovují spamovost zprávy na základě již
známých údajů [6].
Principem je vybudování databáze slov, která jsou následně
reprezentována hash zápisem. V případě, že je přijata zpráva,
dojde k analýze obsahu a je spočteno skóre pro danou zprávu.
Skóre pak na základě pravidel určí, co se s daným emailem má
stát. Hodnocení lze rozdělit na analýzu slov, kde je počítáno
skóre dle obsahu určitého seznamu slov. Nebo je skóre
počítáno pro celou zprávu, tedy pro každé slovo je stanovena
pravděpodobnost a přepočtena na celou zprávu.
Tyto postupy jsou velmi efektivní a mají vysokou úspěšnost.
Ta je na velmi dobré úrovni po načtení zhruba 2000 zpráv
nevyžádaných a vyžádaných.
Zhodnocení učící se filtrace
V podmínkách českého prostředí jsou bayesiánské filtry velmi
účinné a jsou schopny blokovat přes 95% nevyžádané pošty.
Zbývajících 5% je potom neobvyklý spam či zcela nová zpráva.
Překvapivé výsledky pak dává překlad části spamových zpráv
do českého jazyka, byť za pomoci strojového překladu. Pak se
úspěšnost tohoto filtru pohybuje v okolo 65%, což je podstatně
horší výsledek. Testováno s 1000 zpráv vyžádaných a 1000
231
nevyžádaných v databázi bayesova filtru a 500 testovacími
zprávami přeloženými do českého jazyka.
Výsledky zkoumání
Celkově bylo na českých doménách přijato 71 572 emailových
zpráv v rozmezí 20 měsíců sledování. Z toho bylo 3407
skutečných emailů, což je pouze 4,761%. Zbylé zprávy
tvořil spam. 46 954 nevyžádaných emailových zpráv bylo
vygenerováno pouze na doménové jméno, email tedy byl
například [email protected]. Takové zprávy končí v koši
již na základě neexistující emailové adresy příjemce.
Tento postup je standardní a nabízí se otázka, proč zprávy,
které nemají příjemce rovnou nesmazat? Důvod je uveden
v kapitole o address munging – 42 zpráv mělo chybně napsanou
adresu příjemce, musely být dohledány – právě v doménovém
koši. Zprávy byly filtrovány pomocí bayesova filtru v software
SpamAssassin. Emailový server byl založen na operačním
systému Debian Squeeze a software Postfix a Dovecot.
Pro jednotlivé domény byly počty následující:
Tabulka č. 1: Počty a rozdělení emailových zpráv
Doména
Ham
spam
False
positive
False
negative
Poměr
spam/
ham
Vasilenko.cz
1294
45287
9
64
97,222%
Jablickov.cz
Malestranky.cz
Nespamu.cz
2113
0
0
26243
14
28
58
0
0
59
0
0
92,548%
100%
100%
Klíčové období při registraci nových účastníků kurzů na
doméně jablickov.cz pak byly počty následující:
Tabulka č. 2: Zprávy dle skóre
Zprávy dle hodnocení
Počet
Ham
179
Spam
False positive
False negative
1419
51
38
Registrace probíhala v rámci jednoho měsíce, celkem bylo false
positive 51 zpráv, z čehož address munging tvořilo 42 zpráv –
82,352%, což tuto metodu pro toto nasazení diskvalifikovalo.
Ze zbylých zpráv byly 4 vyřazeny z důvodu blacklistu na IP
adresu a 5 prostřednictvím bayesova filtru. Blacklist zablokoval
jednu IP adresu patřící poskytovateli internetu v Praze a část
osob tím byla postižena. Špatná pravidla bayesova filtru pak
byla výsledkem chybného vložení několika zpráv jedním
uživatelem.
Celkově lze tyto výsledky shrnout jako nepříliš dobrý
výsledek. Je pravda, že úspěšné zatřídění provedl filtr správně
pro více než 90% zpráv. Ale v tomto hodnocení není zohledněn
negativní vliv false positive zpráv. Pokud se započítá určité
procento jako tolerovatelné, pak toto musí být zohledněno
právě v hodnocení daného antispamového nástroje. V rámci
celkového hodnocení pak lze roztřídit jednotlivé nástroje jako
kladné s minimálním vlivem na komunikaci a jako sice účinné,
ale s negativním vlivem na benefitní akce.
Zhodnocení účinnosti bayesiánského filtru při jazykových
mutacích. Bylo otestováno náhodně vybraných 500 spamových
zpráv pro doménu jablickov.cz, ty pak byly přeloženy pomocí
strojového překladu.
Tabulka č. 3: Úspěšnost filtru v anglickém a českém jazyce
ISBN: 978-80-213-2379-7
232
Jazyk zpráv
Úspěšnost
Angličtina
98%
CHS – celkové hodnocení sestavy
KE – kladný efekt daného nástroje
NE – negativní efekt daného nástroje
Čeština
64%
Seskupování
Podobné hodnocení vypadá jinak pro doménu vasilenko.cz:
Tabulka č. 4: Úspěšnost filtru v anglickém a českém jazyce pro
jinou doménu
Jazyk zpráv
Úspěšnost
Angličtina
97%
Čeština
82%
Toto hodnocení vykazuje na první pohled patrné rozdíly. Ty
jsou dány zejména jinou datovou základnou. Pro obě domény
se rozchází obsah komunikace. U jablickov.cz je běžné, že ham
obsahuje slova cena, sleva, objednávka. Tato slova jsou častá i
pro spam. U domény vasilenko.cz tato slova v ham zprávách
téměř nejsou. Antispamové řešení tak vykazuje velmi silnou
závislost na jazyce zpráv i na jejich obsahu. Pro detailnější
analýzu je tak zapotřebí přidat ještě jiné hodnocení.
Rovnice č. 1: Hodnocení antispamového systému jako celku
Pro správně stanovení spamovosti zpráv není bayesiánské
hodnocení příliš přesné. Pokud seskupíme spamové zprávy
do sestav dle objednavatele, dostáváme širší pohled na celou
problematiku. Spamer totiž neposílá jednotlivé zprávy, ale celé
sady o mnoha stovkách tisíc zpráv. Není možné, aby každá
z nich byla unikátní. Náhražkové řešení v případě spamových
zpráv je vkládání náhodných řetězců. Například oslovení či
úpravy odkazujícího linku. Viz ukázka:
Tabulka č. 5: Varianty spamu pro jednu propagovanou stránku
Zpráva A
Hi 664a8eb6,
save your family. budys VjaqrRa
pProfeEssionNal
ADE1F Proepcia -> 0.17$
4BC47 Levitr -> 1.80$
E90DB Cilais -> 1.50$
114A9 Vigara -> 0.64$
http://254ED6E3.dgerdoctor.ru/
Healthy children are the best Christmas gift! Choosy mothers choose us!
8B6CBD0EAF5E2CCD49ED6AC7AF094AA10CF425E5040
Zpráva B
Prices:
======
Levtira ... 1.33$
Cilais ... 1.21$
Vigara ... 0.31$
Professional Pack ... 3.30$
Female Pack ... 1.37$
Family Pack ... 2.32$
Shoplink:
http://Gfm.medicbeetl.ru
Vzorec byl odvozen z bayesiánského hodnocení spamovosti
zpráv. Základní myšlenkou je stanovení úspěšnosti
jednotlivých antispamových nástrojů a zohlednění jejich
negativního působení.
ISBN: 978-80-213-2379-7
233
Obrázek č. 2: Propagovaná stránka
Zpráva C
USPS - Fast Delivery Shipping 1-4
day USA
Best quality drugs
Fast Shipping USA
Professional packaging
100% guarantee on delivery
Best prices in the market
Discounts for returning customers
FDA approved productas
35000+ satisfied customers
http://euomb.rxsavepillvip.ru
Pro tuto propagovanou webovou stránku bylo zachyceno
celkem 4956 zpráv ve 26 variantách. Počet různých domén
druhého řádu byl 78 s unikátními variantami doménového
jména třetího řádu.
Všechny tyto zprávy odkazují na stejné webové stránky.
Ve zprávě A lze detekovat snahu o otrávení bayesiánského
filtrování (bayesian filter poisoning) [8] vkládáním náhodných
řetězců, komolením nabízených léků a změnou obsahu. Ale
link i přes jiné textové znění odkazuje na web se stejným
obsahem. Vzhledem k blokaci je pravděpodobné, že dnes již
tyto linky nejsou funkční, což ztěžuje jejich analýzu.
Návrh řešení
Existuje zde řešení, které by bylo schopné reflektovat na tyto
spamerské snahy blokováním zpráv na základně nejenom
textového obsahu, ale na základě komplexní analýzy celých
sad spamových zpráv.
Klíčové prvky této metodiky jsou:
• Adresní schéma
• Obsahová analýza
• Detekce blízkých zpráv
• Obsahová analýza odkazovaných webových stránek
Slabinou spamovacího systému je pak právě odesílací sada
strojů, které produkují nevyžádanou poštu a nutnost sdělit
případnému zájemci, jak má provést objednávku.
Řešením je vytvořit ukazatele, které spojí dnes provozované
nástroje do jednoho silného celku. Současná řešení přístupu
ISBN: 978-80-213-2379-7
234
k emailové zprávě po jednom, byť je pak hodnocení spojeno
do jednoho skóre.
První činností při analýze zpráv je vytvoření virtuální mapy
IP adres v daných sadách spamu. Od toho pak lze postupovat
dále, pokud obdržíme stejné zprávy z částí těchto map, lze
pak snadněji určit, zda se jedná o spam. Obsahová analýza
bayesiánským filtrem pak stanoví podobnost zpráv, kde
nerozhoduje pouze podobné skóre, ale zejména podobnost
jednotlivých skupin zpráv. V případě, že bylo přijato mnoho
zpráv evidentně ze stejného zdroje spamu, včetně správného
přiřazení několika skupin k sobě, pak lze již po přijetí několik
zpráv s jiným obsahem určit, zda se jedná o spam, a to bez
nutnosti velkého balíku těchto nových zpráv.
Pokud by z již zaznamenané IP adresy přišel skutečný email
od člověka, který nás chce kontaktovat, pak je možné tímto
srovnáním určit, zda se jedná o spam. Pouze přítomnost IP
adresy z blacklistu pro toto hodnocení stačit nebude. Naopak,
při zachycení spamu z neznámé adresy lze spolehlivě na
základě obsahové analýzy a analýzy cíle úspěšně spam
detekovat a vyřadit takovou zprávu.
Diskuze
Pro kvalitní hodnocení je nutné kombinovat několik různých
nástrojů a jejich vliv pečlivě analyzovat. V případě, že určitý
nástroj kromě kladného efektu způsobuje také škody na
potencionálně benefitních emailech, je nutné jej jako nevhodný
vyřadit. K diskuzi je pak nabízí stanovení kriteriálních hranic
pro hodnocení jednotlivých nástrojů.
Klíčem k úspěšnému boji se spamem je nutné změnit chápání
zpráv a nastavení hodnocení pro vyšší datové celky. Jednotlivé
zprávy sice lze hodnotit a úspěšně filtrovat, ale pro efektivní
ISBN: 978-80-213-2379-7
boj se spamem to není výhodné. Klíčem je právě hromadná
analýza zpráv jako jednoho celku.
Toto řešení bude vyžadovat pokročilé postupy pro rozpoznání
podobnosti zpráv a podobnosti či stejnosti odkazovaných
webových stránek. I přes toto se stále jedná o obranný
mechanismus, který má přinést více nákladů pro spamery.
Motivace, proč spam i přes dlouhá léta stále existuje je jeho
profitabilita. Pokud se podaří zvýšit náklady na spam tím,
že skupinovou analýzou dosáhneme mnohonásobně vyšší
fragmentace obsahu a nutnosti více webových stránek, dojde
ke zvýšení vstupních nákladů.
Závěr
Výsledky zkoumání dávají prostor k další práci na metodickém
aparátu. Vzhledem ke stále vysokému množství nevyžádaných
zpráv, je řešená problematika aktuální a poskytuje příležitosti
k dalšímu podrobnému zkoumání. V současné době je možné
nasadit několik základních nástrojů, které se snaží omezit
množství nevyžádaných zpráv. Pokud se jedná o profesionální
software, skládá se v podstatě ze stejných stavebních prvků –
pouze jsou funkčně propojeny a vyladěny jejich váhy, což dává
každému software různou účinnost.
Prostor pro další analýzu spočívá v hledání pravidelností a
stejností v jednotlivých zprávách a vytvoření metodického
aparátu pro idenfikaci skupin spamových zpráv a jejich
propojení. Pokud by bylo možné zachytit nevyžádanou zprávu
již v počátku šíření na základě těchto stejností, bylo by možné
zvýšit účinnost současných opatření.
Aktivnější postup proti spamerům však naráží na principy
svobodného přístupu k internetu – svobodné médium je
přístupné pro kohokoliv, ale pro omezení spamu by bylo
vhodné uživatele identifikovat. Jiný rozpor pak lze nalézt
235
ve snaze aktivně působit na benefitní část spamu – web
či email uvedený v nevyžádané zprávě – což však není
legální (spamovat spamera nebo pomocí DDoS zahltit web
odkazovaný z nevyžádané zprávy).
LITERATURA
Online zdroje:
[1] José R. Méndez, M. Reboiro-Jato, Fernando Díaz, Eduardo
Díaz, Florentino Fdez-Riverola, Grindstone4Spam: An
optimization toolkit for boosting e-mail classification, Journal
of Systems and Software, Volume 85, Issue 12, December 2012,
Pages 2909-2920, ISSN 0164-1212, 10.1016/j.jss.2012.06.027.
(http://www.sciencedirect.com/science/article/pii/
S0164121212001756)
[2] Alexander K. Seewald, Wilfried N. Gansterer, On the
detection and identification of botnets, Computers & Security,
Volume 29, Issue 1, February 2010, Pages 45-58, ISSN 01674048, 10.1016/j.cose.2009.07.007.
(http://www.sciencedirect.com/science/article/pii/
S0167404809000820)
[3] Xinyuan Wang, Daniel Ramsbrock, Chapter 8 - The
Botnet Problem, In: John R. Vacca, Editor(s), Computer and
Information Security Handbook, Morgan Kaufmann, Boston,
2009, Pages 119-132, ISBN 9780123743541, 10.1016/B978-0-12374354-1.00008-X.
(http://www.sciencedirect.com/science/article/pii/
B978012374354100008X)
ISBN: 978-80-213-2379-7
[4] Spam levels drop drastically … then rise, Computer Fraud
& Security, Volume 2011, Issue 1, January 2011, Pages 1-3, ISSN
1361-3723, 10.1016/S1361-3723(11)70001-X.
(http://www.sciencedirect.com/science/article/pii/
S136137231170001X)
[5] Sérgio S.C. Silva, Rodrigo M.P. Silva, Raquel C.G. Pinto,
Ronaldo M. Salles, Botnets: A survey, Computer Networks,
Available online 15 October 2012, ISSN 1389-1286, 10.1016/j.
comnet.2012.07.021.
(http://www.sciencedirect.com/science/article/pii/
S1389128612003568)
[6] Microsoft takes down Rustock, Computer Fraud & Security,
Volume 2011, Issue 4, April 2011, Pages 1,3, ISSN 1361-3723,
10.1016/S1361-3723(11)70035-5.
(http://www.sciencedirect.com/science/article/pii/
S1361372311700355)
[7] Guillermo González-Talaván, A simple, configurable SMTP
anti-spam filter: Greylists, Computers & Security, Volume 25,
Issue 3, May 2006, Pages 229-236, ISSN 0167-4048, 10.1016/j.
cose.2006.02.005.
(http://www.sciencedirect.com/science/article/pii/
S0167404806000332)
[8] Zhenhai Duan, Kartik Gopalan, Xin Yuan, An empirical
study of behavioral characteristics of spamers: Findings and
implications, Computer Communications, Volume 34, Issue 14,
1 September 2011, Pages 1764-1776, ISSN 0140-3664, 10.1016/j.
comcom.2011.03.015.
(http://www.sciencedirect.com/science/article/pii/
S0140366411001228)
spam
236

Podobné dokumenty

Prezentace aplikace PowerPoint

Prezentace aplikace PowerPoint - Jedná se v podstatě o princip procházení grafu - Vytvářejí kopie stránek v úložišti systému - Zpracovávají data podle svého určení (obrázky, dokumenty, apod.) - Zpravidla využívá parsování pouze ...

Více

SYNCHRONIZED SWINMING MEDITERRAEAM CUP FIGURES

SYNCHRONIZED SWINMING MEDITERRAEAM CUP FIGURES SWITHERLAND 1 Jan 1998 GREECE 1 Jan 2000 LIECHTENSTEIN 1 Jan 1998 GREECE 1 Jan 1999 VENEZUELA 1 Jan 1998 GREECE 1 Jan 1998 SPAIN 1 Jan 1998 GREECE 1 Jan 2000 GREECE 1 Jan 1998 SWITHERLAND 1 Jan 199...

Více

celou diplomku - Pavel Koběrský

celou diplomku - Pavel Koběrský Úvodní část tvoří uvedení do problematiky spammingu, které obsahuje definice spamu, jeho klasifikaci, údaje o historii, současnosti a odhady budoucnosti spamu. Problém je zde dále analyzován z hled...

Více

CZ eshop katalogy

CZ eshop katalogy onlineshopy.com porovnejcenu.cz seznamobchodu.cz seznamzbozi.cz dobra-koupe.cz 4obchody.com sluzby.heureka.cz es-katalog.cz eshop-katalog.cz internetshopping.cz Katalog stránek shopfinder hyperkata...

Více

Katalog sociálních a návazných služeb 2015/2016

Katalog sociálních a návazných služeb 2015/2016 Návštěvník portálu zde najde mimo jiné prezentaci projektů městské části, soubor informací pro řešení některých složitých životních situací nebo katalog kontaktů na vybrané organizace a instituce. ...

Více

ABSIMA CR4T - RC Auta, RC Modely

ABSIMA CR4T - RC Auta, RC Modely projevovat. ABS lze také vázat mixem na  míru natočení volantu, a to tak, že se funkce ABS zapíná jen v zatáčce, nebo naopak se ABS uplatní jen při řízení v  neutrálu. Vše je názorně průběžně ukázá...

Více