Drug design - Racionální návrh léčiv - Biotrend

Transkript

Drug design - Racionální návrh léčiv - Biotrend
Univerzita Palackého v Olomouci
Přírodovědecká fakulta
Racionální návrh léčiv pomocí
in silico NFUPE
Karel Berka
Václav Bazgier
Olomouc 2015
Recenzenti: RNDr. Martin Lepšík, Ph.D.
RNDr. Jindřich Fanfrlík, Ph.D.
Skripta vznikla v rámci realizace projektu OP VK CZ.1.07/2.2.00/28.0184 s názvem „Inovace
ve vzdělávání v chemii a biologii s ohledem na aktuální trendy v biomedicinálním výzkumu“.
1. vydání
© Karel Berka, Václav Bazgier, 2015
© Univerzita Palackého v Olomouci, 2015
Neoprávněné užití tohoto díla je porušením autorských práv a může zakládat občanskoprávní,
správněprávní, popř. trestněprávní odpovědnost.
ISBN 978-80-244-4544-1
Předmluva
Vítej čtená i,
na následujících stranách se seznámíš s principy racionálního návrhu léčiv a jak si jej
ulehčit pomocí tzv. „in silico drug designu“. In silico znamená latinsky „v k emíku“ a
název tak naznačuje, že jde o návrh léčiv, do kterého se ve velké mí e zapojují počítače. Jde
p evážně o tvorbu a využívání databází látek a jejich fyzikálně-chemických vlastností,
hledání vhodných vazebných motivů a konečně návrh látek v počítači na rozhraní mezi
chemoinformatikou, výpočetní chemií, výpočetní biologií a bioinformatikou.
V jednotlivých kapitolách se nejd íve budeme věnovat krátkému nástinu historie vývoje
léčiv a jejich testování a schvalování, dále se zamě íme na otázku, jak obtížné je léčivo
nalézt a jak nejčastěji léčiva působí, pak se podíváme na způsoby, jak reprezentovat a
ukládat molekuly léčiv v počítači a posléze se konečně vrhneme na jednotlivé techniky
in silico drug designu – hledání podobnosti mezi jednotlivými látkami, hledání
kvantitivního vztahu mezi strukturou a aktivitou – QSAR model, určování tzv. farmakoforu
a jeho hledání pomocí molekulového dokování, či de novo designu včetně nástinu
statistických metod kontroly kvality. Na závěr jsme pro lepší p ehlednost textu p iložili
výkladový slovník jednotlivých pojmů, s kterými se v racionálním návrhu léčiv lze často
potkat a krátké uvedení do tematiky zpracování masivního objemu dat a datové vizualizace.
Doufáme, že tato rozsahem nevelká a útlá knížečka do budoucna podnítí rozší ení
používání technik pokročilého návrhu léčiv do většiny laborato í, které se zabývají
návrhem nových látek. A Tobě čtená i p ejeme p íjemné počtení.
Karel Berka a Václav Bazgier
v únoru 2015 v Olomouci
P ednáška i cvičení o racionálním návrhu léčiv (KFC/DD) vznikla na kated e fyzikální
chemie na P írodovědecké fakultě Univerzity Palackého v Olomouci za podpory projektu
Biotrend OPVK CZ.1.07/2.2.00/28.0184.
3
Motto:
"A pharmaceutical company utilizing computational drug design is like an organic chemist
utilizing an NMR. It won’t solve all of your problems, but you are much better off with it
than without it."
DAVID C. YOUNG
Věnováno našim drahým ženám Katce a Janě za trpělivost, kterou s námi mají.
Upozorněníμ
Auto i tohoto textu žádné léčivo nenavrhli. Zatím.
4
Obsah
1.
Co to je léčivo? ............................................................................................................... 7
Definice léčiva .................................................................................................................... 7
Dělení léčiv dle ATC-klasifikace ....................................................................................... 8
2.
Historie vývoje léčiv .................................................................................................... 10
Rozvoj výzkumu léčiv ...................................................................................................... 11
Kde hledat nová léčiva? ................................................................................................... 12
Aktuální zdroje léčiv ........................................................................................................ 12
3.
Výzvy současného vývoje léčiv ................................................................................... 13
Fáze vývoje a schvalování léčiva ..................................................................................... 14
P ehled typů testů léčiv .................................................................................................... 18
4.
Základy racionálního návrhu léčiv ............................................................................... 19
Nejčastější mechanismus působení léčiv ......................................................................... 20
Energetika vazby ligandu k enzymu či receptoru ............................................................ 25
Mezimolekulární interakce ............................................................................................... 26
5.
Co dělá molekulu léčivem? .......................................................................................... 29
Chemický prostor ............................................................................................................. 29
Podmínky kladené na léčiva ............................................................................................. 30
Časté strukturní motivy .................................................................................................... 32
Zakázané skupiny ............................................................................................................. 33
Odhad toxicity .................................................................................................................. 34
6.
Chemoinformatika – reprezentace a ukládání "klíčů" .................................................. 35
Ukládání struktur v počítači ............................................................................................. 36
Chemické knihovny látek ................................................................................................. 36
1D reprezentace struktury – textová sekvence ................................................................. 37
2D reprezentace struktury – topologie ............................................................................. 42
3D reprezentace struktury - geometrie ............................................................................. 43
7.
Molekulární cíl – hledání "zámku"............................................................................... 50
Identifikace cíle ................................................................................................................ 50
Buněčné zkoušky a DNA čipy ......................................................................................... 51
Jak získávat strukturu cíle ................................................................................................ 51
5
Výběr metody počítačového návrhu léčiv .................................................................... 60
8.
Virtuální screening ........................................................................................................... 61
LBDD – Návrh léčiv podle ligandů ............................................................................. 62
9.
Hledání v databázích ........................................................................................................ 62
Hledání 3D struktur .......................................................................................................... 64
Farmakofor ....................................................................................................................... 66
QSAR – Kvantitativní vztah mezi strukturou a účinností ................................................ 68
10.
SBDD – Návrh léčiv podle cíle ................................................................................. 76
Molekulové dokování ....................................................................................................... 76
de novo design .................................................................................................................. 89
11.
Kontrola kvality počítačového návrhu léčiv ............................................................. 90
Obecná kontrola - korelační koeficient ............................................................................ 90
Kontrola dokování ............................................................................................................ 90
Kontrola kvality u virtuálního screeningu ........................................................................ 91
12.
Závěrem ..................................................................................................................... 93
Doporučená literatura ........................................................................................................... 94
Vědecké časopisy s tematikou návrhu léčiv pomocí in silico metod ............................... 94
Významový slovník .............................................................................................................. 95
Dodatky ................................................................................................................................ 97
Zpracování velkých objemů dat ....................................................................................... 97
Vizualizace dat ................................................................................................................. 99
6
1. Co to je léčivo?
Motto:
Bez léčiv není medicíny.
autor
V první kapitole se budeme věnovat definici léčiva, historii vývoje, a obecně se podíváme
na mechanismus působení – většinou tedy tak, že v organizmu je molekulární cíl, na který
zapůsobí.
Definice léčiva
Léčivo je léčivá látka, směs léčivých látek nebo léčivý p ípravek. Je určeno k p íznivému
ovlivňování zdraví lidí nebo zví at.
Zákon o léčivech (č. 37Ř/2007 Sb.) definuje léčivé látky a léčivé p ípravky, pro které pak
používá souhrnný pojem léčiva.
Léčivé látky jsou „látky určené k tomu, aby byly součástí léčivého p ípravkuν způsobují
jeho účinek. Tento účinek je zpravidla farmakologický, imunologický nebo spočívá
v ovlivnění metabolismu.“ Tyto látky mohou být původu lidského (nap . lidská krev a její
složky), živočišného, rostlinného nebo chemického.
Léčivými látkami jsou nejčastěji čisté chemické sloučeniny s p esně definovanou
strukturou, ale mohou jimi být i složité směsi různých látek, jejichž struktura nemusí být
zcela p esně vymezena. To mohou být nap íklad p edepsaným způsobem upravené
suroviny p írodního původu (sušené části rostlin, silice, výtažky atd.), které odborně
označujeme jako drogy. Použití tohoto pojmu ve farmacii (v původním významu „léčivo,
lék“) je t eba rozlišit od jeho laického použití jako označení pro návykovou látku.
Ve stejném významu jako „léčivá látka“ se někdy používá označení „aktivní farmaceutická
substance“, API (z angl. Active Pharmaceutical Ingredient)
Léčivým přípravkem se rozumí „látka nebo kombinace látek, kterou lze použít u lidí či
zví at nebo podat lidem či zví atům, a to za účelem obnovy, úpravy nebo ovlivnění jejich
fyziologických funkcí prost ednictvím farmakologického, imunologického nebo
metabolického účinku, za účelem stanovení léka ské diagnózy.“ Za léčivý p ípravek se
rovněž považuje látka nebo kombinace látek prezentovaná s tím, že má léčebné nebo
preventivní vlastnosti v p ípadě onemocnění lidí nebo zví at.
Léková forma je konečná podoba léčivého p ípravku. Protože samotnou léčivou látku
z praktických důvodů obvykle podávat pacientovi nelze, je t eba ji zapracovat do léčivého
p ípravku. To se děje p idáním různého množství pomocných látek, které obvykle tvo í
větší část p ípravku, a následným technologickým procesem, z něhož vzejde hotový
výrobek, který je nakonec naplněn do obalu a p ipraven k podání pacientovi. Léčivý
p ípravek může mít nejrůznější podobu (nap . tablety, kapky, čípky, injekce atd.), která
vychází z toho, jakým způsobem bude p ípravek užíván.
7
Léky jsou léčivé látky a léčivé p ípravky upravené do definitivní podoby, v jaké se
používají a podávají pacientovi.
Léčiva (léčivé látky + léčivé p ípravky) jsou tedy potenciálními léky, kterými se stávají
v okamžiku, kdy jsou správným způsobem podány pacientovi.
Názvy léčivých a pomocných látek jsou látkovými jmény, píší se proto s malým
počátečním písmenem. Obvykle se používají tzv. mezinárodní nechráněné názvy
(INN, International Nonproprietary Name). Jedná se o triviální názvy, které obvykle
vytvá ejí auto i těchto látek. V českých odborných textech se zpravidla používají
v počeštěné podobě v souladu s Pravidly českého pravopisu. Chemické sloučeniny mají
rovněž systematické názvy vytvá ené dle pravidel IUPAC a také své kódy podle
jednotlivých databází chemických sloučenin, nap . databáze Americké chemické
společnosti CAS, nebo dle databáze léčiv Drugbank.
Názvy léčivých p ípravků jsou vlastními jmény výrobků, které p iděluje výrobce. V češtině
se píší s velkým počátečním písmenem. Obvykle se jedná o chráněnou obchodní značku.
Součástí názvu p ípravku může být i mezinárodní nechráněný název.
Léčivá látkaμ
INNμ diklofenak (česky), diclofenacum (latinsky), diclofenac
(anglicky)
IUPAC: 2-[2-(2,6-dichlorofenyl)aminofenyl]ethanová kyselina
(česky)
CAS: 15307-86-5
DrugBank: DB00586
Léčivé p ípravky (některé)μ
Diclofenac AL, Dicloreum, Dolmina, Flector, Myogit, Olfen,
Voltaren, aj.
Dělení dle místa působeníμ
D11AX18, M01AB05, M02AA15, S01BC03
Dělení léčiv dle ATC-klasifikace
Léčiva se rozdělují do skupin podle mechanismu účinku (antibiotika, antivirotika,
antimykotika, antipyretika atd.) Také se dělí na širokospektrální a úzko spektrální, podle
spektra účinku (specifická, p irozená). Dále se používá dělení dle místa účinku v rámci
organizmu – tzv. Anatomicko-terapeuticko-chemická klasifikace léčiv (ATC-klasifikace),
kterou spravuje Světová zdravotnická organizace (WHO) prost ednictvím World Health
Organization Collaborating Centre for Drug Statistics Methodology) se sídlem v norském
Oslu.
Léčiva jsou t íděna do skupin podle účinků na jednotlivé orgány a jejich soustavy,
farmakologického působení a chemické struktury. Na základě tohoto t ídění je jim p idělen
sedmimístný kód v pěti úrovních.
8
První úroveň
První úroveň se značí jedním písmenem, odpovídajícím p íslušné anatomické soustavě,
na níž daná léčiva působí. Na této úrovni je 15 hlavních skupinμ
A
B
C
D
G
H
J
L
M
N
P
R
S
V
Trávicí ústrojí a metabolismus
Krev a krvetvorné orgány
Kardiovaskulární systém
Dermatologika
Urogenitální systém a pohlavní hormony
Systémové hormonální p ípravky kromě
pohlavních hormonů a inzulínu
Protiinfekční léčiva pro systémové použití
Antineoplastika a imunomodulující léčiva
Muskuloskeletální systém
Nervová soustava
Antiparazitika, insekticidy, repelenty
Dýchací ústrojí
Smyslové orgány
Různé
Druhá úroveň
Druhá úroveň vyjad uje hlavní terapeutickou skupinu a označuje se kódem tvo eným
dvěmi číslicemi.
Třetí úroveň
T etí úroveň vyjad uje terapeuticko-farmakologickou podskupinu, která se označuje jedním
písmenem.
Čtvrtá úroveň
Čtvrtá úroveň vyjad uje chemicko-terapeuticko-farmakologickou podskupinu. Označuje se
jedním písmenem.
Pátá úroveň
Pátá úroveň odpovídá konkrétní účinné látce (nebo kombinaci). Označuje se dvěmi
číslicemi.
Příklad klasifikace
S
smyslové orgány
S01
oftalmologika
S01B
protizánětlivé látky
S01BC
nesteroidní protizánětlivé látky
S01BC03
diklofenak (respektive jedno z jeho označení)
9
2. (istorie vývoje léčiv
Motto:
Jed od léku odlišuje pouze podávané množství.
Paracelsus 1493-1541
První izolovanou chemickou látkou, u níž se prokázaly léčivé účinky (úleva od bolesti) se
stal v roce 1Ř06 morfin, který byl získán z extraktu z makovic. Makovice kromě morfinu
obsahuje také kodein. Posléze byl morfin následován dalšími extrakty z dalších rostlin.
morfin
kodein
nezralý Mák setý (opium)
(Papaver somniferum L.)
Vrbová kůra
(Salix)
Morfinový extrakt
kyselina acetylsalicylová
Acylpyrin
dicoumarol
komonice léka ská
(Melilotus officinalis)
Léky proti srážení krve
warfarin
10
Rozvoj výzkumu léčiv
Postupně byla objevována další nová léčiva, s rozmachem v průběhu 60. let 20. století.
Postupně se též vylepšovaly metody prvotního testování nových kandidátů na léčiva
a to hlavně v souvislosti s důrazem na bezpečnost léčby.
P ibližný čas
starověk a
st edověk
1806
1850
1890
1920
1970
1990
2000
2010
Materiály a původ léčiv
rostliny, jedy, minerály
(Paracelsus)
morfin
chemikálie
syntetické látky, barviva
HTS knihovny
cíleně zamě ené knihovny
in silico
Testování účinků na:
lidé
lidé
lidé (vězni)
zví ata
zví ata, izolované orgány
enzymy, membrány
rekombinantní proteiny
DNA a enzymatické čipy
virtuální screening
Jmenovitě na několika p ípadechμ
Uvedení
1806
1828
1884
1888
1899
1903
1909
1921
1922
1928
1928
1935
1944
1945
1952
1956
1960
1962
1963
1964
1971
1975
1981
Léčivo
Morfium
Kyselina salicylová
Kokain
Fenacetin
Kyselina acetylsalicylová
Barbituráty
Arsphenamine
Prokain
Inzulín
Estron
Penicilín
Sulphachrysoidine
Streptomycin
Chlorochin
Chlorpromazin
Tolbutamid
Chlordiazepoxid
Verapamil
Propranolol
Furosemid
L-Dopa
Nifedipin
Captopril
Typ léčiva
Hypnotikum
Protizánětlivé léčivo
Stimulant, lokální anestetikum
Analgetikum
Analgetikum
Sedativum
Antisyfilitické činidlo
Lokální anestetikum
Antidiabetikum
Ženský pohlavní hormón
Antibiotikum
Antibakteriální p ípravek
Antibiotikum
Antimalarikum
Neuroleptikum
Antidiabetikum
Sedativum
Blokátory kalciových kanálů
Antihypertenzivní léčivo
Diuretikum
Antiparkinsonikum
Blokátory kalciových kanálů
Antihypertenzivní léčivo
11
Kde hledat nová léčiva?
Otázka, kde hledat nová léčiva, nemá jednoduchou odpověď. Zdroje léčiv se dnes celkem
mění…
V p írodě
(nap . penicilin)
Změna určení existujících
léčiv (tzv. repurposing)
(nap . sildenafil)1
Prohledávání knihoven
látek a robotické (HTS)2
testování
Aktuální zdroje léčiv
Podíváme-li se na nové zdroje léčiv za posledních cca 25 let, tak stále p evažují p írodní,
nebo lépe ečeno p írodou inspirovaná léčivaμ
Všechna nově registrovaná léčiva od 01/1981 - 06/2006 dle FDA, dle zdroje (n = 1184)3
B – biologická léčiva (biologicals), N - p írodní látky, ND – upravené p írodní látky,
S – syntetické látky, S/NM – syntetické látky mimikující p írodní látky, S* - syntetické, ale s farmakoforem
odvozeným z p írodních látek, V – vakcíny
sildenafil (spíše známý jako ViagraTM) byl původně lékem na hypertensi
tzv. high throughput screening
3
Newman DJ, Cragg GM, J. Nat. Prod. (2007) 70, 461-477
1
2
12
3. Výzvy současného vývoje léčiv
Motto:
Počet tranzistorů, které mohou být umístěny na integrovaný obvod, se při zachování stejné
ceny zhruba každých 18 měsíců zdvojnásobí.
tzv. Moorův zákon
Počet léčiv registrovaných za 1 miliardu dolarů se jednou za 9 let sníží přibližně na
polovinu
tzv. Eroomův zákon
Návrh a vývoj léčiva jeμ
• Velmi obtížný problém
– odhalení cíle, jehož zablokováním/aktivací lze léčit nemoc (racionální návrh
léků)
– odhalení cíle, na který léčivo působí (p i nalezení aktivní látky
prohledáváním knihoven)
– složité interakce léku s metabolismem člověka způsobující vedlejší účinky
• Velmi drahý problém
– náklady na vývoj a testování - až 1 300 000 000 USD4 (je nutno zaplatit
vývoj všech látek, které v testování neuspěly)
– náklady na výrobu, patentování, distribuci…
– Nové léky jsou proto drahé – i více než 20 000 Kč za dávku léčiva5
Racionálním a zvláště počítačovým návrhem léčiva můžeme ulehčit hlavně výběr molekul,
které budou syntetizovány, testovány a posléze půjdou do klinických zkoušek ke schválení
k prodeji.
Vývoj léčiv je obtížný problém
Molekulárními cíli léčiv jsou hlavně proteiny (a jejich vzájemné interakce), ale také DNA a
RNA. Lidský genom obsahuje méně než 30 000 ORF (otev ený čtecí rámec, začátek genu
kódujícího protein), ale pomocí dalších mechanismů, jako nap . tzv. alternativním
sest ihem (tzv. alternative splicing) mohou tyto geny kódovat více než ~500 000 proteinů
starajícími se jak o stavbu buňky, tak o buněčnou signalizaci i enzymatické procesy
výrazně urychlující pot ebné reakce. Katalyticky aktivní a tedy i možným cílem mohou být
i aktivní RNA molekuly (ribozymy), u kterých se tato aktivita donedávna nep edpokládala.
Je to tedy k analýze výrazně složitější problém, než jakýkoliv produkt lidské techniky.
4
5
Tufts Center for the Study of Drug Development
SÚKL, 3. čtvrtletí 2011, průměrná cena léku v nejdražší kategorii léčiv (nad 10 000 Kč)
13
Vývoj léčiv je drahý problém
Než se léčivo dostane k pacientovi, je nutné najít p esně molekulární cíl a následně látku
otestovat. Tyto testy jsou různě drahé, a proto se vyplatí pro různé fáze vývoje léčiv, kdy se
zpracovává různé množství testovaných látek (miliony látek v počítačích proti pár
kandidátům v klinických zkouškách):
Experiment
Počítačové modelování
Biochemická analýza
Otestování na buněčné kultu e
Akutní toxicita na myších
Stanovení struktury proteinu krystalizací
Ově ení účinnosti na zví atech
Stanovení chronické toxicity na potkanech
Klinické zkoušky na lidech
Typická cena pro 1 látku
100 Kč
7 000 Kč
75 000 Kč
250 000 Kč
3 000 000 Kč
5 500 000 Kč
14 000 000 Kč
10 000 000 000 Kč
Upraveno dle David C. Young - Computational Drug Design: A guide for computational and medicinal
chemists. Wiley-Blackwell, New York, 2009, ISBN 978-0470126851
Fáze vývoje a schvalování léčiva
Uvedení léčiva na trh průměrně trvá 12 let od nalezení účinné látky, tzv. lead compound až
k úspěšnému provedení klinických testů, schválených jednotlivými registračními
agenturami.
Samotný projekt vývoje léčiva může vypadat schematicky zhruba taktoμ
14
Možné důvody selhání projektu




Neexistence testovacího modelu (nelze testovat p ímo na lidech!)
Vzácná choroba (budoucí p edpokládané zisky by nezaplatily vývoj)
Nalezené látky jen s nedostatečnou aktivitou (p íliš toxické, špatná biodostupnost)
Aktivní látku má již patentovanou někdo jiný (Produkt nemusí být lepší, než
produkt konkurence. Musí být alespoň tak dobrý, jako jejich a současně
patentovatelný pod naším jménem (tzv. Me too léky)
Povolení léčiva dle FDA
Poté, co farmaceutická společnost navrhne novou látku, tak je nutné látku vyzkoušet
v laborato i, p edtím, než započne proces povolování dle U.S. Food and Drug
Administration (FDA) k počátku testování látky na lidech.6 V průměru jen jedna látka
z 1000 zkoušených látek, které vyjdou z laborato í, dostane povolení k testování na lidech.
Jestliže FDA udělí látce zelenou (tzv. IND – Investigational New Drug), tak p ipravovaná
látka postupně prochází t emi fázemi klinických zkoušek:



Fáze 1: 20-80 zdravých dobrovolníků na stanovení bezpečnosti látky a jejího
toxikologickému profilu.
(cca 1 rok)
Fáze 2: 100-300 pacientů – dobrovolníků, k určení efektivity látky jako léčiva.
(cca 2 roky)
Fáze 3: 1000-3000 pacientů v klinikách a nemocnicích, kte í jsou sledováni, aby se
ově ila efektivita na léčbu v různých podmínkách a podchytily se vedlejší reakce.
(cca 3 roky)
Farmaceutická společnost po testování zašle žádost FDA o povolení léčiva (tzv. NDA New Drug Application; běžně může mít až 100 000 stran), což je proces, který trvá
v průměru asi 2 a půl roku. Po povolení mohou začít léka i léčivo p edepisovat pacientům.
I v této fázi nadále reportuje farmaceutická společnost p ípady prokázaných vedlejších
účinků a další klinická data FDA – tzv. farmakovigilance.
6
http://www.fda.gov/Drugs/DevelopmentApprovalProcess/HowDrugsareDevelopedandApproved/default.htm
15
Eroomův zákon
Je zarážející, že i p es z ejmé vylepšování v hledání léčiv v preklinické fázi (nap . pomocí
HTS testování) i v úrovni znalostí získaných základním výzkumem, se nezvyšuje množství
nových léčiv. Stále se vylepšuje účinnost (větší množství látek se testuje) i kvalita výzkumu
(dnes lépe známe mechanismy a biologické procesy ve zdravých i nemocných buňkách). To
by sice mělo vést k lepšímu úspěchu navržených látek v klinických zkouškách a mělo by to
tedy vést k výraznému zlevnění nových léčiv, protože většina nákladů je způsobena
investicemi do neúspěšných látek. Opak je však pravdou. Pravděpodobnost, že látka projde
klinickými zkouškami, zůstává zhruba konstantní posledních 50 let. Ale celkový počet nově
schválených léčiv stále klesá.
Dokonce klesá natolik, že si tento jev vysloužil po vzoru Mooreova zákona o zrychlování
počítačů tzv. Eroomův zákon7 o snižování počtu nově uváděných p ípravků
na investovanou miliardu dolarů (anglicky billion) i po započtení inflace.
Dle Jack W. Scannell, et al Nature Rev. Drug Discovery (2012) 11, 191-200
7
Moore pozpátku
16
Registrační proces v ČR
V ČR o registraci léčivých p ípravků určených pro podání lidem rozhoduje Státní ústav pro
kontrolu léčiv (SÚKL)8. Veterinárními léčivými p ípravky se zabývá Ústav pro státní
kontrolu veterinárních biopreparátů a léčiv (ÚSKVBL)9. SÚKL rozlišuje několik různých
typů registrací, které se ídí pokyny SÚKL a vyhláškou č.22Ř/200Ř Sb.10:
Národní registrace - registrace léčivého p ípravku pouze v ČR a pouze v p ípadě, že léčivý
p ípravek není registrován v jiné zemi EU. U národních registrací je lhůta na posouzení
generických p ípravků ode dne, kdy bylo žadateli o registraci sděleno, že jeho žádost byla
shledána úplnou, 150 dnů, u ostatních typů národních registrací 210 dnů. Na doplnění
nedostatků v dokumentaci má žadatel 1Ř0 dnů. Tato doba se do celkového trvání registrační
procedury nepočítá, proto konečná doba registračního ízení bývá nez ídka delší.
MRP registrace (mutual recognition procedure) - registrace procedurou vzájemného
uznávání. Stát, ve kterém je p ípravek zaregistrován "národně", se stane referenčním
(RMS, reference member state), ostatní státy EU vybrané žadatelem jsou dotčené
(CMS, concerned member state). Referenční stát vypracuje hodnotící zprávu, ostatní státy ji
během λ0-ti denní procedury posoudí. Pokud nejsou od dotčených států vzneseny závažné
p ipomínky, je vydáno kladné rozhodnutí, které je uznáno všemi dotčenými státy. SÚKL je
účastníkem mnoha těchto procedur, a to jako referenční, tak i jako dotčený stát. U MRP
registrací je po uzav ení λ0denního procesu registrace 30denní fáze na národních úrovních
v dotčených státech, registrace je platná po nabytí právní moci národního rozhodnutí
o registraci.
Decentralizovaná registrace (DCP, decentralised procedure) - registrace procedurou
vzájemného uznávání. Jeden ze států je stejně jako u MRP procedury žadatelem zvolen
jako referenční (RMS, reference member state), ostatní vybrané státy EU jsou členské
(CMS, concerned member state). Na rozdíl od MRP registrace léčivý p ípravek není
v referenčním státě registrován, všechny státy během 210denní procedury žádost posoudí a
pokud nejsou vzneseny závažné p ipomínky, referenční stát vydává kladné rozhodnutí,
které je uznáno všemi dotčenými státy. I v této procedu e je SÚKL účastníkem procedur,
jako referenční i jako členský stát EU. U DCP registrací je po uzav ení 210denního procesu
registrace 30denní fáze na národních úrovních ve všech státech v procedu e, registrace je
platná po nabytí právní moci národního rozhodnutí o registraci.
Národní i MRP a DCP registrace podléhají schvalování SÚKL. Mimo těchto dvou procesů
existují i Centralizované registrace, jejichž registrační ízení probíhá centrálně u Evropské
lékové agentury (EMA)11 ve Velké Británii a platí na celém území EU.
8
http://www.sukl.cz/leciva/informace-pro-zadatele-o-registraci
http://www.uskvbl.cz/
10
http://portal.gov.cz/zakon/228/2008
11
http://www.ema.europa.eu/ema/
9
17
Přehled typů testů léčiv
počítačové (in silico) → biochemické (in vitro) → buněčné (in vitro) → živočišné (in vivo)
→ lidské klinické (FDA(USA), EMA(EU), SÚKL(ČR); Fáze I až III) → farmakovigilance
Počítačové in silico
Nejlevnější s největší kapacitou, mohou pracovat s velkým výběrem látek (až miliony).
Různé techniky se používají v různých stádiích vývoje:
 chemoinformatika – databáze molekul a výběr z nich, analýza dat,
 predikce vlastností molekul – toxicita, průchodnost p es membrány, atp.
 hledání podobných motivů – k již aspoň částečně účinným molekulám,
 dohledávání účinnějších molekul detailnějšími metodami – QSAR, hledání
farmakoforů, molekulové dokování.
Biochemické in vitro
 Ukazují, zda se látky váží či nikoliv; p ípadně jak moc inhibují reakci (IC50),
 mohou být korelovány s in-silico,
 ideální pro HTS testování (zvláště, pokud je test kolorimetrický),
 falešně positivní (ukazuje aktivitu, i když aktivní není, nap . interakce s barvivem),
 falešně negativní (neukazuje aktivitu, i když aktivní je, nap . špatná rozpustnost).
Buněčné kultury (in vitro ev in vivo)
 Dražší, než biochemické, lze též p edpovídat počítačově,
 navíc dávají informaci o biodostupnosti léčiv do buněk,
 Caco-2 – na studium průchodnosti léčiv p es buněčné membrány.
Zvířecí modely (in vivo)
 Mnohem dražší, než in vitro metody,
 testy toxicity,
 nutno vybrat model, který trpí zvolenou chorobou,
o králík, prase, potkan, myš (levnější), knockoutované a transgenické myši.
Klinická fáze ) - testování bezpečnosti
 Zdravý člověk (student), vedlejší efekty,
 1,5 roku, 70% látek postupuje dál.
Klinická fáze )) – působí proti chorobě?
 Stanovení dávky a vedlejších efektů,
 cca stovka pacientů, 2 roky, 30% látek postupuje dálν
Klinická fáze ))) – určení dávky a lékových interakcí
 Tisíce pacientů různých etnik
 cca 25 % látek postupuje dál (tj. jen cca 5 % látek z fáze I!)
18
4. Základy racionálního návrhu léčiv
Motto:
In response to computer-aided drug design, some of the medicinal chemists down the hall
had put up a sign proclaiming their lab to be the ‘brain-assisted drug design’ group.
Derek Lowe
Racionální návrh léčiv se snaží stavět na dostupných znalostech o léčivech a pokud možno
zkrátit a zlevnit p edklinickou dobu vývoje léčiv. Využívá se zde hlavně tzv. SAR –
structure activity relationship – tedy vztahem mezi strukturou látek a jejich aktivitou. Zde
se vychází hlavně ze sestavování sérií látek a hledání závislostí.
Tento děj může být ale výrazně urychlen se zapojením počítačů – pomocí "in silico drug
designu" označovaném též jako "Computer-aided drug discovery and development"
(CADDD). CADDD zahrnuje množství různých technik, které se používají v různých
stádiích vývoje léčivμ



Práce s katalogy látek, výběr z dostupných molekul, predikce vlastností molekul
Hledání podobných motivů – k již aspoň částečně účinným molekulám
Dohledávání účinnějších molekul detailnějšími metodami – QSAR, hledání
farmakoforů, molekulové dokování
Příklady použití výpočetních metod při racionálním vývoji léčiv
dle Spiwok V a Králová B, Chem. Listy (2009)103, 52−55
19
Nejčastější mechanismus působení léčiv
Myšlenkou působení léčiva se zabýval německý vědec a léka Paul
Ehrlich (1854-1λ15), který popularizoval ideální léčivo jako tzv.
magický náboj ("magische Kugel"), který bude působit jen v místě
účinku. V roce 1Řλ4 navrhl biochemik Emil Fischer, že substrát
p esně zapadá do aktivního centra enzymu. Tato teorie je známa
jako hypotéza zámku a klíče. Jeho vlastními slovy z ceremoniálu
p edávání Nobelovy ceny za chemii roku 1902:
•
•
„Um ein Bild zu gebrauchen, will ich sagen, dass Enzym und
Emil Fischer
Glykosid zueinander passen müssen, wie Schloss und Schlüssel,
(1852 – 1919)
um eine chemische Wirkung aufeinander ausüben zu können.“
„Mám-li použít metaforu: Aby mohla proběhnout chemická reakce, tak enzym a glykosid
do sebe musí zapadat jako zámek a klíč.“
Posléze byla tato myšlenka rozší ena na další dva modely, kdy se (i) až p iblížením "klíče"
– ligandu – uzpůsobí "zámek" – enzym – tzv. induced fit, nebo (ii) se naopak "zámek"
může vyskytovat v několika různých konformacích, mezi nimiž postupně p echází a "klíč"
vyčkává, dokud si nevybere vhodnou konformaci, s níž provede reakci tzv. selected fit.
Který z mechanismů enzymatické reakce p evládá, není doposud do ešeno a argumenty se
nacházejí pro obě strany. Není bez zajímavosti, že za poslední úpravou hypotézy zámku a
klíče doplněním o klíčovou dírku stojí čeští vědci studující p ístupové kanály do aktivních
míst enzymů a stojící za počítačovými nástroji Caver (www.caver.cz) a MOLE
(www.mole.upol.cz).
The lock-key model
K zámku – enzymu – existuje správný
klíč – ligand, který je schopen se navázat,
aby mohla reakce probíhat
The induced-fit model
Správný ligand se p iblíží do aktivního
místa enzymu a to se mu p izpůsobí, aby
mohla reakce probíhat
The selected-fit model
Enzym
se
nachází
v
několika
konformacích, p ičemž ligand se naváže
do správné tak, aby mohla reakce probíhat
The keyhole-lock-key model12
Do aktivního místa se dostanou jen ty
ligandy, které úspěšně projdou klíčovou
dírkou – tunelem
12
dle Damborský et al, Curr. Opin. Chem. Biol. (2014) 19, 8-16
20
Dostupné "zámky" – molekulární cíle
Mezi molekulární cíle nejčastěji počítáme proteiny, které
jsou nějakým způsobem důležité pro vykonávání funkcí či
p enos informací v rámci buňky. Podle některých odhadů
se dá očekávat, že:



70 % cílů léčiv – 10 proteinových rodin (dle členění
dle databází proteinových rodin CATH, či SCOP)
50 % - 4 rodiny: tzv. GPCR receptory, jaderné
receptory a iontové kanály ovládané ligandy a nebo
eletrickým napětím
CATH databáze uvádí, že existuje asi 130 tzv. druggable domén, tj. domén, na které
mohou zapůsobit léčiva.
Dle Sakharkar MK et al , Int J Biochem, Cell Biol. (2007), 39:1156–64
Struktury známých cílů je možné najít nap íklad v databázi TargetDB.13 Vhodnost
biologického cíle vázat molekuly léčiva s vysokou afinitou a vhodným účinkem udává tzv.
druggabilita.
13
http://targetdb.pdb.org
21
Dostupné „klíče“ – léčiva
> 50 000 000 nízkomolekulárních látek dostupných
v elektronických sbírkách, mezi kterými můžeme vybírat
nové návrhy na léčiva:





















22
Dictionary of Natural Products
Bioactive Natural Products
BioScreenNP files
Marine Natural Product Database
BioSPECS natural products database
ChemDiv natural products database
InterBioScreen database
Herbal medicine index
Traditional Chinese Medicine Database
3D Database of Components from Chinese Traditional Medicinal Herbs Assinex
collection
Maybridge catalogue
Available Chemicals Directory
Merck index
Chapman & Hall Dictionary of Drugs
ComGenex collection
ChemDiv International Diversity Collection (http://www.chemdiv.com/)
SPECS screening database (http://www.specs.net/snpage.php?snpageid=home)
ZINC database (http://zinc.docking.org/)
EDULISS (http://eduliss.bch.ed.ac.uk/test/)
PubChem (https://pubchem.ncbi.nlm.nih.gov/)
Drugbank (www.drugbank.ca/)
Vzájemné působení mezi klíčem a zámkem
Podle způsobu, co "klíč" – ligand – udělá se "zámkem" – receptorem – pak ligandy
můžeme dělit do následujících kategoriíμ
Pro zámky – receptory:
a) agonisté – látky, které se váží k fyziologickému receptoru a napodobují regulační
účinky tělu vlastních (endogenních) signálních molekul,
b) antagonisté – látky, které se váží na receptor ale bez regulačního účinku, jejich
vazba pak blokuje navázání endogenního agonisty – proto jsou označovány také
jako inhibitory,
c) částeční (parciální) agonisté – látky, které jsou ve srovnání s agonisty účinné pouze
částečně,
d) inverzní agonisté – látky, které stabilizují receptor v jeho inaktivní konformaci –
tyto látky se označují také jako inhibitory.
Pro zámky – enzymy:
a) aktivátory – váží se na enzymy a zrychlují jejich aktivitu,
b) inhibitory – blokují reakci enzymu, mohou být dle mechanismu účinku buď
kompetetivní (inhibitor bojuje o aktivní místo se substrátem), akompetetivní
(inhibitor se váže na komplex substrátu s enzymem), nekompetivní (inhibitor jen
zpomalí reakci tím, že se váže na alosterické místo na enzymu),
c) alosterické regulátory – mohou být jak aktivátory, tak inhibitory; neváží se p ímo
v aktivním místě, ale někde jinde na enzymu, kterému posléze ovlivní strukturu,
d) induktory – látky zvyšující tvorbu dotyčného proteinů – tzv. expresi genu.
Účinek léčiva pak většinou14 závisí na koncentraci, jakou látka má v místě účinku, ale také
na množství receptorů na/v dotyčné buňce, na mechanismu, jak receptor aktivuje
sekundární signální molekuly, a také na dalších regulačních prvcích. Tato variabilita se pak
odrazí v citlivosti na účinek léčiva mezi jednotlivými tkáněmi nebo i jedinci.
Tyto vztahy eší hlavně farmakologie a jí pod ízené obory farmakodynamika (popisuje
místo účinku) a farmakokinetika (tzv. ADME – adsorpce, distribuce, metabolismus a
eliminaci léčiva)
Kvantitativní vztah mezi dávkou a účinkem léčiva nám popisuje závislost biologické
odpovědi na podané dávce nebo koncentraci léčiva v plazmě u jednotlivce. Sleduje se míra
biologického účinku v závislosti na dávce, nap íklad snížení krevního tlaku (TK) o určitou
mě itelnou hodnotu – nap . o 40 mm Hg . Dávka (D) nebo plazmatická koncentrace (C),
která TK sníží o 20 mm Hg, tedy o 50% požadované hodnoty biologického účinku, se
označuje jako ED50 nebo EC50, st ední efektivní dávka/st ední efektivní koncentrace.
14
Ne vždy, občas stačí skoro nemě itelně nízké koncentrace k maximálnímu účinku.
23
Pomocí k ivky kvantitativního vztahu dávky
a účinku léčiva můžeme jednotlivé látky
charakterizovat a srovnávat mezi sebou. Čím
menší je ED50 (nebo EC50), tím menší dávka
je zapot ebí k účinku, léčivo je aktivnější –
tzv. „potentnější“.
Srovnávat lze také účinnost (anglicky
„efficacy“), tj. hodnotu míry biologického
účinku, kterého je léčivo schopno p i dané
dávce dosáhnout. P i rozhodování v klinické Kvantitativní vztah dávky a účinku
praxi je významnějším parametrem účinnost.
Nap íklad u volby léčiva proti vysokému tlaku zajímá léka e nejd íve to, jestli bude látka
vůbec schopna snížit TK o dostatečnou hodnotu. Teprve potom p ichází na adu volba mezi
užíváním nap . 5 mg potentnějšího léčiva nebo 250 mg méně potentnějšího léčiva. A zde už
p i rozhodování hraje roli i mnoho dalších faktorů.
Kvantální vztah dávky a účinku
Druhou možností, jak popsat vztah dávky
a účinku je tzv. kvantální vztah. Rozdíl
oproti p edešlému vztahu je p edevším
v tom, že popisuje situaci na souboru
subjektů (pokusných zví at, účastníků
klinické studie). K ivka je opět
charakterizována hodnotou ED50 efektivní dávkou, ale tentokrát se jedná
o dávku, která u 50 % subjektů vyvolá
očekávanou reakci. Nap íklad u snížení
TK, je ED50 dávka léčiva, která u 50 %
jedinců vyvolá očekávané snížení TK.
Tohoto kvantálního vztahu využíváme i k popisu toxicity a bezpečnosti léčiv. Obdobně
jako očekávaný účinek můžeme totiž zaznamenávat i toxicitu. K ivku potom charakterizuje
hodnota toxické dávky - TD50, dávka, která u 50 % subjektů vyvolá toxický efekt.
V preklinickém hodnocení léčiv je dále stanovována tzv. LD50.15 Relativní bezpečnost léčiv
popisujeme pomocí terapeutického indexu (TI), který je vyjád en podílem mezi toxickou
a efektivní dávkou (TD50/ED50)16. Čím je terapeutický index větší, tím je léčivo
bezpečnější.
letální dávka, p i níž zem e polovina subjektů (nap . buněk v buněčné kultu e).
pro další snížení rizika se občas používá podíl TD5/ED95, kdy chceme, aby léčivo působilo skoro pro
každého, ale s minimálními vedlejšími účinky.
15
16
24
Ani v jednom p ípadě ale ED50 nebo EC50 neudává další důležité faktory, jako nap íklad
délku trvání účinku. Ta bývá kromě farmakokinetických parametrů ovlivněna dalšími
faktory, jako nap íklad dobou strávenou v receptoru, vnitrobuněčnou signalizací a
následnou regulací exprese genů a z toho postupně vznikající tolerancí vůči léčivu.
Energetika vazby ligandu k enzymu či receptoru
Látky se samoz ejmě váží do receptoru různě silně. Mohou se nap íklad vázat ireverzibilně
a v té chvíli se jim íká sebevražedné ligandy, neboť vazba takového ligandu zničí jak
protein, tak i ligand neopravitelně.17 Většina ligandů se nicméně váže reverzibilně pomocí
nekovalentních interakcí. Pro kvantifikaci síly vazby do receptoru se zavádí
tzv. rovnovážná vazebná konstanta K. Pro rovnici:
kon
koff
ji lze definovat jako poměr látek v rovnováze tedy jako asociační konstantu Ka, p ípadně
jako poměr rychlostních konstant dop edné a zpětné reakce kon a koff:
�=� =
ff
[RL]
= [R][L].
Tato konstanta se často udává recipročně jako disociační konstanta Kd:
� =
��
=
[R][L]
[RL]
,
což má tu výhodu, že pak má Kd formálně jednotku mol/L (tj. M) a dá se chápat jako
hodnota koncentrace ligandu, která je zapot ebí na obsazení poloviny receptorů, tj. tehdy
kdy se [R] a [RL] sobě rovnají. Samoz ejmě čím nižší je ád koncentrace, v kterém je
hodnota Kd, tím pevněji se látka v receptoru držíμ
pM (vynikající) > nM (skvělé) > M (běžné) > mM (nepoužitelně velké)
Kromě Kd se uvádí pro účinnost látky další metriky (nap . EC50, které jsme již zmiňovali
výše), p ičemž za zmínku u enzymů stojí hotnota kcat, která udává, jakou rychlostí probíhá
reakce enzymu a pak hlavně hodnoty udávající schopnost látky inhibovat reakci - Ki, IC50,
které rozvedeme v následující kapitole.
Podobně funguje nap íklad nervový plyn sarin, který nejprve nekovalentně a posléze i kovalentně zablokuje
acetylcholinesterázu – enzym odpovědný za degradaci acetylcholinu nutný pro správný p enos nervových
vzruchů do svalů.
17
25
Aktivace/deaktivace enzymu
Častým biochemickým testem účinku látky je zjištění, jak sníží či zvýší aktivitu enzymu za
daných podmínek, podle toho, zda jde o inhibitor, nebo aktivátor.
V p ípadě inhibitoru se nastaví
podmínky reakce a k roztokům
s reaktantem a enzymem se p idává
postupně se zvyšující koncentrace
zkoumané látky a stanovuje se, za
jaké koncentrace dojde ke snížení na
50%, tedy k 50% inhibiční aktivitě hodnotu IC50. Průběh typické k ivky
inhibice je znázorněn na obrázku.
IC50 se dá použít jako míra inhibice
mezi několika látkami v rámci
jednoho nastavení experimentu.
V takovém p ípadě opět platí, že
čím menší hodnota IC50 tím silnější
inhibice. Proto se zavádí také
záporný logaritmus, který se sílou
inhibice roste
5 = −log 5 .
Průběh typické sigmoidální inhibiční k ivky a identifikace
hodnoty IC50
Nicméně hodnoty IC50 jsou závislé na způsobu provedení – zvláště na použitých
koncentracích substrátu a enzymu a na aktivitě enzymu proto lze zavést také inhibiční
konstantu Ki, která je na těchto koncentracích nezávislá. P epočet se provádí tzv. ChengPrusoffovou rovnicíμ
�
� = 50
[�] ,
+�
�
kde [S] je koncentrace substrátu a Km je Michaelisova konstanta – tedy koncentrace
substrátu, p i níž je aktivita enzymu polovinou maxima (tzv.
/ dle kinetiky podle
Michaelis-Mentenové).
Mezimolekulární interakce
Síla vazby i inhibice jsou vyjád itelné z rovnovážných konstant termodynamicky jako
standardní volná energieμ
∆
=−
ln�.
Gibbsova volná energie se skládá z enthalpického a entropického p íspěvkuμ
�
26
= �
−
�
Enthalpické p íspěvky jsou hlavně mírou síly interakce ligandu s receptorem
prost ednictvím jednotlivých mezimolekulových interakcí. Ty můžeme rozdělit takto:
•
•
Elektrostatické interakce
– interakce nábojů na
jednotlivých
atomech.
Vodík navázaný na uhlík
je nepolární a s nulovým
nábojem, naproti tomu
vodík na heteroatomech Ukázka působení elektrostatických a van der Waalsových
(kyslíku,
dusíku)
je interakcí a průběh potenciálu s nimi spojeným (čím zápornější
hodnoty, tím víc se atomy p itahují)
většinou parciálně kladně
nabit, což kompenzuje
záporný náboj těchto heteroatomů (polární vazba). Nabité atomy pak spolu
elektrostaticky interagují podle Coulombova zákona.
van der Waalsovy interakce – repulze proti pronikání valenčních atomových
orbitalů zabraňuje atomům nespojených kovalentní vazbou p iblížit se p íliš blízko
k sobě pod cca 2 Å,18 zatímco Londonovy disperzní interakce se díky interakcím
mezi indukovanými dipóly naopak snaží látky udržet u sebe, ale působí jen na
krátkou vzdálenost – nad 6 Å je v podstatě neznatelná.
Ukázka působení různých interakcí v DNA - (naho e) elektrostatické interakce vodíkovými můstky mezi
polárními atomy bazí jsou zodpovědné za molekulární rozpoznávání párů nukleotidových bazí; (dole)
disperzní interakce jsou zodpovědné za tzv. patrové interakce p i stabilizaci dvoušroubovice DNA.
18
Vzdálenosti jsou udávány mezi atomovými jádry
27
Specifické p ípady těchto interakcí, které se často opakují, jsouμ
•
Desolvatace – látka byla původně ve vodném prost edí a vazbou na receptor ztratila
jak ona, tak aktivní místo samo interakce s vodou. Záleží u nich podobně jako
u van der Waalsových interakcí na p ekryvu plochy receptoru ligandem, z které
byly vody vypuzeny, ale také je ovlivněna typem povrchu – nap . na nabitých
skupinách se voda "drží" silně, zatímco alifatické etězce drží vodu velmi slabě.
Tato složka tedy působí vždy proti vazbě ligandu.
•
Vodíkové
vazby
–
směrové,
p evážně
elektrostatické interakce mezi elektronegativním
tzv. akceptorem a elektropozitivním donorem,
který může poskytnout vodík
Vzdálenost mezi těžkými atomy19 donoru a
akceptoru vodíkové vazby je většinou kolem 3 Å
– od 2,5 do 3,5 Å a vodík na elektronegativní
atom mí í p ímo s maximální odchylkou kolem
30° (tj. úhel X-H-Y je 150°-210°).
Halogenové vazby – podobně jako u vodíku je
možné, že i halogeny napojené na systémy
odebírající jim elektrony jsou schopny dále
interagovat prost ednictvím kladně nabité tzv.
"sigma hole" na své odvrácené straně se záporně
nabitými atomy, které jim mohou poskytnout
elektronovou hustotu.
•
Z akceptoru vodíkové vazby též
p echází část elektronové hustoty do
vazby donoru a vodíku
Elektrostatický potenciál na CH3Br
a CF3Br z pohledu na atom bromu.
Kladný potenciál je obarven mod e,
negativní červeně.
Entropické p íspěvky jsou naproti tomu mírou neuspo ádanosti. Můžeme je rozdělit na
vlivy
•
Konformace – čím více konformací látka je schopná tvo it za běžné teploty, tím
více bude omezována vazbou v jedné specifické konformaci s receptorem.
•
Solvatace – Vody, které se uvolní z vazby k látce a k receptoru se budou moci
libovolně vázat k dalším vodám, což je pro ně entropicky výhodnější. Pokud je pro
ně vazba na další vody silnější, než k molekule, tak ji vytěsňují podobně jako olej –
tomuto efektu se íká hydrofobní efekt.
Tím se myslí v in silico drug designu v podstatě cokoliv těžšího než vodík – typicky uhlík, dusík, kyslík,
síra, fosfor
19
28
5. Co dělá molekulu léčivem?
Motto:
Q: What makes a compound a good drug?
A: What? Give it to the patient – if he survives and gets better, it was a good drug.
M. Paloncýová, ústní sdělení
Chemický prostor
Pokud budeme pracovat s běžnými atomy
•
•
•
•
•
C, H, O, N,
P, S, F, Cl, Br, I,
Molární hmotnost – MW < 500 Da,
1040 - 10120 látek,
100 000 lidských proteinů,
tak vlastně hledáme vhodnou látku v tomto obrovském množství možností, p ičemž některé
látky jsou schopny se vázat na více látekμ
Výhodné jsou pak hlavně molekuly, které se váží na svůj buněčný cíl specificky, ale aby se
stala látka léčivem tak musí splňovat další podmínky.
29
Podmínky kladené na léčiva
Vhodná hledaná molekula, tzv. lead compound, by měla být p edevšímμ
•
•
•
•
•
•
•
efektivní (potence - aktivita),
netoxická,
stabilní (chemicky a metabolicky),
dob e rozpustná ve vodě či oleji,
syntetizovatelná,
nová (patentovatelná),
vhodná formulace (tablety, čípky,…).
Ale to není vše. Vhodná lead molekula by měla dále splňovat i další podmínky:
•
•
•
•
•
•
•
•
•
•
•
•
•
aktivita závislá na koncentraci,
aktivní v biochemickém i buněčném testu,
hranice pro IC50 ( m, ideálně nm),
porozumění aktivity v rámci vztahu struktury a funkce (SAR),
známá vazebná kinetika,
dostatečná selektivita,
dob e určena struktura a čistota,
možnost optimalizace,
me itelná rozpustnost a vhodné logP/logD,
predikce možných problémů v metabolismu,
predpověď možností toxicity,
minimum možných vedlejších účinků,
a další…
Drug-likeness
Protože chemický prostor všech látek je p íliš rozsáhlý, zavádí se hodnocení
"drug-likeness" kritérií, tedy zda je molekulární struktura látky podobná léčivům a to
hlavně podle molekulové hmotnosti a dle obsahu funkčních skupin. Není to sice
stoprocentním mě ítkem, ale častokrát drug-likeness ukazuje na látky s vhodnou
biodostupností a nižší toxicitou. P íkladem drug-likeness kritérií jsou nap . Lipinskiho
pravidlo pěti, které bylo odpozorováno na základě analýzy struktur povolených FDA pro
orálně podávané léčiva.20
20
Lipinski CA, Lombardo F, Dominy BW, Feeney PJ. Experimental and computational approaches to
estimate solubility and permeability in drug discovery and development settings. Adv Drug Deliv Rev 1997;
23: 3–25
30
Lipinského pravidlo pěti
maximálně jedno porušení z pravidelμ
• Max 5 donorů vodíkových vazeb (NH, OH)
• Max. 10 akceptorů vodíkových vazeb (N, O)
• Molární hmotnost MW < 500 Da
• rozdělovací koeficient oktanol-voda – logP < 5
(ne p íliš hydrofobní)
• (občas se p idává ještě ne více než 5 rotovatelných vazeb)
Lipofilicita - LogP/LogD
U nízkomolekulárních látek se často pracuje s logP (nebo také logKow),
což je dekadický logaritmus rozdělovacího koeficientu oktanol/voda,
který se stanovuje na základě rovnovážných koncentrací látky S ve
vodě a v oktanolu (viz obrázek).
[ ]
log� = log� /
= log
[ ]
Experimentální
uspo ádání
stanovení poměru
látky v oktanolu a
ve vodě – logKow –
v děličce
Tato hodnota je dobrým mě ítkem pro
stanovení poměru mezi rozpustností
látky v tucích (membrány), a ve vodě
(krev) – její lipofilicitu. Lipofilicita
látky je její důležitý parametr, protože
ovlivňuje
spoustu
vlastností
ovlivňujících biologickou dostupnost
látky – nap íklad zvyšuje prostup
látky p es buněčné membrány, ale Vlastnosti látek ovlivňované logP
současně snižuje rozpustnost ve vodě a další vlastnosti (viz obrázek).
Kromě logP se zavádí i logD, který bere v potaz i ionizovatelnost nabitých skupin
[ ]
log = log
é
á í
[ ]
+[ ]
Fyzikálně chemické vlastnosti známých léčiv
Oprea v roce 2000 analyzoval struktury léčiv21 a zjistil, že nejčastěji splňují tyto podmínky:
• Počet rotovatelných vazeb < 10
• MW < 460
22
• Počet donorů vodíkových vazeb < 5
• 4 < ClogP < 4.2
• Počet akceptorů vodíkových vazeb < λ
• 0 < logD7.4 < 3
• 1 – 4 kruhy (jen 4% žádný kruh nemají)
• rozpustnost ve vodě - log Sw < −5
21
22
Oprea. J. Comp. Aided Mol. Des. (2000) 14: 251
tzv. vypočítané logP - Calculated logP
31
Časté strukturní motivy
V léčivech se často vyskytují následující funkční skupiny23:
23
David C. Young - Computational Drug Design: A guide for computational and medicinal chemists. WileyBlackwell, New York, 2009, ISBN 978-0470126851
32
Zakázané skupiny
Naopak následujících skupin je lepší se vyvarovatμ
• thiomočovina, disulfidy, thioly (p estože v některých léčivech jsou),
• estery, amidy (snadno se degradují esterázami a proteázami)beta-laktamy
(resistence v bakteriích), O-nitro, alkoxypyridinium, benzofenon, oxadiazin,
fluorenon a acylhydrochinony
Promiskuitní skupiny
Váží se často na více cílů a většinou je lepší se jim vyhnout.
33
Odhad toxicity
Dalším obtížným úkolem je odhad, jak moc toxická látka bude – nejčastěji určením dávky
LD50, tj. dávky která zahubí 50% jedinců. Poměrně záleží na struktu e látky a funkčních
skupinách v ní obsažených. Nap íklad v tomto seznamu látek se azených dle akutní orální
toxicity si můžete všimnout, že p ítomnost P=S skupiny je v jednom p ípadě (parathion)
velice toxická, zatímco v druhém p ípadě je poměrně neškodná (malathion)
(látky jsou azeny podle odshora dolů od nejvyšší toxicity)
Případ toxického léčiva – Thalidomid
Nejznámějším p íkladem nebezpečného léčiva s neodhadnutým
toxickým účinkem je bezesporu thalidomid. Tato látka byla
firmou Grünenthal vyvinuta v padesátých letech 20. století a
byla v západní Evropě používána jako zázračný lék na léčbu
nespavosti, kašle a bolesti hlavy a prodával se bez léka ského
p edpisu. Bohužel u samoléčby ranních nevolností u těhotných
žen se prokázaly jeho teratogenní účinky. Následky byly
tragické a vedly k více než desetitisíci p ípadů potratů a
narození postižených dětí. V USA registraci thalidomidu
zabránila tehdejší šéfka FDA Frances Oldham Kelsey, když
firma nedodala výsledky testů toxicity pro požadovanou
registraci ani po pěti odmítnutích. Tím byly USA uchráněny
tragédie. Registrační proces léčiv se i díky této afé e
tzv. lachtaních dětí (dle deformací končetin) stále zp ísňuje.
Thalidomid je o chirální látka: (R)-forma slouží jako mírné
sedativum, (S)-forma se interkaluje do DNA, což vede
k teratogenním účinkům. Látka navíc v in vivo podmínkách
racemizuje. Dnes se uvažuje o použití derivátů thalidomidu pro
léčbu lepry, nebo některých druhů rakoviny, kde by jeho
teratogenní účinky nevadily.
34
thalidomid
(černě kyslíky, šedě uhlíky,
světle šedě dusíky, bíle
vodíky)
thalidomidem poznamenané
děti se vyznačovaly krátkými
končetinami
6. Chemoinformatika – reprezentace a ukládání "klíčů"
Motto:
Knihovna v Alexandrii neobsahovala tolik dat, jako je dnes veřejně dostupné o jednotlivých
chemikáliích. Chemoinformatika je jediná šance, jak se v nich vyznat.
autor
Chemoinformatika jakožto vědecká disciplína, která studuje aspekty reprezentace a použití
chemických informací v počítačích s p esahy k biologii vlastně započala už poměrně záhy
se začátky historie počítání – v 50. letech 20. století byly uvedeny první statistické modely,
v 60. letech pak první reprezentace molekul v počítačích, ale termín "Chemoinformatika"
se objevil až v λ0. letech, p ičemž velká většina základní práce byla podporována
farmaceutickým průmyslem a jeho pot ebou výzkum léčiv racionalizovat.
Chemoinformatika je výrazně propojená s dalšími oblastmi využití počítačů v chemickém
výzkumu, jako jsouμ
•
•
•
•
•
•
výpočetní chemie – aplikace matematických a výpočetních metod ke studiu chování
molekul a jejich reakcí v (sub)atomárním mě ítku,
molekulární modelování – použití 3D grafiky k pochopení chování molekul
v atomárním mě ítku,
CADDD – použití výpočetních metod k návrhu léčiv,
chemogenomika – studium vztahů mezi chemickými sloučeninami a geny,
bioinformatika – zpracování biologických dat počítači,
biomedicinální informatika – zpracování klinických dat.
Chemoinformatika má několik tradičních oblastí použití (návrh léčiv, tvorba databází
známých sloučenin a shromážďování a predikce jejich vlastností, indexování článků
v impaktovaných časopisech, databáze patentů – nap . Google Scholar,24 apod.), ale
poslední dobou se p idávají nové oblasti zájmu (databáze metabolických drah,
polyfarmakologie, toxikologie, apod.). Navíc se poslední dobou poměrně výrazně zvětšilo
množství informací dostupných ve ejně v otev ených datech v databázích typu PubMed,25
PubChem,26 ChemSpider,27 ChEMBL,28 apod. a jejich vzájemná integrace nap íklad s
bioinformatickými databázemi struktur proteinů – PDB,29 sekvencí – UniProt,30 nebo
metabolických drah – KEGG31.
24
http://scholar.google.com
http://www.ncbi.nlm.nih.gov/pubmed
26
http://pubchem.ncbi.nlm.nih.gov/
27
http://www.chemspider.com/
28
http://www.ebi.ac.uk/chembl/
29
http://rcsb.org
30
http://www.uniprot.org/
31
http://www.genome.jp/kegg/
25
35
Vyřešené problémy chemoinformatiky více méně
 Jak reprezentovat chemické struktury v 2D a 3D tak aby se struktura dala použít i
pro něco jiného než jen obrázek?
 Jak prohledávat databáze chemických látek i nějak šikovněji, než jen pomocí jejich
triviálních názvů?
 Jak organizovat velká množství chemických informací?
 Jak vizualizovat chemické struktury a proteiny?
 Jak predikovat aspoň některé vlastnosti chemikálií a to i těch, které ještě nikdo
nikdy nep ipravil?
Nevyřešené problémy chemoinformatiky
 Jak integrovat chemické informace různého typu a z různých zdrojů?
 Jak integrovat bioinformatické nástroje a nástroje dalších oblastí výzkumu?
 Jak predikovat systémové komplexní efekty chemikálií na člověka v celé ší i účinků
na celý organizmus – systémová chemická biologie?
 Jak extrahovat a vyzískávat informace z impaktovaných vědeckých článků?
(nejčastější formát PDF je sice vhodný k tisku, ale jde o jeden z nejhorších formátů
pro strojové čtení)
Ukládání struktur v počítači
Jednotlivé molekuly lze ukládat v počítači s různou úrovní reprezentace a detailu. V zásadě
lze rozlišit čty i druhy zápisu molekulμ



1D – ádkový zápis sekvence atomů,
2D – zápis topologie s p ehledným zobrazením vyznačením vazeb a interakcí,
3D – zápis struktury molekuly včetně,.
molekula /
zápis
Ethanol
1D – sekvence
2D – topologie
3D – struktura
CCO
Ať už je způsob zápisu látek jakýkoliv, souhrn látek a od nich odvozených vlastností lze
zapisovat, procházet a využívat v chemických databázích a knihovnách látek.
Chemické knihovny látek
Knihovny látek jsou zamě ené databáze látek sestavené k nějaké p íležitosti (vývoj léku,
látky z jednoho zdroje, apod.) a slouží p edevším k ukládání látek a provádění prvotních
analýz a procházení látek podle vlastností (drug-likeness, logP, Lipinski) a podle
podobných struktur.
36
Knihovny mohou být buď (i) co nejširší, nap íklad pro vyhledávání vhodného skeletu
("scaffold") pro návrh nové "lead" látky s co největší strukturní rozmanitostí v první fázi
hledání léčiva, nebo naopak (ii) mohou být zamě ené už na nějaký určitý výsek látek pro
optimalizaci vlastností "lead" molekuly nap íklad metodami kombinatoriální chemie.
Chemické databáze by měly být schopny vyhledávat v molekulách nejen podle jejich
názvu, ale také podle strukturní (3D), či topologické (2D) podobnosti, nebo podle nějakého
společného motivu, či funkční skupiny. Dále většinou umožňují výpočty predikce
důležitých fyzikálně chemických vlastností (pKa, logP/logD, rozložení náboje, rozpustnost)
a t ídění molekul.
1D reprezentace struktury – textová sekvence
Textový zápis molekuly v etězci má jednu ze základních výhod – umíme ho bez problémů
číst, neboť zápis písmem do textu je vlastně i zápis názvu molekuly ať už triviálním, nebo
IUPAC názvoslovím. Velkou výhodou tohoto typu zápisu může být jeho relativní
jednoduchost a také fakt, že informatici vyvinuli již velké množství algoritmů na efektivní
prohledávání textu, vyhledávání motivů a podobně.
Způsoby 1D zápisuμ
•
•
•
•
•
32
název – triviální nebo dle IUPAC
kódy databází chemikálií - CAS number zajišťovaný Americkou chemickou
společností,32 PubChem CID, apod. – jen pro registrované molekuly
SMILES – nejrozší enější metoda 1D zápisu molekuly – ádkový textový etězec
kóduje celou topologii molekuly
SMARTS – jazyk pro vyhledávání v 1D zápisech (hlavně SMILES)
InChI – IUPAC sekvenční zápis podobný SMILES, ale s mnohem kompletnějším
popisem molekuly – proto je také mnohem delší a pro rychlé vyhledávání využívá
hash jako tzv. InChIkey.
http://www.acs.org/content/acs/en.html
37
SMILES
SMILES je zkratka pro Simplified molecularinput line-entry system a byl poprvé zaveden
Davidem Weiningerem z USEPA MidContinent Ecology Division Laboratory
v Duluthu (USA) v Ř0. letech 20. století.33 Jde
o p evod struktury vyjád ený jakožto
chemický topologický graf do jedné ádkové
sekvence (viz obrázek). P i tvorbě SMILES
zápisu se nejprve označí nejdelší možný
souvislý nep erušený
etězec v rámci
molekuly a posléze se vy eší větvení.
Atomy jsou reprezentovány tak, že vodíky
jsou implicitní a p i p evodu zpět do 2D, nebo
3D se dopočítávají podle vaznosti. Atomy jsou
reprezentovány svými značkami v hranatých
závorkách – [Au]; to neplatí pro nejčastější
"organické" atomy, kde se závorky
vynechávají – B, C, N, O, P, S, F, Cl, Br, a I.
Aromatické atomy se uvádí malým písmem, Tvorba SMILES zápisu pro molekulu
Soubory SMILES mají koncovku .smi
alifatické velkým.
Izotopy uvádějí v hranatých závorkách nukleonové číslo p ed symbolem atomu – [2H].
Náboj se uvádí za symboly atomů značkami + nebo – odpovídajícími velikosti náboje –
hydroxidový aniont je [OH-], zatímco oxoniový kationt je [OH3+]ν vápenatý kation je buď
[Ca++], nebo [Ca+2].
Vazby jsou reprezentovány následovněμ jednoduché – neznačí se (CC – ethan); dvojné
(O=O – kyslík); trojné (N#N – dusík)ν čty né ([Ga-]$[As+]).
Kruhy jsou napojovány podle návěstidel označujících místa
rozpojení pomocí čísel v desítkové soustavě –
nap . C1CCCCC1 – cyklohexan, c1cccc2c1cccc2 - naftalen.
Větvení se reprezentuje pomocí zavádění závorek –
nap . C(Cl)(Cl)Cl – chloroform.
N[C@@H](C)C(=O)O
Stereochemie se značí buď na dvojné vazbě pomocí symbolů nebo N[C@H](C(=O)O)C
“/” a “\” (F/C=C/F – trans-difluoroethen), nebo označením L-(+)-alanin
chirálního atomu podle směru rotace značkou @ ev. @@ (po směru hodinových ručiček) –
značně záleží na způsobu zápisu dalších skupin.
33
Anderson, E.; Veith, G. D.; Weininger, D. (1987). SMILES: A line notation and computerized interpreter
for chemical structures. Duluth, MN: U.S. EPA, Env. Research Laboratory-Duluth.
Report EPA/600/M-87/021
38
SMARTS – jazyk pro vyhledávání substruktur
Když chceme mezi molekulami vyhledávat, tak často můžeme vyhledávat pomocí SMILES
zápisu dotyčné podstruktury. Ale jistě Vás napadne, že takové hledání by bylo p íliš
omezené tím, zda bude stejně zapsána i v SMILES samotné látky. Nehledě na nějaké
složitější vyhledávání – t eba kde je substruktura napojena.
Proto byly zavedeny SMARTS (SMiles ARbitrary Target Specification), které jsou vhodné
právě pro pokládání dotazů. Jednoduchým p íkladem SMARTS může být nap íklad
*C(=O)O – dotaz na karboxylovou kyselinu, kde je navíc jen hvězdička, která udává místo
napojení. Ale kromě napojení se dá definovat i spousta dalších věcíμ
•
•
•
•
•
•
Atomy – symbol nebo atomové číslo [C], [#6], [C,c],
– aromáty malým písmem [c],
– Regulární výrazyμ * (jakýkoliv atom), A (alifatika), a (aromát)
Vazby - '-' (jednoduché), '=' (dvojné), '#' (trojné), 'μ' (aromatické), '~' (libovolné)
Vaznost – X a D deskriptory – nap . [CX4] je uhlík s vazbami na 4 jiné atomy, ev.
[CD4] je kvartérní uhlík
Cykly – R deskriptor – pro účast v kruhu – nap . [CR] je alifatický uhlík v kruhu,
@ - cyklická vazba – nap . C@C je vazba mezi dvěma alifatickými atomy v kruhu
Logické operátory – jednotlivé deskriptory se dají kombinovat pomocí logických
operátorů
– AND - ';' – nap . [N;H3;+][C;X4] je protonovaný primární amin
– OR – ',' má větší prioritu než operátor ';' – nap . [c,n;H] je buď aromatický
uhlík s navázaným vodíkem, nebo aromatický dusík s navázaným vodíkem
– AND - '&' má větší prioritu než ',' – nap . [c,n&H] je buď aromatický uhlík,
nebo aromatický dusík s navázaným vodíkem
– NOT - '!' – zápor – nap . [C;!X4] je nesaturovaný alifatický uhlík; *-!@* je
pak necyklická jednoduchá vazba.
Rekurzivní SMARTS – pomocí $ je možné dodefinovávat i okolí atomu – nap .
[$(c1c([OH])cccc1),$(c1ccc([OH])cc1)] je SMARTS dotaz na ortho a para uhlíky
na fenolu.
SMARTS tak umožňují vytvo it si vyhledávací dotaz pro vhodnou molekulu. Dokonce se
pomocí nich dají definovat farmakofory, což jsou vlastně motivy, které mají nějakou
biologickou funkci. Více se o nich dozvíte v kapitole Farmakofory.
Kromě SMARTS ale existuje mnoho dalších chemoinformatických dotazovacích jazyků
tzv. query jazyků. Wikipedia udává nap . tytoμ QL, ALPHA, CQL, Cypher, D, DMX,
Datalog, ISBL, LDAP, LINQ, MQL, MDX, OQL, OCL, QUEL, SMARTS, SPARQL,
XQuery, XPath.
39
InChI
Protože pro tvorbu SMILES nebyl dlouhou dobu vytvo en kanonický návrh, který by tutéž
molekulu vždy zapsal v každém programu stejně, byl navržen konsorciem IUPAC další
etězový způsob 1D záznamu – InChI, tzv. IUPAC International Chemical Identifier.
CH3CH2OH
ethanol
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-8,10-11H,1H2/t2,5+/m0/s1
L-ascorbic acid
Každé InChI začíná etězcem "InChI=", za kterým následuje označení verze (aktuálně 1).
Následně se používá písmeno S, pokud se jedná o standardní zápis InChI (SInChI).
Zbývající informace jsou strukturovány do jednotlivých vrstev a podvrstev, které jsou od
sebe odděleny pomocí dělítka "/" a které začínají charakteristickým znakemμ
InChI=1(S pro standard)/ chemický vzorec/ c(spojení atomů)/ h(vodíky)/ p(protony)/
q(náboj)/ b(dvojné vazby)/ t ev. m(čty stěn) / s(typ stereochemie)/ i(isotopy)/ ...
Hlavních šest vrstev dělených dále do podvrstev jeμ






40
Hlavní vrstva
o chemický sumární vzorec (bez písmene) - tato podvrstva je povinná.
o spojnice atomů ("c") - atomy (bez vodíků) ve sloučenině jsou číslována
podle sekvence. Tato podvrstva definuje, jak jsou atomy v sekvenci mezi
sebou spojeny.
o vodíky ("h") - popisuje, kolik vodíků je spojeno ke každému atomu.
Vrstva náboje
o protony ("p")
o náboj ("q")
Stereochemická vrstva
o dvojné vazby ("b")
o tetraedrická sterochemie ("t", "m")
o typ stereochemie ("s")
Isotopická vrstva
o izotopy ("i", "h") – mohou mít i vlastní definou stereochemii
Vrstva fixovaných vodíků ("f") – obsahuje některé z p edchozích typů – nikdy
v SInChI
Vrstva p epojení ("r") – obsahuje kompletní InChI pro strukturu s p epojeným
atomem kovy – nikdy v SInChI
Dělení do vrstev je výhodné, protože uživatel může snadno prohledávat pouze informace
obsažené jen v některých vrstvách.
InChI má ale jednu značnou nevýhodu – je moc dlouhé. Proto byl zaveden tzv. InChIKey,
který je zkráceným zápisem za využití hashovacích funkcí.
InChIKey
InChIKey je tvo en 27 písmen dlouhým hash klíčem (SHA-256 algoritmus) pro standartní
InChI. Tento hashovací klíč je vytvá en pro urychlení hledání.
Hashovací funkce je matematická funkce (resp. algoritmus) pro p evod vstupních dat do
(relativně) malého čísla. Výstup hashovací funkce se označuje výtah, miniatura, otisk,
fingerprint či hash (česky též někdy jako haš). Hashovací funkce se většinou používají
k rychlejšímu prohledávání tabulky nebo pro porovnávání dat – nap íklad pro hledání
položek v databázi, odhalování duplicitních záznamů ve velkém souboru.
InChIKey se skládá z 14 znaků vznikajících z hashe vrstvy konektivity z InChI. Ty posléze
následuje pomlčka, za níž pokračují další λ znaků vznikajících z hashe zbývajících vrstev
v InChI. Nakonec je uveden 1 znak označující verzi použitého InChIKey následovaný
druhou pomlčkou a jedním znakem pro kontrolní součet.
Existuje velmi malá, ale konečná šance, že by dvě molekuly mohly mít stejný InChIKey,
ale pravděpodobnost alespoň jedné duplicity pro prvních 14 znaků byla p edpovězena jako
1 vůči 75 miliardám látek. Vzhledem k tomu, že v současných databázích se nachází cca
jen 50 milionů sloučenin, tak se v současnosti neočekává, že by délka InChIKey
p edstavovala velký problém.
Příklad: Morfin
InChI
InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)2115-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,1920H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1
2D struktura
InChIKey
BQJCRHHNABKAKU-KBQPJGBKSA-N
41
2D reprezentace struktury – topologie
Interní reprezentace pro 2D strukturu je matematický
graf, nebo vlastně chemický graf. Skládá se ze dvou
základních tabulek popisujících topologii molekulyμ


tabulky zapisující vyskytující se atomy, tzv. atom
lookup table, včetně jejich vlastností – nap . typ,
tabulky spojení mezi atomy, tzv. connection
table, která popisuje, jak jsou jednotlivé atomy
spojeny a jakými vazbami
(1 – jednoduchá, 2 – dvojná, 3 – trojná a
4 – "aromatická" vazba).
Povšimněte si, že pokud chceme pro každou molekulu
vždy zajistit, aby byla číslována vždy stejně, pot ebujeme Tabulky popisující 2D strukturu
paracetamolu
(acetaminofen)
–
k tomu standardizační algoritmus.
naho e atom lookup table, dole
Tuto
roli
hraje connection table.
Morganův algoritmus, Dle http://icep.wikispaces.com/
ve kterém se nejd íve každému atomu p i adí hodnota
konektivity, tj. ke kolika atomům je p ipojen. Hodnota
konektivity je pak iterativně p episována součtem
hodnoty konektivity s konektivitami sousedních atomů,
dokud není maximalizován počet různých hodnot pro
jednotlivé atomy. Atomy jsou pak očíslovány podle
klesajícího po adí podle jejich výsledné hodnoty pro
Ukázka Morganova algoritmu
konektivitu. Pokud jsou i p es to hodnoty pro dva a více
Nejprve se určí konektivity pro
atomů stejné, tak se využijí další vlastnosti (nap .
jednotlivé atomy a posléze se
sečtou s konektivitami v okolí a
atomové číslo, ád vazby, apod.). Morganův algoritmus je
následně se určí jednoznačné
tak zásadní pro tvorbu standardních tzv. kanonických
po adí atomů
reprezentací, nap . kanonických SMILES.
Nicméně reprezentaci mohou některé chemické nuance poněkud
komplikovat – a to hlavně stereochemie, aromaticita a
tautomerizace.
Stereochemie není ve většině reprezentací a priori uchovávána a
k jejímu zachování je t eba použít reprezentaci, která je
stereochemii zachovávat – v 1D nap íklad isomerické SMILES a
InChI.
Aromaticita poněkud mate v označení, zda se vazby mají
označovat jako st ídání jednoduchých a dvojných, nebo jako
"aromatické".
42
Tautomerismus je důvodem, proč mohou být některé funkční skupiny reprezentovány
různě nap . p i různém pH.
Formátů zápisu 2D struktury je poměrně hodně – ať už proprietární, které vznikaly
dohromady s jednotlivými chemickými kreslícími programy, jako jsou SKC (ChemSketch),
CHM a CDX (ChemDraw), MRV (Marvin), tak i p enosné formáty MOL, SDF a RDF.
Jen hrozí nebezpečí, že formát pro zápis 3D struktury může být stejný (nap . u SDF) a pak
může být uživatel poměrně p ekvapen, když je struktura v souboru naprosto planární a tedy
jde o 2D zápis molekuly.
3D reprezentace struktury - geometrie
Zatímco 2D struktura nám dává informaci, jak jsou k sobě atomy v molekule spojeny a
tento úkol se dá p enést relativně jednoduše na papír a chemici si tak molekuly zapisují už
po staletí, tak molekula je samoz ejmě 3D objekt, který vyžaduje i 3D zápis. Stavebnice
chemických modelů nám molekuly ve 3D ukazují, ale počítačová grafika nám molekuly
umožňuje vidět i v pohybu a umožňuje nám pochopit i závislosti, které nejsou bez modelu
vůbec zjevné – t eba že se dvě sekvenčně vzdálené části proteinu hodně ovlivňují, protože
ve struktu e složeného proteinu jsou vlastně hned vedle.
Většina 3D strukturní informace, které dnes používáme na atomární úrovni, pochází ze t í
zdrojůμ X-ray krystalografie, NMR spektroskopie nebo počítačově vytvá ené 3D struktury.
Situaci v 3D oproti 2D komplikuje i konformační flexibilita molekul, kdy většina molekul
obsahuje alespoň jednu rotovatelnou vazbu. Takže pro každou molekulu není jen jedna
reprezentace tak jako ve 2D, tak vlastně nekonečné množství možných konformací pro
každou rotovatelnou vazbu v molekule.
Ale ne všechny konformery jsou si rovny – molekuly preferují konformery s nižší energií
oproti konformerům s vyšší energií. Takže se většinou ukládá jen jeden konformer
s nejnižší energií a ostatní se vytvá ejí později pomocí algoritmů, nebo se uloží konformerů
víc s dostatečně nízkou energií.
Rotovatelné vazby se dají nejčastěji rozpoznat podle toho, že nejsou součástí kruhu (ale
kruh se může prohýbat a vytvá et tak více konformací), není to vazba k p ípojení terminální
skupiny (jako nap . methyl) a není součástí konjugovaného systému (i když i ty se mohou
částečně rotovat podle stupně konjugace). Stupeň rotace kolem vazby se dá vyjád it pomocí
dvou synonymních termínů – torzního, nebo dihedrálního úhlu, který spolu svírají vektory
vazeb mezi atomy A-B a C-D pro rotovatelnou vazbu B-C z následujícího p íkladu
molekuly A-B-C-D:
43
Pro ukládání 3D konformace musíme kromě informací o konektivitě ukládaných
v 2D topologii ještě ukládat i koordináty jednotlivých atomů. Tato informace se zapisuje
ve formě tabulky s jednotlivými ádky popisujícími pozici jednotlivých atomů, nejčastěji
v jednotkách Ångström (1 Å = 10-10 m) nebo nm (1 nm = 10-9 m). Ångströmy mají tu
výhodu, že zhruba odpovídají velikosti poloměrů atomů. Nejčastěji se používají dva
sou adné systémyμ


Kartézský souřadný systém s pozicemi atomů vyjád ených v XYZ koordinátách
vůči t em hlavním osám. Každý atom má pak určeny 4 parametry –
typ a 3 sou adnice. Snadno se pak počítají vzdálenosti mezi jednotlivými atomy.
Z-matice, kde se specifikuje pozice atomu pomocí vzdáleností, úhlů a dihedrálních
úhlů vůči ostatním atomům. Tento způsob zápisu má ale nevýhodu, že nap íklad
výpočet jak daleko jsou dva atomy od sebe, vyžaduje p epočet p es ostatní atomy.
zápis konformeru molekuly v kartézském sou adném
systému
matice vzdáleností mezi jednotlivými atomy
Nejjednodušší způsob zápisu 3D struktury do souboru je tzv. XYZ, což je poměrně volný
formát, který skutečně počítá jen s typy atomů a jejich kartézskými koordinátami.
Neobsahuje tedy tabulku konektivit.
ádek
1
2
3-X
Sekce
Hlavička
Blok
atomů
Popis
XYZ
5
Počet atomů
methane molecule (in [Ångström])
Komentá
0.000000
0.000000
0.000000
(1
ádek pro C
H
0.000000
0.000000
1.089000
každý atom)μ
H
1.026719
0.000000 - 0.363000
prvek, x, y, z
H 0.513360 - 0.889165 - 0.363000
H -
V p ípadě animace se to opakuje …
44
0.513360
0.889165 -
0.363000
Dalším oblíbeným formátem je tzv. PDB, tzv. Protein DataBank file, který vyvinulo
konsorcium wwPDB k ukládání struktur proteinů. Dnes je v tzv. PDB databázi p es
100 000 struktur nejen proteinů, nukleových kyselin, ale i ligandů a léčiv. V PDB souboru
je vždy uveden každý ádek až šestipísmenným klíčovým slovem definujícím jaké
informace se na ádku nacházejí a následně na p esných pozicích uvedené další údaje, aby
bylo možné tento soubor počítačově zpracovat. Atomy jsou zde rozděleny na ATOM a
HETATM podle toho, zda jde o atom pat ící mezi standardní jednotky proteinů a
nukleových kyselin – aminokyseliny a jednotlivé nukleotidy, nebo zda jde o nějaký méně
častý ligand, jako t eba ATP, léčiva, ale t eba i fulleren. Pro p enos struktury si PDB formát
vystačí jen s těmito dvěma klíčovými slovy, ale může obsahovat mimojiné také i
connection table záznam v polích označených jako CONECT.
EXTRACELLULAR MATRIX
22-JAN-98 1A3I
X-RAY CRYSTALLOGRAPHIC DETERMINATION OF A COLLAGEN-LIKE
2 PEPTIDE WITH THE REPEATING SEQUENCE (PRO-PRO-GLY)
X-RAY DIFFRACTION
R.Z.KRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO
2 B.BRODSKY,A.ZAGARI,H.M.BERMAN
350 BIOMOLECULE: 1
350 APPLY THE FOLLOWING TO CHAINS: A, B, C
350
BIOMT1 1
1.000000 0.000000 0.000000 0.00000
350
BIOMT2 1
0.000000 1.000000 0.000000 0.00000
PRO PRO GLY PRO PRO GLY PRO PRO GLY
PRO PRO GLY PRO PRO GLY
PRO PRO GLY PRO PRO GLY
21.206
20.729
20.707
21.457
21.530
20.336
19.092
19.005
1.00
1.00
1.00
1.00
17.44
17.44
17.44
17.44
N
C
C
O
401
401
401
3.682
2.807
4.306
22.541
23.097
23.101
11.236
10.553
12.291
1.00 21.19
1.00 21.19
1.00 21.19
C
O
O
značka atomu
8.316
7.608
8.487
9.466
obsazenost
nejčastěji 1.00,
může být míň
B-faktor (flexibilita)
6 pozic –zarovnani
tečky
1
1
1
1
Z [Å]
8 pozic –zarovnani
tečky
C
ACY
O
ACY
OXT ACY
A
A
A
A
Y [Å]
8 pozic –zarovnani
tečky
PRO
PRO
PRO
PRO
typ residua/molekuly
3 pozice
etězec – 1 pozice
číslo molekuly
4 pozice
130
131
132
N
CA
C
O
typ atomu
3 pozice
1
2
3
4
9
6
6
X [Å]
8 pozic –zarovnani
tečky
1 A
1 B
1 C
číslo atomu
5 pozic
klíčové slovo
6 pozic
HEADER
TITLE
TITLE
EXPDTA
AUTHOR
AUTHOR
...
REMARK
REMARK
REMARK
REMARK
...
SEQRES
SEQRES
SEQRES
...
ATOM
ATOM
ATOM
ATOM
...
HETATM
HETATM
HETATM
Ukázka PDB souboru pro krátký kolagenózní peptid s vysvětlením pozic u zápisu atomů.
45
Protože je ale PDB formát velice rigidní, co se počtu pozic na ádku týče, tak nové
struktury velkých systémů (nap . ribozomy) se do nich už nedají uložit, protože 5 pozic pro
číslo atomů dává maximum pro nejvýše λλ λλλ atomů. Proto je od roku 2014 novým
standardem pro ukládání struktur v PDB databance formát PDBx/mmCIF, a formát PDB
bude od roku 2016 konsorciem wwPDB opuštěn.34
Formát PDBx/mmCIF je podobný formátu XML pro ukládání strukturovaných informací
pomocí párů klíčových slov a tabulek. Nemá žádná omezení pro počet atomů
(PDB: 99 λλλ), residuí (PDBμ 9 λλλ), či etězců (PDBμ 30) a tak se větší struktury již
nebudou muset dělit do více PDB zápisů. Chemický popis všech monomerů a ligandů
v PDB je poskytován z PDB Chemical Component Dictionary.
loop_
_atom_site.group_PDB
_atom_site.id
_atom_site.type_symbol
_atom_site.label_atom_id
_atom_site.label_alt_id
_atom_site.label_comp_id
_atom_site.label_asym_id
_atom_site.label_entity_id
_atom_site.label_seq_id
_atom_site.pdbx_PDB_ins_code
_atom_site.Cartn_x
_atom_site.Cartn_y
_atom_site.Cartn_z
_atom_site.occupancy
_atom_site.B_iso_or_equiv
_atom_site.Cartn_x_esd
_atom_site.Cartn_y_esd
_atom_site.Cartn_z_esd
_atom_site.occupancy_esd
_atom_site.B_iso_or_equiv_esd
_atom_site.pdbx_formal_charge
_atom_site.auth_seq_id
_atom_site.auth_comp_id
_atom_site.auth_asym_id
_atom_site.auth_atom_id
_atom_site.pdbx_PDB_model_num
ATOM
1
N N
. VAL A 1 1
ATOM
2
C CA . VAL A 1 1
ATOM
3
C C
. VAL A 1 1
ATOM
4
O O
. VAL A 1 1
ATOM
5
C CB . VAL A 1 1
ATOM
6
C CG1 . VAL A 1 1
ATOM
7
C CG2 . VAL A 1 1
ATOM
8
N N
. LEU A 1 2
ATOM
9
C CA . LEU A 1 2
ATOM
10
C C
. LEU A 1 2
ATOM
11
O O
. LEU A 1 2
ATOM
12
C CB . LEU A 1 2
ATOM
13
C CG . LEU A 1 2
ATOM
14
C CD1 . LEU A 1 2
ATOM
15
C CD2 . LEU A 1 2
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
6.204
6.913
8.504
8.805
6.369
7.009
5.246
9.096
10.600
11.265
10.813
11.099
11.322
11.468
11.423
16.869
17.759
17.378
17.011
19.044
20.127
18.533
18.040
17.889
19.184
20.177
18.007
16.956
15.596
17.268
4.854
4.607
4.797
5.943
5.810
5.418
5.681
3.857
4.283
5.297
4.647
2.815
1.934
2.337
0.300
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
49.05
43.14
24.80
37.68
72.12
61.79
80.12
26.44
26.32
32.96
31.90
29.23
37.71
39.10
37.47
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
Ukázka zápisu koordinát ve formátu PDBx/mmCIF
34
http://mmcif.wwpdb.org/docs/faqs/pdbx-mmcif-faq-general.html
46
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
VAL
VAL
VAL
VAL
VAL
VAL
VAL
LEU
LEU
LEU
LEU
LEU
LEU
LEU
LEU
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
N
CA
C
O
CB
CG1
CG2
N
CA
C
O
CB
CG
CD1
CD2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
A nakonec asi nejužívanějším formátem pro malé molekuly je MOL, tzv. MDL molfile,
který byl vyvinut firmou Tripos a je tvo en následujícími částmi, jak si ukážeme v p íkladu
benzenu:
11-16
17
18
Spojovací tabulka (Ctab)
3
4
5-10
Hlava
ádek Sekce
1
2
$$$$
Popis
Název molekuly
Dodatečné
informace
Komentá
Součet linek:
blok atomů
(1
ádek pro
každý
atom):
x, y, z, prvek, etc.
blok vazeb
(1
ádek pro
každou vazbu):
1. atom, 2. atom,
typ, etc.
MOL, SDF
benzene
ACD/Labs0812062058
6 6 0 0 0 0 0 0 0 0 1 V2000
1.9050 -0.7932 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.9050 -2.1232 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.7531 -0.1282 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
0.7531 -2.7882 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-0.3987 -0.7932 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-0.3987 -2.1232 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
2 1 1 0 0 0 0
3 1 2 0 0 0 0
4 2 2 0 0 0 0
5 3 1 0 0 0 0
6 4 1 0 0 0 0
6 5 2 0 0 0 0
M END
Blok vlastností
(jen SDF)
V p ípadě SDF $$$$
další molekula
MOL soubory dokonce mohou sloužit k ukládání celých databází struktur, kdy se jednotlivé
struktury od sebe oddělí pomocí $$$$ znaku. V takovém p ípadě se používá častěji
označení SDF tedy structure-data file. SDF formát navíc může obsahovat také skoro
libovolné asociované data, nap . <Molecular Weight>499.61.
Dostupné databáze 3D struktur
Nejrozsáhlejší databáze experimentálních 3D chemických struktur je Cambridge Structural
Database,35 která obsahuje v roce 2015 již více než Ř00 000 struktur získaných rentgenovou
krystalografií. Kromě placené databáze se dají experimentální struktury
nízkomolekulárních látek získat i z databáze PDB.36 A nakonec existují i databáze
s počítačem generovanými 3D strukturami, jako je t eba již zmíněný PubChem.
35
36
http://www.ccdc.cam.ac.uk/Solutions/CSDSystem/Pages/CSD.aspx
http://pdb.org
47
Generování D struktur
Pakliže neznáme strukturu nízkomolekulární látky z experimentu, tak je možné si ji
vygenerovat z 2D struktury pomocí různých programů jako je nap . OpenBabel, Corina,
Omega, Marvin, ChemDraw, ChemSketch a podobně. Tyto programy vytvá ejí
3D struktury pomocí definovaných pravidel, ale ne nutně musí vygenerovat strukturu
konformeru s minimální energií. Tyto programy většinou zvládnou zpracovávat i více
sttruktur najednou, což se hodí p i p evodu celých knihoven s 2D strukturami.
Nejčastější p ístup výstavby nové molekuly je založen na skládání jednotlivých fragmentů
k sobě. Algoritmus v takovém p ípadě nejd íve rozdělí 2D strukturu na malé fragmenty,
které odpovídají p eddefinované knihovně 3D fragmentů. Ty jsou pak posléze pomocí
aplikace různých pravidel spojovány tak dlouho, dokud nevznikne kompletní 3D struktura.
Většina těchto metod posléze provádí i minimalizaci energie, kdy se použije vstupní
struktura a minimizační algoritmus se posléze snaži je prohýbat tak, aby dosáhl minimální
potenciální energie. Minimalizačních algoritmů je celá ada, p ičemž se liší kromě své
rychlosti i v tom, zda jsou schopny nacházet globální minimum (nap . genetické algoritmy,
metody Monte Carlo, nebo t eba simulované žíhání), nebo jen lokální (nap . metoda
sdružených gradientů, nebo metoda nejrychlejšího poklesu). Tyto metody jsou vysvětleny
později v kapitole Molekulové dokování)
Ukázka p evodu steroidního skeletu z 2D zápisu do 3D struktury – nesmírně záleží na správnosti topologie
hlavně u stereochemických center.
Kvalita výsledné struktury pak nicméně záleží nejen na kvalitě vstupní molekuly, ale také
na kvalitě použité metody výpočtu potenciální energie – ať už je použita molekulární
mechanika, nebo mechanika kvantová.
48
Energie (kcal/mol)
Jako p íklad nám může posloužit antioxidant kvercetinu (angl. quercetin). Ve své struktu e
má dva aromatické systémy, které jsou spojené jednoduchou vazbou. Na jednu stranu si
kruhy stéricky brání, ale současně s tím spolu aromatické systémy chtějí zachovávat
planaritu. K ivka potenciální energie spojená s otáčením dihedrálního úhlu mezi kruhy
sestavená pomocí výpočetně náročné a p esné kvantové mechaniky ukazuje, že kolem
planární polohy jsou dvě podobná široká minima, oddělená vysokou bariérou o výšce
cca 16 kJ/mol zhruba kolem 90°. Většina kvercetinových struktur nalezených
v PDB databázi také ukazuje většinou dihedrální úhely odpovídající minimálním
konformerům. Ale ve strukturách kvercetinu, které lze najít ve výsledcích molekulového
dokování se poměrně často kvercetin nachází s dihedrálním úhlem odpovídajícím λ0°, která
je ale nejméně pravděpodobná! Důvodem tohoto chování je p edevším to, že
v molekulovém dokování se většinou pro jednoduchost pracuje s pevnými délkami vazeb,
pevnými úhly a zcela volnými dihedrálními úhly – tím pádem se nepromítne aromaticita a
p eváží sterické bránění, kterému nejvíce vyhovuje právě pravý úhel. Problém je, že
molekula pak vypadá zcela jinak, než jak se skutečně bude chovat a výsledky dokování tak
budou zcela zcestné. Proto se vždy vyplatí nad strukturou látek zamyslet a t eba nastavit
dotyčnou vazbu jako rigidní a nerotovatelnou.
16
14
12
10
8
6
4
2
¨0
0
90
180
270
Dihedrální úhel
Dihedrální sken pomocí B3LYP/6-31+G(d,p) ve vodě
Dle Wu, Chien-Ming et al Int. J. Mol. Sci.
(2007) 8, 830
Počet struktur kvercetinu azených dle dihedrálního úhlu
v databázi RCSB
Počet nalezených struktur
Pozice dihedrálního úhlu v kvercetinu
Dihedrální úhel
49
7. Molekulární cíl – hledání "zámku"
Motto:
Bez cíle se ani Robin Hood netrefí.
Nejmenovaný autor tohoto kurzu
Jak uvádí motto na začátku této kapitoly, velice důležitým kritériem pro racionální návrh
léčiv je znalost cíle - tedy proteinu nebo jiného většího komplexu, který je zodpovědný za
projevy nějakého onemocnění anebo jiného problému.
)dentifikace cíle
Nejčastěji jde o makromolekuluμ
• která je v metabolické dráze spojené s chorobou,
• jejíž primární sekvenci známe (dnes už skoro jisté, pokud se nejedná o nový
patogen),
• a ideálně známe i její strukturu.
Metabolické dráhy
Studiem metabolických drah, kterými organizmy reagují na podněty z okolí, se věnuje obor
systémové biologie. P i návrhu léčiv jde o hledání úzkého hrdla – enzym, nebo receptor,
kterým bychom mohli zastavit dotyčný proces, ale ideálně abychom nenarušili jiné procesy.
Jak to může být složité, ukazuje následující mapa základních biochemických procesů z
webu Expasy:37
Metabolické dráhy jsou postupně studovány a doplňovány nap íklad o informace
o vzájemných interakcích jednotlivých proteinových komplexů a podobně. Mezi
nejdůležitější databáze drah dnes pat í nap íklad databáze KEGG,38 a nebo MetaCyc.39
37
http://web.expasy.org/cgi-bin/pathways/show_thumbnails.pl
http://www.genome.ad.jp/kegg
39
http://metacyc.org
38
50
Buněčné zkoušky a DNA čipy
Nicméně občas nám ani znalost metabolické dráhy nepomůže a k molekulárnímu cíli nás
dovedou t eba testy na buňkách, p ípadně znalost, které geny se v takových p ípadech
p episují více, či méně. K tomu se dnes používají tzv. DNA čipy, na nichž sledujeme
aktivitu jednotlivých genů. To nám dává informaci, jak se buňka adaptuje na vnější podněty
– nap . na podání léčiva, nebo jak se chovají rozdílné buňky – nap . rakovinné buňky vůči
normálním.
DNA čipy fungují tak, že na destičku jsou
zachyceny vzorky jednotlivých vláken DNA
s fluorescenčními značkami, které se v kontaktu se
vzorkem, v němž se vyskytují komplementární
kousky
DNA,
hybridizují,
tj.
vytvo í
dvoušroubovice DNA a v té chvíli se rozsvítí
fluorescenční značka, která ukáže (reportuje) a gen
byl nalezen. Podle síly signálu se pak dá usoudit
ukázka DNA čipu
na jeho koncentraci.
Jak získávat strukturu cíle
Pokud je již identifikován cíl ať už pomocí biologických testů, nebo sledováním
metabolických drah, nebo jakkoliv jinak, tak se vyplácí znát jeho strukturu. K tomu dnes
známe několik technik na zjišťování struktury makromolekul.
Rentgenová krystalografie (RTG)
Elektronová mikroskopie (EM)
+ nejčastější metoda
+ rozpoznání elektronového obalu
+ poskytuje xyz sou adnice atomů
+ určení celkového tvaru i u ob ích
s atomárním rozlišením
makromolekulárních komplexů
± identifikace vnit ních elektronů těžších
+ možno studovat i jen jednu molekulu
atomů (většinou ne vodíku)
− zatím nízké rozlišení
− nutnost, aby makro-molekulární látka
− zatím nep íliš vhodné pro návrh léčiv
šla vykrystalizovat
Nukleární magnetické rezonance (NMR)
Predikce struktury v počítači
+ sledování jader vodíku, i vhodných
Homologní modelování
+ evolučně podobné struktury mají
nuklidů uhlíku, dusíku, fosforu, apod.
podobné struktury
+ poskytuje xyz sou adnice atomů
− nutná znalost struktury templátu
s atomárním rozlišením
− nutná pečlivá kontrola modelu, zda
+ nepot ebuje krystalizaci – lze sledovat i
odpovídá experimentům
dynamiku v roztoku nap . p i navázání
ligandu
De novo predikce
+ lze poskládat z častých kousků
− vhodné pro malé proteiny, v p ípadě
− vytvo í se hodně různých modelů
větších makromolekul je pak p íliš
− nep íliš vhodné pro návrh léčiv
mnoho redundantních signálů
51
Rentgenová krystalografie (RTG)
Rentgenová krystalografie umožňuje získávat proteiny zatím s nejlepším rozlišením, ale je
to experimentálně velmi náročná technika, sestávající se z několika kroků.
→
1. růst proteinových
krystalů
→
2. samotný difrakční
experiment
3. výpočet mapy
elektronové hustoty
4. stavba atomárního
modelu
Proč zvolit rentgenovou krystalografii?
Elektromagnetické zá ení interaguje s objekty, jejichž velikost je srovnatelná s vlnovou
délkou ( ). Nap íklad viditelné světlo má vlnovou délku p ibližně od 400 do 700 nm a
proto s ním vidíme objekty, které mají alespoň takovéto velikosti – nap . koloidní částice
v roztoku. Ale atomy jsou mnohem menší a meziatomární velikosti mají vesměs
v jednotkách 10-10 m = 1 Å (Ångstrom) = 0,1 nm.
Tabulka vzdáleností mezi atomyμ
Vlnová délka, která odpovídá takto krátkým vzdálenostem, pat í právě rentgenovým
paprskům X (proto se pro ně v angličtině používá pojem "X-ray"). V laborato i se jako
zdroj rentgenového zá ení běžně používá měděná katoda CuKα, která emituje zá ení
s vlnovou délkou 1,54 Å, což je shodou okolností právě délka jednoduché vazby mezi
dvěma uhlíkovými atomy. Pro stanovení složitějších struktur se dnes nicméně využívá
synchrotronů, protože jednak poskytují zá ení o větší intenzitě a druhak je v nich možné
vlnovou délku nastavením regulovat na požadované délky mezi 0,5 Å – 2,5 Å.
Dopadem rentgenového zá ení na látku dochází k její difrakci (ohybu) na vnit ních
elektronech v atomech. Pokud jsou atomy ve struktu e uspo ádané jako v krystalu, tak se
v určitých místech difrakcí signál zesílí. Obecně platí, že čím více rentgenových reflexí
máme, tím lepšího dosáhneme zesílení rozdílu mezi signálem a šumem a tím lepší bude
výsledná struktura.
52
Rozlišení R
Samoz ejmě ne každý snímek získaný RTG je stejně výborný jako jiný, a proto se
u získaných struktur uvádí rozlišení. Tato veličina (v jednotkách Å) udává schopnost
rozlišit detaily na ve struktu e. Vesměs platí, že čím máme lepší rozlišení, tím lepší mapu
dostaneme a dosáhneme tak snadnější výstavby modelu. Mapy s nízkým rozlišením ukazují
pouze obecné vlastnosti jako je nap . tvar molekuly a umístění elementů sekundární
struktury. U běžného rozlišení u proteinových struktur pod 2,5 Å je snadné sledovat průběh
hlavního etězce a ada postraních etězců má také dob e definovanou hustotu. U běžných
proteinů je limit pro publikaci struktury rozlišení 3,0 Å. Struktury rozlišením pod 2,5 Å lze
většinou použít pro analýzu vazebného místa a pro molekulové dokování. Mapy
elektronové hustoty s velmi vysokým rozlišením pak jasně ukazují pozice jednotlivých
atomů a jsou ideální pro návrh léčiv.
3,5 Å mapa fotosystému II
2,3 Å mapa fotosyntetického reakčního centra
7 Å, tropomyosin
0,λ5 Å mapa elastasy
53
Nukleární magnetická resonance (NMR)
NMR spektroskopie využívá magnetických vlastností
jader atomů. K tomu používá detekci absorbce
radiofrekvenčního zá ení jádry atomů v molekule.
Absorbovaná, nebo emitovaná vlnová délka odpovídá
energii p echodu (ΔE) mezi dovolenými energetickými
stavy magnetických spinů v atomovém jád e.
= 106 až 1010 Hz
= 1011 až 3·107 nm
K tomu, abychom ale vůbec nějaké p echody byli schopni
zaznamenat, tak musíme použít externí magnetické pole,
které zap íčiní energetický rozdíl mezi spinovými stavy jaderných magnetických momentů.
Nastavením frekvence elektromagnetického zá ení na rezonanční podmínku tohoto rozdílu
(tj odpovídající energii p echodu ΔE), můžeme mě it NMR spektrum.
Rozdíly populací stavů jsou velmi malé a jsou dány rozdílem energií dle vztahu:
��
�
= � �
�
nap . p i ΔE = 3,8·10-5 kcal/mol pro 1H p i štěpení 400 MHz (Bo = 9,5T) je rozdíl
Nα/Nβ = 1,000064 – signál je tedy relativně slabý a je t eba ho dostatečně zesílit a současně
odstínit možný šum z okolí.
Pravidla pro určení spinu izotopu
Nukleonové
Protonové číslo (Z)
číslo (A)
liché
sudé nebo liché
sudé
sudé
sudé
liché
Jádro
1
H
p irozené
31
P
nuklidy
14
N
12
C
16
O
2
na upravených H
13
C
buněčných
15
N
kulturách
* Možný počet spinových stavů = 2I + 1
54
Spinové
Detekce
kvantové č. (I) NMR
1/2, 3/2, 5/2
ano
0
ne
1, 2, 3
ano
Spinové
Spinové
kvantové č. (I) stavů*
1/2
2
1/2
2
1
3
0
1
0
1
1
3
1/2
2
1/2
2
Typické jádra
1
H, 31P, 13C, 15N
C, 16O
2
H, 14N
Magnetické
spinové č. (m)
±1/2
±1/2
-1, 0, 1
0
0
-1, 0, 1
±1/2
±1/2
12
Chemický posun
Magnetické pole, ve kterém se jádro nachází, není
rovno vnějšímu magnetickému poli. Elektrony v okolí
jádra (chemické okolí) stíní vnější pole – výsledné
efektivní magnetické pole Beff je tvo eno vnějším
polem B0 a polem lokálním Bloc:
chemické posuny ve spektru ethanolu
Beff = B0 – Bloc = B0(1 – σ),
kde σ je konstanta magnetického stínění. Výsledné 1D NMR spektrum pak zaznamenává
jednotlivé signály posunuté o hodnotu chemického posunu a p i dostatečně silném
magnetickém poli i štěpené okolními aktivními jádry. Výšky píků odpovídají množství
identických atomů. 1D NMR spektrum se běžně používá v organické chemii k identifikaci
nově p ipravených látek.
Proteinový NMR
Ale v p ípadě makromolekul je ale většina atomů stejných a proto je v 1D NMR spektru
nejsme schopni rozlišit. Určení struktury tak vyžaduje kombinované tzv. vícedimenziální
NMR techniky, které jsou schopny získávat další informace k odlišení atomových jader a
určení jejich okolí.
COSY
(Correlated Spectroscopy)
NOESY
(Nuclear Overhauser Enhancement Spectroscopy)
Určení struktury pomocí NMR
U vícerozměrných NMR experimentů (COSY, NOESY,
3D NMR, apod.) se k jednotlivým píkům p i azují jednotlivé
aminokyseliny známé ze sekvence, pro kterou je p edp ipraven
3D model. Finální 3D struktura se rafinuje z několika NMR
mě ení – chemické posuny určují konformaci hlavního etězce,
štěpení z dipolárního sp áhnutí dává informaci o nejbližším
prostoru atomů, J-sp áhnují z COSY pomáhá určit torzní úhly a
NOE intenzity z NOESY dávají informaci o vzájemných
interakcích p es prostor. Výsledkem NMR experimentu je pak
zisk sady struktur, jež splňují zjištěné podmínky z experimentu.
Finální model – sada
struktur vyhovujících
NMR experimentu
55
Predikce struktury proteinů
Vzhledem k tomu, jak je obtížné získat strukturu nového proteinu experimentálně, tak se
začaly rozvíjet počítačové techniky umožňující vystavět si model neznámého proteinu
vycházející ze známých struktur - homologní modelování, ev. protein threading nebo
z fyzikálních modelů – de novo nebo také ab initio modelování.
Obecný postup predikce struktury proteinů
• vybereme protein k modelování
• hledání homologů
– ano – alignment (srovnání) → homologní modelování
– ne – threading, ev. ab initio
• modelování hlavního etězce
• modelování vedlejších etězců (rotamery)
• optimalizace struktury (minimalizace energie)
• stereochemická kontrola modelu (PROCHECK, Ramachandran plot)
• kontrola vůči experimentálním datům
(omologní modelování
Homologní modelování umožňuje sestavovat
strukturu neznámého proteinu na základě
znalosti struktury homologního proteinu.
Homologní modelování lze použít pouze,
pokud je podobnost mezi sekvencí templátu a
cílové sekvence dostatečně vysoká –
tj. alespoň 40% aminokyselin je identických.
Na homologní modelování lze použít několik
programů, nap . Modeller,40 ale také i
web servery, nap . SwissMODEL,41 nebo
I-TASSER.42
odchylky modelů p i rozdílném obsahu identity
Protein threading
Pokud nemáme dost sekvenční identity k jednomu templátu, tak můžeme vyzkoušet protein
threading, který využívá znalosti tvaru jednotlivých krátkých kousků proteinu sesbíraných
z celé PDB databanky.
Opět lze s úspěchem použít program Modeller.
40
http://salilab.org/modeller/
http://swissmodel.expasy.org/
42
http://zhanglab.ccmb.med.umich.edu/I-TASSER/
41
56
Postup threadingu
• Sestavení databáze strukturních templátů.
• Sestavení skórovací funkce (Mě í, jak dob e odpovídá sekvenci struktura),
– obsahuje možnost popsat mutace, okolí, párové interakce mezi blízkými
aminokyselinami, sekundární strukturu a rozdíly v délkách,
– p esnost predikce blízce souvisí s kvalitou skórovací funkce.
• Threading alignment
– iterativní porovnání (alignment) cílové sekvence s templáty struktury
pomocí optimalizace skórovací funkce.
• Threading predikce
– Nejpravděpodobnější alignment => threading predikce
– Posléze se vytvo í strukturní model (ev. víc modelů) umístěním atomů
páte e na místa templátu a modely se dočistí tvorbou vedlejších etězců a
minimalizací.
Ab initio modelování
Další možností, jak bez templátu sestavit model proteinu, který studujeme je masivní
hledání správné konformace pomocí ab initio modelování. K prohledávání konformací se
používá fyzikální nebo pseudo-fyzikální energetická funkce na popis volné energie
jednotlivých konformerů. Jde o nejméně p esné ale vesměs jediné použitelné ešení, pokud
neznám vůbec žádný templát.
Ke tvorbě modelů se dají opět použít webservery I-TASSER a Robbeta.43
Zajímavostí je i možnost skládání proteinů pomocí počítačové hry Fold it44 od autorů
Robbety z University of Washington a Microsoftu. V této h e se hráči snaží sestavit
proteiny do konformací s co nejnižší energií – tj. složit je do jejich nativní formy. Tento
herní koncept byl natolik
úspěšný, že komunita hráčů
Fold It dokonce uspěla v CASP,45
což je soutěž v predikování
struktur čerstvě vy ešených ale
ještě
ve ejně
neuvolněných
proteinů a slouží k validaci
predikčních metod pro zisk
struktur proteinů.
ukázka ze hry Fold It.
43
http://robetta.bakerlab.org/
http://fold.it/portal/
45
http://predictioncenter.org/
44
57
Nobelovské porovnání jednotlivých metod získávání struktury
Je zajímavé, jak moc se jednotlivé metody určení struktury molekulárních cílů a jejich
funkcí promítají do Nobelových cen… (v angličtině)
X-Ray
1901: Wilhelm C. Röntgen (Physics) – X-ray
Others
1943: Otto Stern (Physics) magnetic moment
of the proton (NMR)
1914: Max von Laue (Physics) diffraction of X- 1944: Isidor I. Rabi (Physics) resonance
rays by crystals
method for recording the magnetic properties
of atomic nuclei (NMR)
1915: William H. Bragg and William L. 1952: Felix Bloch, Edward M. Purcell
Bragg (Physics) – Bragg’s equation
(Physics)
nuclear
magnetic
precision
measurements (NMR)
1964: Dorothy
C.
Hodgkin (Chemistry) 1982: Aaron Klug (Chemistry)
structures of penicillin and vitamin B-12.
crystallographic electron microscopy (EM)
1985: Herbert A. Hauptman and Jerome
Karle (Chemistry) phase problem
1954: Linus Pauling (Chemistry) – chemical
bond, peptide bond, and the structures of the
alpha helix and beta strand
1962 Francis H.C. Crick, James D. Watson,
Maurice H.F. Wilkins (Physiology or Medicine)
– DNA (PDB: 1bna)
1962: Max
F.
Perutz
and
John
C.
Kendrew (Chemistry) globular proteins –
myoglobin, hemoglobin (PDB: 1mbn, 1a00)
1988: Johann Deisenhofer, Robert Huber, and
Hartmut Michel (Chemistry) photosynthetic
reaction centre (PDB: 1prc).
1996: Paul D. Boyer, John E. Walker, and Jens
C. Skou (Chemistry) F1-ATPase (PDB: 1bmf,
1cow)
2003: Peter
Agre
and
Roderick
MacKinnon (Chemistry) membrane channels
(PDB: 1bl8, 2f2b, 2evu)
2006: Roger Kornberg (Chemistry) molecular
basis of eukaryotic transcription (PDB: 1i3q,
1i50, 1i6h)
2009 Venkatraman Ramakrishnan, Thomas A.
Steitz, and Ada E. Yonath (Chemistry) ribosome
(PDB: 1ffk, 1fjg, 1fka, 1gix, 1giy)
2012 Robert J. Lefkowitz, Brian K. Kobilka
(Chemistry) GPCR (PDB: 3sn6, 3uon, 4daj,
4dkl)
58
1986: Ernst Ruska, Gerd Binnig, Heinrich
Rohrer (Physics) TEM, STM
1991: Richard R. Ernst (Chemistry) high
resolution nuclear magnetic resonance (NMR)
spectroscopy
1994: Bertram N. Brockhouse and Clifford G.
Shull (Physics) neutron scattering
2002: John
B.
Fenn,
Koichi
Tanaka (Chemistry) soft ionization mass
spectrometry (MS)
2002: Kurt Wüthrich (Chemistry) nuclear
magnetic resonance (NMR)
2003: Paul C. Lauterbur, Peter Mansfield
(Physiology or Medicine) magnetic resonance
imaging (MRI)
2013: Martin Karplus, Michael Levitt and
Arieh Warshel (Chemistry) - multiscale
models for complex chemical systems
(in silico)
Brian K. Kobilka (naho e) a Robert J. Lefkowitz (dole) byli oceněni Nobelovou cenou za chemii v roce 2012
"for studies of G-protein-coupled receptors". Tyto receptory jsou umístěny na plasmatické membráně a pat í
mezi nejčastější cíle léčiv, protože zprost edkovávají informaci z vnějšího prost edí do buňky.
59
8. Výběr metody počítačového návrhu léčiv
Motto:
Hledání vhodného léčiva je jako hledání jehly v kupce sena.
tj. 18 hod 8 min 18 s, docela dobrý čas
Počítačový návrh léčiv
Computer-aided drug design
(CADD)
Známá struktura cíle
Structure-based drug design
(SBDD)
Neznámá struktura cíle
60
Známe ligand
Neznáme ligand
Návrh pomocí struktury cíle
Structure-based drug design
(SBDD)
 Dokování
 Farmakofor
Návrh pomocí ligandů
Ligand-based drug design
(LBDD)
1 a více ligandů
• Hledání podobných
ligandů
Několik ligandů
• Hledání Farmakoforu
Hodně ligandů (20+)
• Quantitative
Structure-Activity
Relationships (QSAR)
De novo design
CADD
nelze
k predikci účinku
použít
Nicméně lze alespoň využít
k filtrování
vhodných
molekul podle vlastností
Virtuální screening
Virtuální screening (VS) je in silico analogií biologického HTS testování, které se provádí
na rychlé testování tisíců látek. VS je vhodný na rychlý p edvýběr látek pro další testování
a optimalizaci. Můžeme jej také použít k navádění organické syntézy.
Hlavní funkcí VS je s pomocí jedné nebo více in silico technik molekuly (i) oskórovat, (ii)
za adit a (iii) vyfiltrovat. Aby šlo následně vybrat, (i) které molekuly experimentálně
testovat, (ii) jakou knihovnu látek nasyntetizovat, (iii) které molekuly koupit a (iv) na co se
zamě it u analýzy výsledků experimentů, nap . z HTS testování.
Podobně jako metody in silico drug designu obecně i VS může být založen na ligandech
(LBVS, hlavně pro hledání podobností, nebo QSAR) nebo na struktu e cíle (SBVS, hlavně
dokování). Zatím se zdá, že LBVS p ekonávají metody SBVS, ale jak se postupně zlepšují
metody dokování, tak se tato situace pomalu obrací.
Postup ve virtuálním screeningu
Dle AR Leach, VJ Gillet, An Introduction to Chemoinformatics
Řetězení nástrojů ve VS – tzv. Pipeline
Protože se ve VS často používá kombinace různých nástrojů a filtrů, tak se často využívá
nástrojů Pipeline Pilot46 a Knime,47 které umožňují vizualizaci procesů a jejich grafické
programování.
46
47
http://accelrys.com/products/pipeline-pilot
https://www.knime.org/
61
9. LBDD – Návrh léčiv podle ligandů
Motto:
Kolik deskriptorů jsi vymyslel, tolikrát jsi Chemoinformatikem
Nejmenovaný autor v nadsázce při ukázce QSAR modelování studentům
V mnoha p ípadech si vystačíme v počítačovém návrhu léčiv se znalostí aktivních ligandů a
bez nutnosti znát strukturu molekulárního cíle – tzv. ligand-based drug design (LBDD).
Značně záleží na tom, zda a kolik ligandů s nějakou projevenou aktivitou známeμ
•
•
•
1 a více ligandů
• hledáme podobné molekuly – ať už ve 2D, nebo 3D
Několik ligandů
• hledáme v ligandech motiv – farmakofor
Hodně ligandů (20+)
• hledáme vztah mezi strukturou a aktivitou dotyčných molekul – QSAR
(ledání v databázích
Jako v p írodním mimikri lze i p i návrhu léčiv hledat látky s podobnou strukturou jako již
známe pro existující lead compound v databázích již známých látek. Podobné látky nás
mohou vést k vylepšení aktivity. Je to také jeden z možných způsobů, jak napodobovat
endogenní látky, abychom dosáhli podobné funkce.
NH2
N(CH3)2
H
N
HO
H3C
N
H
5-Hydroxytryptamine (5-HT)
Serotonin (a natural neurotransmitter
synthesized in certain neurons in the CNS)
S
O
O
N
H
Sumatriptan (Imitrex)
Used to treat migrain headaches
known to be a 5-HT1 agonist
Ukázka podobné syntetické molekuly sumatriptanu (vpravo) k lidskému neurotransmiteru serotoninu (vlevo).
Vyhledávat lze na několika úrovníchμ



Vyhledávání struktury – tj. odpovídání na otázku "Je tato struktura v databázi?"
Vyhledávání substruktury – tj. "Najdi mi všechny struktury, které obsahují
substrukturu."
Vyhledávání podobností – tj. "Najdi mi struktury, které jsou nějak podobné téhle."
Situaci ještě trochu komplikuje otázka, zda vyhledáváme v rámci 2D topologie, nebo mezi
3D konformery. A navíc se často kombinují s dotazy na text, nebo na numerické hodnoty
(nap . látky s logP < 5 )
62
(ledání D (sub)struktury
Vzhledem k tomu, že 2D struktury se
dají zapsat kanonicky jako SMILES,
tak
vyhledávání
struktury
či
substruktury pak může být v prvním
p iblížení de facto jen vyhledávání
textu v rámci databáze SMILES kódů.
O něco lepší jsou pak metody testující
isomorfismus grafů – tj. zda jsou
molekuly podobně propojené i p i
rozdílném zápisu podobně jako grafy
na obrázku vpravo.
Graf G
grafová
izomorfie
Graf H
f(a) = 1
f(b) = 6
f(c) = 8
f(d) = 3
f(g) = 5
f(h) = 2
f(i) = 4
f(j) = 7
P i vyhledávání substruktur opět jde o porovnávání izomorfie mezi jednotlivými subgrafy
pro jednotlivé funkční skupiny a jejich napojení.
Příklad hledání struktur
Hledáme halogen na aromatickém kruhu společně s karboxylovou skupinou
a získáváme nap .
Cl
N
O
F
N
Cl
O
O
N
N
O
F
I
O
O
O
N
F
O
O
O
N
Můžeme rozlišit t i typy hledání



substrukturní hledání – tj. struktur, které obsahují pat ičné motivy,
nap . hledání po substrukturách pro ethanol (SMILESμ OCC) vrátí mezi jinými i
kyselinu octovou (SMILES: OC (=O)C), protože ta v sobě motiv ethanolu obsahuje.
strukturní hledání – najde identickou strukturu, i pokud je dotaz položen
nekanonicky,
nap . p i dotazu na "líh" (SMILESμ CCO) získáme zpět kanonický ethanol
(SMILES: OCC)
nadstrukturní hledání – tj. hledání všech substruktur, z kterých se může dotaz
skládat,
nap . kys. octová (SMILESμ OC(=O)C) by vrátila i ethanol (SMILESμ OCC)
63
(ledání D struktur
U hledání 3D struktur je t eba pracovat i se skutečnými vzdálenostmi v prostoru. Je to o to
složitější v tom, že jednotlivé konformery se ve vzdálenostech mezi funkčními skupinami
samoz ejmě lišíμ
Navíc se pro úsporu místa většinou ukládá pouze konformer s nejnižší energií. A proto je
nejprve t eba vytvo it si databázi s vhodnými konformacemi. Nap íklad tak, že se rotují
všechny volně rotovatelné vazby, což ale může vést k velkému množství energeticky
nevýhodných a tím i nepravděpodobným strukturám. Proto se většinou pracuje jen se
subsetem, který obsahuje konformery jen s o něco vyšší konformační energií (< 30 kJ/mol),
než struktura v minimu.
Bioisosterické skupiny
Je dobré si uvědomit, že některé skupiny lze zaměnit za jiné a p itom tvar molekuly může
zůstat podobný – takovým záměny se označují za bioisosterické.
Dle Young, D.C. Computational Drug Design. Wiley, 2009.
64
Dle Young, D.C. Computational Drug Design. Wiley, 2009.
Paradox podobnosti
aneb ne vždy je vše jednoduché… občas jsou prostě i velmi podobné látky diametrálně
odlišné ve svých účincích…
Aktivní
látky
Aminogenistein (lék proti cystické fibróze)
Pargyline (lék proti hypertensi)
7-Hydroxy-2-(4-nitro-phenyl)-chromen-4one
N-benzyl-N,1-dimethyl-2propynylamine
Neaktivní
látky
65
Farmakofor
Farmakofor je strukturní motiv s definovanými vzdálenostmi mezi funkčními skupinami
odpovědný za biologickou nebo farmakologickou aktivitu ligandů i s vymezením
p ípadných zakázaných oblastí, které by aktivitu snižovaly (nap . protože v těch místech už
je kavita uzav ená). Farmakofor může být také použit jako sada databázových dotazů pro
vyhledávání potenciálně zajímavých motivů. Vyhledávání pomocí farmakoforů lze p evést
na teorii grafů, kdy na famakofor nahlížíme jako na podgraf nějakého vyššího hledaného
celku. Farmakofor lze reprezentovat nap íklad jako matici vzdáleností.
Ukázka farmakoforu pro ligandy vhodné do serotoninového receptoru.
Dle Bojarski, Curr. Top. Med. Chem. 2006, 6, 2005.
Postup tvorby a prohledávání farmakoforu
Základním p edpokladem hledání farmakoforu je znalost aspoň několika aktivních látek a
toho, že se všechny váží do stejného aktivního místa. Hledání farmakoforu má dvě fázeμ
1) Tvorba farmakoforu na základě analýzy aktivních ligandů (ev. aktivního místa, pokud
je k dispozici). P i té p íležitosti se identifikují charakteristické „farmakoforické“
vlastnosti (donory a akceptory vodíkových vazeb, lipofilické skupiny, rozložení
náboje) a jejich geometrické uspo ádání. Ideálně takové, které se ve všech aktivních
molekulách vyskytuje ve stabilní konformaci (s nízkou energií)
2) Hledání látek splňující právě nadefinovaný farmakofor. Procházíme databáze
konformací látek a pomocí nalezeného geometrického uspo ádání filtrujeme ty, které
farmakofor splňují. Díky tomu nejsme omezeni na jeden základní topologický motiv a
můžeme tak nacházet i látky, do kterých bychom to p i pohledu na jejich 2D zápis
ne ekli, pokud splňují podmínky farmakoforu – jde pak o tzv. scaffold-hopping a je to
jedna z hlavních výhod farmakoforického prohledávání. Nap . se tak dají vyměnit t eba
látky se steroidním skeletem za látky zcela chemicky odlišné.
66
Dle http://pharmacophore.org
K hledání farmakoforu není v principu zapot ebí struktura cíle, ale může se hodit k jeho
určení podobně jako v následujícím p íkladuμ
Příklad farmakoforu pro inhibitory ()V proteázy
Geometrické uspo ádání různých typů funkčních skupin, které jsou zapot ebí pro aktivitu HIV
proteázy (aktivní místo)
Analýza receptoru – definice typů
interakčních skupin a hledání
vzdáleností mezi nimi.
Následné navržení vhodných farmokoforických
typů pomocí komplementarity a dopracování
finálního farmakoforu pro ligandy.
Posledním krokem pak je vyhledání vhodných molekul v databázi konformerů, které splňují
dotyčný farmakofor.
67
QSAR – Kvantitativní vztah mezi strukturou a účinností
Ustanovování vztahu mezi strukturou a účinkem (Structure-activity relationship; SAR) je
metoda užívaná v medicinální syntetické chemii již dávno p ed nasazením počítačů.
V organické chemii je zvykem p ipravovat látky v rámci sérií, které se od sebe liší jen na
některých místech (nap . výskytem methylu, či ethylu, apod.) a testovat následně aktivity
těchto látek.
QSAR (Quantative Structure-Activity Relationship) byl původně vyvinut, aby p ispěl
k racionalizaci procesu tvorby SAR a dovést ho až k predikci nových látek. QSAR model je
matematický vztah mezi biologickou aktivitou molekuly a jejími geometrickými a
chemickými vlastnostmi. Jedná se vlastně o regresi (většinou linearizované) aktivity
molekuly z kvantifikovatelných veličin – tzv. deskriptorů (molekulová hmotnost, velikost,
tvar, počty atomů, apod.)
f (aktivita)= A·deskriptorA + B·deskriptorB + …
Po sestavení modelu je možné nalezená QSAR “pravidla” použít k hledání nových molekul
s vyhovujícími hodnotami deskriptorů a tak ízeně hledat látky s lepší aktivitou.
Předpoklady úspěšného QSAR modelu
K tomu, abychom mohli sestavit QSAR model je zapot ebí splnit následující podmínkyμ
 aktivita molekul je způsobována molekulami samotnými a ne jejich metabolity,
 modelované konformace, pro něž vypočítáváme deskriptory jsou ty aktivní,
 vazebné místo je stejné pro všechny modelované molekuly,
 biologická aktivita je p evážně způsobována enthalpickými procesy – ízenými
interakcemi a entropické efekty jsou podobné pro všechny sloučeniny,
 většinou se uvažuje systém v rovnováze (IC50, apod.) a farmakokinetické efekty se
nezohledňují
Obecná procedura sestavování QSAR modelu
 Výběr sady molekul se známými aktivitami vůči stejnému cíli
 Výpočet jejich vlastností – deskriptorů
 Rozdělení sady na dvě podskupinyμ trénovací a testovací sady
 Postavení QSAR modelu – hledání matematického vztahu regresí mezi aktivitami
a vlastnostmi v trénovací sadě (nap íklad pomocí strojového učení, apod.)
 Otestování QSAR modelu oproti testovací sadě
68

Použití QSAR modelu k predikci
T i fáze tvorby QSAR modelu – trénování modelu, validace a posléze jeho použití k predikci.
(istorický vývoj QSAR technik
První kvantifikovaný SAR vztah vytvo il již v roce 1λ37
Louis Plack Hammett (1894 – 1987) pro popis lineárního vztahu mezi
rovnovážnými konstantami a kinetikou derivátů kyseliny benzoovéμ
� �
�
�0
= ��,
kde K je rovnovážná konstanta pro substituent R, � je rovnovážná
konstanta pro nesubstituovanou kyselinu benzoovou, σ je substituční
konstanta pro dotyčný substituent v dotyčné poloze nezávislý na reakci
a ρ je reakční konstanta, k níž se rovnice vztahuje, ale který není
závislý na typu substituce.
m- a p- deriváty
kyseliny benzoové
69
Nap íklad, pokud nás bude zajímat pKa těchto derivátů, tak můžeme pozorovat následující
závislost, kterou p esně popisují parametry σ:
Tento koncept dále rozvinul pro popis vlastností látek Corwin Herman Hansch
(1918 – 2011), který je označován za otce počítačem asistovaného návrhu molekul
(CADD). Navrhl i první deskriptory pro vlastnosti a vytvo il i metodu jak provádět regresi
po jednotlivých fragmentech.
Další použití regrese také i pro strukturní deskriptory popsali Free a Wilson ve své
Free-Wilsonově analýze, ve které definovali, že funkce aktivity (definované jako log 1/c)
s deskriptory váženými koeficienty se determinuje pomocí lineární regrese ve tvaruμ
� � ⁄ = � ∙ � + � ∙ � + ⋯,
kde C je koncentrace pot ebná pro aktivitu; x1, x2, ... jsou jednotlivé hodnoty deskriptorů
(většinou jako 0 nebo 1 reprezentující ne/p ítomnost vlastnosti)ν a1, a2, ... jsou váhy
jednotlivých deskriptorů získané lineární regresí. Lineární regrese je optimalizační metoda
minimalizující součet čtverců rozdílů mezi predikovanými a skutečnými hodnotami.
70
2.5
log(1/C) = 0.73 log P + 1.22
R² = 0.
2
log(1/C)
Příklad QSAR – narkotická aktivita
U narkotické aktivity nízkomolekulárních
látek se uvažuje o modelu, kdy za většinu
účinku může rozpustnost dotyčné látky
v buněčných membránách, kde posléze
zpomalují p enos signálu. Proto tedy je
zajímavý vztah mezi isonarcotickou
aktivitou a rozdělovacím koeficientem
oktanol/voda (logP). V grafu vpravo
vidíte, že po lineární regresi v sadě všech
testovaných látek k ivka závislosti
poměrně pěkně popisuje toto chování.
n = 20
1.5
1
0.5
0
-2
-1
0
log P
1
2
Deskriptory
Jednotlivé vlastnosti molekuly můžeme kvantifikovat pomocí tzv. "deskriptorů", které ji
pomáhají charakterizovat. Jsou velice užitečné i pro další účely – kromě QSAR modelů
t eba k filtrování látek a k výpočtům podobnosti mezi molekulami. Deskriptorů může být
velmi mnoho a mohou pocházet z mnoha oblastí.48 Můžeme je zhruba rozdělit do čty typů:
 Topologické – pocházející z 2D struktury ze znalosti spojení atomů
 Geometrické – pocházející z 3D struktury
 Elektronické – pocházejí z rozložení elektronů v molekule
 Hybridní – kombinují p edchozí deskriptory, ev. využívají dalších informací
o molekule
Topologické deskriptory
Jsou p ímo odvozeny z topologie molekuly – tj. z její 2D strukturyμ
 jednoduché součty - počet atomů, molekulární hmotnost, počet rotovatelných
vazeb,…)
 fragmentální - počty známějších podstruktur (nap . karboxylových skupin, apod)
 topologické indexy - popisují chování chemického grafu
o nap . Wienerův index (jeden z nejstarších) je jednoduše suma počtu vazeb
mezi všemi páry atomů dělená dvěma
o mezi rozvinutější pak pat í t eba Randic Index, Kier and Hall Chi Index,…
 fyzikálně chemické vlastnosti - odhady na základě fragmentů
o hlavně logP, nebo rozpustnost ve vodě
 molekulární symetrie
 Kappa shape indexy – zachycují tvar molekuly pomocí porovnání s maximálním a
minimálním molekulárním grafem
 indexy vzájemné vzdálenosti mezi atomy – počet vazeb, ne ve 3D
Geometrické deskriptory
Jsou odvozeny z 3D struktury a jsou tudíž citlivé na konformaciμ
 molekulární objem a hustota
 molekulární povrch
o hlavně tzv. povrch dostupný pro solvent (solvent accessible; SA ev. SASA)
o a dále jeho složky, které odpovídají hydrofobnímu a hydrofilnímu povrchu
 3 principiální momenty setrvačnosti – ukazují, jak je molekula uspo ádána podél
svých principiálních os
o když jsou všechny zhruba stejné, pak molekula p ipomíná kuličku
o když dva výrazně p evažují nad jedním, tak je molekula "placatá"
o když jeden výrazně p evažuje nad zbývajícími, tak molekula je spíše tyčinka
48
http://www.epa.gov/nrmrl/std/qsar/MolecularDescriptorsGuide-v102.pdf
71
Elektronické deskriptory
Jsou odvozeny z rozložení elektronů v molekule ať už ve 2D, nebo 3D reprezentaci:
 jednotlivé p íspěvky multipólového rozvoje elektrostatického působení molekuly
o celkový náboj
o dipólový moment
o kvadrupólový moment
 HOMO and LUMO energie
 polarizabilita – udává, jak moc bude molekula reagovat na vnější elektrické pole a
změní tvar svého elektronového pole tak, že na molekule vznikne indukovaný dipól
o polarizabilita obecně roste, čím větší je objem, který okupují slabě vázané
elektrony (nap . v aromátech)
o molární refraktivita je mě itelná míra st ední polarizibility a je taktéž častým
deskriptorem.
Hybridní deskriptory
Kombinují p edchozí deskriptory, nebo využívají dalších informací o molekule:
 farmakoforické deskriptory
 deskriptory popisující potenciální energii molekuly
 topomery – podle podobnosti k dalším strukturám
 EVA deskriptory49 – odvozené z IR spektroskopie (EigenVAlue descriptory)
 WHIM indexy - (Weighted Hlistic Invariant Molecular) pro tvar, velikost, symetrii a
atomovou distribuci z minimalizované 3D struktury
 a mnohé další
Molekulární otisky prstů - fingerprints
Jakmile máme definovanou sadu deskriptorů, tak je relativně jednoduché sestavit "text"
z hodnot deskriptorů, které charakterizují sloučeninu podobně, jako to pro strukturu udělá
nap íklad zápis do SMILES kódu. Tyto deskriptory mohou být binární (1,0 pro ano/ne),
číselné (celá čísla, reálná čísla, apod.), nebo kategorické (nap . zda jde o steroidní látku).
V chemoinformatickém světě se těmto etězcům deskriptorů íká "(molecular) fingerprints"
tedy molekulové otisky prstů. Zvláště výhodné pro tento způsob zápisu jsou binární
deskriptory, protože existuje mnoho výkonných počítačových algoritmů na jejich
zpracování.
V nejjednodušším p ípadě můžeme sestavit 1μ1 zobrazení mezi deskriptory a jejich pozici
na fingerprintu. Nap íklad se běžně používá binární fingerprint pro popis
2D fragmentálních deskriptorů (detailněji viz následující kapitola), kde pozice jednoho bitu
je namapována na p esně jeden slovníkový záznam dotyčného deskriptoru. Binární hodnota
bitu (1,0) pak určí p ítomnost, nebo absenci dotyčné funkční skupiny v molekuleμ
49
s využitím u popisu vůní... EVA je tedy celkem na místě.
72
Takový typ fingerprintu je znám jako "strukturní klíč". Známým p íkladem
v chemoinformatice je tzv. MDL 166-key strukturní klíč (občas označovaný též jako
MACCS, nebo ISIS klíč), který definuje 166 fragmentů, které jsou důležité v medicinální
chemii.
Alternativní strategií vůči tvorbě slovníku strukturních klíčů je možnost mít definovánu
sadu pravidel, jak se deskriptory vytvá ejí, zatímco ty se budou vytvá et on-the-fly pro
danou molekulu, nebo sadu molekul. P íklady takových pravidel jsou t ebaμ (i) všechny
atomové sekvence z 2-7 atomůν (ii) všechny rozší ené atomy; (iii) všechny kruhové
substruktury, apod. Ale protože pak není definovaný jednoznačný slovník, není pak
jednoduché tyto fingerprinty rozklíčovat a také mohou být opravdu velké, takže se pro ně
často používá hašovací algoritmus a tyto fingerprinty se pak označují jako hashované
fingerprinty.
Měření podobnosti mezi molekulovými fingerprinty a 3D strukturami
Nejčastější cestou, jak mě it podobnost mezi dvěma fingerprinty je Tanimoto koeficient.
Obecně je Tanimoto koeficient definován jako průnik setů dělený sjednocením setů a může
proto nabývat hodnot od 0 do 1. V binární variantě je definován jako
�� �
� =
+ +
,
kde C je počet bitů, které mají oba sety společné a A a B jsou počty bitů ve fingerprintech
A a B. Pro většinu fingerprintů zhruba platí, že pokud je Tanimoto koeficient nad 0,8, tak
jsou si molekuly podobné natolik, že by měly sdílet biologické vlastnosti. P i hodnotě
pod 0,3 nemá Tanimoto koeficient žádný reálný význam.
Kromě Tanimoto koeficientu se nejčastěji používá i Euklidovská vzdálenost, kdy se změ í
vzdálenosti mezi odpovídajícími si bity.
Ve 3D strukturách pak buď můžeme počítat Euklidovskou vzdálenost mezi odpovídajícími
si atomy po p eložení molekulových struktur p es sebe, ale stejně tak je možné použít t eba
i Tanimoto koeficient mezi dvěma strukturními fingerprinty.
73
Skupinově aditivní vlastnosti a deskriptory pro fragmenty
Deskriptory se také nemusí vázat
k celé molekule, ale k jejím
jednotlivým fragmentům (nap .
nitro- nebo karboxylové skupině).
Nejčastějším
způsobem
implemetace
dekriptorů
pro
fragmentace je jejich uvedení ve
slovníku a jejich p ípadné
namapování na molekulu.
p íklady deskriptorů pro fragmenty
Specifickým p íkladem takové
knihovny jsou pak tzv. skupinově aditivní vlastnosti, které se pro molekulu skládají
z jednotlivých p íspěvků.
Substituent
Objem MR 
Rot
-CH2CH2CH2CH3 68.63 1.96 2.13 3
-C(CH3)3
86.99 1.96 1.98 1
-C6H5
72.20 2.54 1.96 1
-F
7.05
0.10 0.14 0
-Cl
15.85 0.60 0.71 0
3
kde objem fragmentu je v Å , MR je molekulární refraktivita,  jsou p íspěvky pro logP a Rot je počet
Substituent
-H
-CH3
-CH2CH3
-CH2CH2CH3
-CH(CH3)2
Objem
1.48
18.78
35.35
51.99
51.33
MR
0.10
0.57
1.03
1.5
1.5

0
0.56
1.02
1.55
1.53
Rot
0
0
1
2
1
rotovatelných vazeb.
Příklad použití párových příspěvků – výpočet clogP
LogP může být samo vypočítáno (proto clogP) ze součtu jednotlivých fragmentových a
atomárních p íspěvků se započítáním korekcíμ
Na základě podobných slovníků pracuje většina predikcí logP, které jsou k dispozici
v databázích látek – PubChem, ChemSpider, apod. Proto si vždy dávejte pozor, zda
hodnota logP, kterou Vám dotyčná služba sděluje je reálná, nebo vypočítaná.
74
Výhody QSAR modelu
Kvantifikace vztahu mezi strukturou a aktivitou, což povede k pochopení efektu struktury
na aktivitu (SAR). Na základě modelu je posléze možné provádět predikce, které mohou
vést k úspěšnému testování nových analogů. Výsledky SAR mohou být použity
k pochopení interakcí mezi funkčními skupinami na molekulách s nejvyšší aktivitou a
s jejich cílem.
Limity QSAR modelu
Abychom popsali dataset, tak musí obsahovat minimálně 5-krát víc dat, než kolik chceme
použít deskriptorů k popisu dotyčných dat. Důvodem je, že se snažíme tzv. nep efitovat
data, což by vedlo k falešně vysokým korelacím ve validacích.
QSAR model také není schopen p íliš pracovat mimo oblasti, na kterých byl trénován, a
p ed nasazením do predikce musí být intenzivně zkoušen a validován
Efektivní evaluace modelů
Jestliže mají být predikční modely vycházející z QSAR správně ohodnoceny, tak je t eba
dodržovat několik základních principůμ




Pro publikaci modelu by se měly využít ve ejně dostupná data a jak metoda, tak i
deskriptory by se měly poskytnout volně k dispozici včetně dostatečně dobrého
popisu, aby mohla být práce na modelu opakována.
Validační set by měl být vždy použit a veškerá popisná statistika úspěchu modelu
by měla být založena jen na validačním setu, nikdy na setu trénovacím
Pro klasifikační problémy je t eba vždy vytvo it tzv. matici zmatení (confusion
matrix), na jejímž základě pak lze odvodit veličiny jako senzitivita a specifita,
p esnost a odmítnutí
Pro velké sety, speciálně pro použití ve virtuálním screeningu je vhodné ukázat
výsledky i ve formě ROC k ivky a u ní spočítat nap íklad obsah pod touto k ivkou
(ROC AUC; obé naleznete v kapitole Kontroly).
75
10.
SBDD – Návrh léčiv podle cíle
Motto:
Najít si svého partnera je důležité nejen v životě, ale i na molekulární úrovni.
Bill Watterson: Calvin a Hobbes
Ve chvíli, kdy máme k dispozici strukturu molekulárního cíle, tak můžeme sestavovat SAR
daleko lépe, protože díky molekulární grafice můžeme navrhovat molekuly skutečně jako
klíče do zámku. A můžeme tak fundovaně hledat, které molekuly z knihovny látek se váží
do aktivního místa, pomocí tzv. structure-based drug design. Můžeme rozlišit dva p ístupy,
které mohou být komplementárníμ


Molekulové dokování se snaží vložit do aktivního místa ligandy v různých
konformacích a co nejrychleji zhodnotit, jaká konformace a potažmo jaký ligand se
do aktivního místa hodí nejvíce.
De novo design analyzuje aktivní místo a snaží se k němu najít komplementární
molekuly.
Molekulové dokování
V molekulovém dokování se snažíme najít co nejlepší „fit“ mezi dvěma molekulami. Jedná
se tak o výpočetní metodu, která se pomocí sady algoritmů snaží predikovat vazbu mezi
ligandem a nějakým větším komplexem (jako nap íklad proteinem).
+
→
dle Charaka Goonatilake, Glen Group, University of Cambridge
76
Molekulové dokování predikuje


pózu molekuly ve vazebném místě = tedy vzájemnou geometrii komplexu,
vazebnou afinitu (skóre) reprezentující sílu vazby = tedy veličinu úměrnou volné
energii spojené s tvorbou komplexu
Vazebná póza je strukturní uspo ádání ligandu v receptoru nebo enzymu a je ízena hlavně
mezimolekulovými nevazebnými interakcemi.
ukázka vazebné pózy flurbiprofenu v aktivním místě cytochromu P450 2Cλ
světle šedě je ukázána póza z krystalu (PDBID: 1r9o) a šedě pak výsledek dokování
pomocí programu Autodock Vina, který se liší pouze natočením fluoroskupiny
Postup molekulárního dokování
Molekulové dokování se skládá ze dvou klíčových kroků:
1. Hledání vazebné pózy:

vygeneruje se velké množství póz ve vazebném místě.
2. Ohodnocení póz pomocí skórovací funkce:

výpočet skóre, nebo vazebné afinity pro jednotlivé pózy pomocí p eddefinované
skórovací nebo také objektivní funkce.
77
Problémy dokování
V průběhu dokování je nutné ešit několik významných problémů, které mohou výrazně
ovlivnit jeho výsledek:
 translace a rotace ligandu tak, aby došlo k pokrytí pokud možno celého prostoru
vyznačeného vazebného místa
 konformace a flexibilita ligandu
 jak brát v potaz flexibilitu proteinu
 jakou roli bude hrát solvent
 výpočetní čas a p esnost skórovací funkce
 a jiné…
Algoritmy pro vyhledávání pózy
Tyto algoritmy jsou vlastně minimalizační funkce, kdy se snažíme najít minimum energie
– nejlépe se vážící komplex. Dají se rozlišit podle toho, zda hledají lokální minima
(tj. najdou jen lokálně nejlepší pózu), nebo globální minimum (tj. najdou obecně nejlepší
pózu v rámci tzv. konformačního prostoru).
Mezi algoritmy hledající lokální minimum pat í hlavněμ


metoda nejrychlejšího sestupu (tzv. steepest descent), kdy se
nejd íve spočítá gradient potenciální funkce pro jednotlivé
atomy, a ve směru největšího gradientu se atomy p esunou o
stanovenou délku a znovu se spočítá gradient,… a to buď
dokud se neprovede p edem stanovený počet kroků, nebo
dokud není změna v energii mezi dvěma kroky menší než
stanovená malá hodnota.
metoda sdružených gradientů (tzv. conjugated gradient), kdy
se nejprve spočítají gradienty potenciální funkce pro
jednotlivé atomy, a provede se posun, ale po každém kroku
se postup ve stejném směru neprovede, ale provede se posun
po ortogonálním (kolmém) směru.
srovnání optimizačních
metod nejrychlejšího
sestupu (tlustší čáry) a
sdružených gradientů
(kolmé slabší čáry)
Díky rozdílům mezi těmito algoritmy je algoritmus nejrychlejšího sestupu obecně rychlejší,
ale méně p esný, protože snadněji mine minimum a musí se vracet. Metoda sdružených
gradientů je oproti němu pomalejší, ale zato p esnější. Oba tyto algoritmy se používají
hlavně na dočištění struktur do lokálního minima potenciální energie.
78
Mezi algoritmy hledající globální minimum pat í hlavně stochastické metody, které
umožňují náhodně p ekročit i bariéry, které by byly pro lokálně optimalizační metody
nep ekročitelné:

metoda Monte Carlo, pojmenovaná podle známého
města hazardu využívá generování pseudonáhodnéhých
čísel
zkombinovaných
s optimalizací
pomocí
Metropolisova algoritmu. V dokování jde o posun
atomů v molekule náhodnými směry a následné
vyhodnocení potenciální energie nového stavu
molekuly. Podle toho, zda je:
o nová energie menší než energie p edchozího
kroku – nový krok se p ijímá a pokračuje se
z něj
o nová energie je větší než energie p edchozího
kroku – nový krok se p ijme podle
Metropolisovy podmínky, tj. s pravděpodobností
metoda Monte Carlo u hledání
odpovídající = exp −�∆
lodí ve známé h e
Díky Metropolisově podmínce je metoda Monte
Carlo schopna p ekonávat i bariéry mezi lokálními minimy.

za použití genetických algoritmů, kdy se využívá popisu póz pomocí fingerprintů
vytvá ených ze vzájemných vzdáleností. Z pohledu algoritmu se tyto fingerprinty
berou jako „geny“, které se vzájemně kombinují a podobně jako p i pohlavním
rozmnožování tak vznikají nové „generace“ póz, které můžeme ohodnotit pomocí
skórovací funkce. Z těchto generací „p ežívají“ jen nejlepší „geny“, které pak opět
zkombinujeme, a cyklus pokračuje většinou po p edem stanovený počet generací.
Výhodou genetických algoritmů je jejich rychlejší konvergence než u Monte Carla.
užití genetických algoritmů i se zanesením bodových mutací pro větší variabilitu výsledků

metoda simulovaného žíhání, kdy se ligandům p idává „oh evem - žíháním“
kinetická energie k p ekonání bariér na potenciálním povrchu a poté se molekula
postupně chladí, čímž se nakonec uchytí v jednotlivých lokálních minimech. Cyklus
chlazení a oh evu můžeme několikrát opakovat, abychom dostatečně prošli
konformační prostor a nalezli globální minimum.
79
Skórovací funkce
Pro dokování kromě algoritmu hledání póz pot ebujeme i nějakou funkci, která by byla
schopna rozlišit, které pózy jsou rozumné a které nikoliv. Této funkci se íká buď skórovací
nebo objektivní (scoring or objective function). Jsou na ní kladené následující požadavky.
Musí být schopnáμ





hodnotit pózy a ligandy velice rychle, aby mohlo být dokování skutečně rychlejší,
než experiment.
správně ohodnotit jednotlivé vygenerované pózy z pohledu vazebné afinity,
identifikovat správnou pózu jako tu s nejnižším skóre, ev. volnou energií,
sloužit k se azení vhodnosti vazebné volné energie mezi různými ligandy,
porovnat výsledky s experimentálními daty.
Protože jde o poměrně vysoké nároky, kdy se musí vyvažovat p esnost takové funkce s její
rychlostí, tak se mnohdy nepoužívá pro celý proces dokování jen jedna funkce, ale mohou
se nap ed s levnou ale značně nep esnou skórovací funkcí nejd ív vygenerovat pózy
popisující celý konformační prostor a sada nejlepších póz se pak už bez náročného
vyhledávání ale jen s lokální optimalizací prožene oskórováním funkcí výpočetně
náročnější, dražší, ale o to p esnější.
Typy skórovacích funkcí
Skórovací funkce jsou vždy parametrizovány na základě známých experimentálních dat, ale
podle stylu parametrizace a testování je můžeme rozdělit do několika typůμ




50
ze silových polí - parametrizovány dle molekulárně mechanických silových polí
o silové pole (angl. "forcefield") - popisuje mezimolekulové interakce
o Goldscore, DOCK, Autodock
empirické - parametrizovány proti experimentálním vazebným afinitám (Kd,IC50)
o obsahují různé "chemické" členy (vodíkové vazby, hydrofobní kontakty)
o ChemScore, PLP, Glide SP/XP
znalostní – vycházejí ze znalostí komplexů protein-ligand
o (angl. "knowledge based") – jsou založeny na základě Boltzmannovy
hypotézy, že často nacházené motivy musejí mít také silnější vazebnou
volnou energii.
o PMF, DrugScore, ASP
kvantově mechanické – založeny na kvantově chemických výpočtech interakce
o je zajímavé, že první vlaštovkou byla česká PM6-DH250 ze skupiny
prof. Pavla Hobzy z ÚOCHB AV ČR.
Dobeš et al. J Comput Aided Mol Des (2011), 25 (3), 223-235
80
Skórovací funkce vycházející ze silových polí Force-field scoring functions)
Molekulové modelování nahrazuje kvantový popis molekul zjednodušeným popisem atomů
jakožto různě "lepivých" kuliček spojených pružinkami. Potenciální energii molekuly
v dané konformaci udává následující rovniceμ
Abychom mohli rovnici pro potenciální energii molekuly skutečně používat k dokování,
pot ebujeme znát všechny vazebné a nevazebné atomární parametry – hmotnosti atomů a
jejich vaznost, silové konstanty a délky vazeb, typické úhly a dihedrální úhly a silové
konstanty s nimi spojené, parciální náboj, atomární poloměr a podobně. Naštěstí je mnoho
těchto parametrů p enosných – nap íklad hmotnost atomu uhlíku se nemění.
Navíc vzhledem k tomu, že p i molekulárním dokování většinou neuvažujeme disociaci
vazeb a naopak se snažíme výpočet co nejvíc zjednodušit, používá se často zjednodušení,
že délku vazeb i vazebné úhly považujeme za konstantní v jejich průměrné hodnotě a
naopak dihedrální úhly považujeme často za zcela libovolné. Ve výsledné rovnici tak poté
hrají hlavní roli nekovalentní interakce mezi ligandem a proteinem.
Jako p íklad může sloužit AMBER score skórovací funkce implementovaná v DOCK 6.6,51
která vypočítává interakci mezi receptorem a ligandem pomocí elektrostatického a van der
Waalsova p íspěvku doplněného o solvatační energií počítanou pomocí Generalized Born
solvačního modelu. AMBER score se pak vypočítá jako
AMBERscore = E(Komplex) – [ E(Receptor) + E(Ligand) ],
kde EKComplex), E(Receptor) a E(Ligand) jsou vnit ní energie solvatovaného komplexu,
receptoru a ligandu vypočítaném pomocí silového pole AMBER52 s oslabenou repulzí.
51
52
http://dock.compbio.ucsf.edu/DOCK_6/dock6_manual.htm#AMBERScore
Wang et al, J. Comput. Chem. (2004) 25:1157-1174,
81
Empirické skórovací funkce (Empirical scoring functions)
Empirické skórovací funkce vycházejí ze znalosti experimentálních afinit a z hypotetické
rozložitelnosti vazebné energie do odpovídajících "chemických" členů. Díky tomu je
schopna zachycovat specifické interakce, jako jsou nap íklad vodíkové vazby, patrové
interakce mezi aromatickými kruhy a podobně. Pro zjednodušení se často používá
linearizace jednotlivých členů.
Jako p íklad může posloužit Böhmova empirická skórovací funkce,53 která je tvo ena
lineární sumou jednotlivých p íspěvků (vodíkové vazby, interakce iontů, lipofilní interakce
a konformačního entropického členu) k vazběμ
,
kde byly ∆G hodnoty p i azené jednotlivým členům parametrizovány lineární regresí na
experimentálních vazebných datech pro 45 komplexů proteinů s ligandy.
Nejčastěji používanou empirickou skórovací funkcí je funkce Chemscore, která byla
původně parametrizována54 jako
∆
�
=∆
+ ∆
ℎ
ℎ
+∆
+∆
+∆
,
kde byly definovány jednotlivé linearizované členy pro jednotlivé chemické trendy, tedy
pro popis vodíkových vazeb,
pro lipofilní interakce,
pro interakce
ℎ
s kovy a
pro ztrátu konformační entropie p i vazbě substrátu. Jednotlivé
∆ parametry jsou pak vlastně jednotlivé regresní koeficienty p isuzované váze
jednotlivých interakcí.
Následně bylo Chemscore pro dokování dále doplněno o další členy pro sterické konflikty,
intramolekulární popis ligandu, i pro kovalentní interakce mezi proteinem a ligandy.55
∆ ′
53
�
=∆
�
+
Bohm et al, J. Comput.-Aided Mol. Des. (1994), 8, 243
Eldridge et al, J. Comput. Aided Mol. Des. (1997) 11, 425-445
55
Verdonk et al, Proteins (2003) 52, 609-623
54
82
ℎ
+
+
Znalostní skórovací funkce Knowledge-based scoring functions)
Znalostní skórovací funkce korelují strukturní data získané z protein-ligandových komplexů
z PDB databáze s volnou energií vazby. Jsou založeny na základě Boltzmannovy hypotézy,
že často nacházené motivy musejí mít také silnější vazebnou volnou energii nap . dle
skórovací funkce Drugscore56:
∆
,
� =
,
� −
� = −�
�,
�
,
kde ∆ , � je interakční volná energie mezi atomy i a j v místě interakce v pozici r,
� je průměrná volná energie
, � je volná energie mezi těmito atomy v pozici r,
v pozici r , gi,j(r) je průměrný výskyt páru atomů i a j v pozici r a g(r) je průměrný výskyt
atomů v pozici r.
Problém je, že Boltzmannova hypotéza platí pro soubor částic v plynu, ne nutně pro
proteiny. Ale na druhou stranu, v okolí jednotlivých aminokyselin se skutečně v proteinech
vyskytují další částice značně nerovnoměrně i pro, dle ostatních mě ítek, značně
izotropické alifatické aminokyseliny, jako nap íklad leucinμ
Rozdělení atomů uhlíku v okolí aminokyseliny leucin ze struktur vyzískaných v databázi PDB (vlevo) a
zvýraznění nejčastějšího výskytu v okolí leucinu57
Kvantově mechanické skórovací funkce QM-based scoring functions)
Nová t ída dokování, která byla umožněna až nedávno výrazným nárůstem výpočetní síly
počítačů. Jsou založeny na kvantově chemických výpočtech interakce mezi ligandem a
proteinem. Je zajímavé, že první vlaštovkou byla česká PM6-DH258 ze skupiny
prof. Hobzy. V této skórovací funkci se počítá několik interakčních členůμ ΔHw – interakční
enthalpie, TΔSw – interakční entropie, ΔEdef - korekce na deformaci ligandu a ΔΔGw –
korekce na solvataci inhibitoru.
S dalším rozvojem výpočetního výkonu se dá očekávat bou livý rozvoj těchto metod.
56
Gohlke et al, J. Mol. Biol. (2000), 295, 337-356
Berka et al, J. Chem. Theory Comput., (2009) 5(4), 982-992
58
Dobeš et al. J Comput Aided Mol Des (2011), 25 (3), 223-235
57
83
Problémy skórovacích funkcí
Skórovací funkce fungují na systémech, na kterých byly trénovány – to mají podobné
s deskriptory. Jejich p enositelnost je zaručena jen tehdy, kdy skutečně jsou schopny popsat
očekávané interakce, p ičemž když ta chybí, tak ji logicky pak skórovací funkce nemůže
brát do úvahy, nap íklad když je v aktivním místě p ítomný atom kovu, nebo když
inhibitory vytvá ejí kovalentní vazby.
Dalším problémem je, že p i parametrizaci se využívají hlavně molekuly a komplexy, které
se váží, protože nenavázaný komplex většinou nemá experimentální strukturu ani
stanovitelnou rovnovážnou konstantu. Proto pak jednotlivé skórovací funkce p edpovídají,
že se látky budou vázat mnohem víc, než ve skutečnosti – jde o tzv. falešně pozitivní
výsledky. Aby se tomu vývojá i skórovacích funkcí mohli vyhnout, tak se poslední dobou
začaly objevovat sety vymyšlených komplexů, které jsou podobné těm skutečným a mají
tak odhalit, zda skórovací funkce náhodou neprodukuje i falešné výsledky. Jde nap íklad
o DUD,59 nebo Decoys'R'Us.60
U skórovacích funkcí založených na silových polích se vyskytují další problémy v p esnosti
modelu. Poměrně často se používají linearizované vztahy, které jsou ale bohužel zcela
nefyzikální. Fyzikální popis nekovalentních interakcí vyžaduje jednotlivých členů p ece jen
jiné chování. U elektrostatiky lze p edpokládat škálování s 1/r, ale je značně závislá na
navržených parciálních nábojích a tautomerických stavech molekuly. U disperze se
p itažlivá síla škáluje zhruba s 1/r6. Pauliho repulze škáluje exponenciálně a je značně
krátkodosahová (do 1 Å). Ale už v klasické molekulové mechanice se repulze nahrazuje
výrazem škálujícím s 1/r12. Tato funkce je ale strmější než exponenciála a proto, aby se
dostaly atomy dostatečně blízko k sobě, tak se používají i různě prováděné škálování, které
ale nejsou p íliš p esné, ale zato jsou velmi rychlé, nicméně ne vždy fungují.
zlepšení predikce vazebných póz blízkých experimentu po změně repulze na exponenciální tvar
Dle Bazgier V, Banáš P, Berka K, Otyepka M, Exponential Repulsion Improves Structural Predictability of
Molecular Docking, submitted
59
60
A Directory of Useful Decoys - http://dud.docking.org/
Samudrala R, Levitt M. Protein Sci.(2000) 9(7), 1399–1401
84
Technické provedení dokování
Pro dokování je t eba p ipravit, zkontrolovat a zvážit mnoho parametrů:
Receptor
 identifikace struktury a její p íprava (doplnění chybějících atomů, p idání vodíků),
Ligand
 správná p íprava struktury,
 p íprava izomeru a konformerů.
Dále je nutno zohlednitμ
 solvataci receptoru,
 flexibilitu receptoru a ligandu.
Mřížka - Grid
Vzhledem k tomu, že receptor je v dokování nejčastěji reprezentován v rigidní reprezentaci,
tak se často v rámci úspory výpočetního času nejprve interakce s receptorem p evedou
na m ížku – ve vzdálenostech po cca 0,1–0,3 Å od sebe se vždy vypočítá, jaké interakce by
s dotyčným bodem m ížky měly jednotlivé atomy ligandu a jaká by byla interakce
s nábojem. P i následném hledání póz se konformace ligandu umisťují na m ížku a
jednoduše se sčítá celková energie interakce. Čas ztracený na napočítávání interakcí
na m ížce je pak vykoupen výrazně rychlejším prohledávání konformačního prostoru a také
se urychlí dokování v p ípadě, kdy je látek mnoho – nap íklad ve virtuálním screeningu.
Příprava receptoru
Na receptoru je nejprve t eba identifikovat vazebné místo, nap íklad podle literatury, nebo
podle p ítomnosti ligandů. Dále je zapot ebí zvolit dobrou strukturu, která bude dostatečně
p esná (nízké R – rozlišení), bude relativně málo flexibilní (nízké B-faktory) a bude
pravdivá (nízké R-free).
Molekulové dokování je také velice náchylné na konformaci proteinu. Pokud se dá
očekávat, že aktivní místo se ligandu p izpůsobuje, nebo se naopak značně hýbe
v nep ítomnosti ligandu, tak je t eba zvážit do jaké struktury dokovat. Nejlepší bývá
dokování do struktury, které mají aktivní místo vyplněno pomocí podobného ligandu jako
se snažíme nadokovat. Pakliže si není možno takovou strukturu vybrat, tak je možné
dokovat i do několika struktur (tzv. ensenble docking) a vybrat následně nejlepší. Další
možností je použít flexibilní dokování, kde se kromě zkoumání konformací ligandů může
hýbat i protein – i když ten bývá často omezen jen na pohyby
vybraných vedlejších etězců.
No a také se nesmí zapomínat na různé stavy, ve kterých mohou
být jednotlivé aminokyseliny – na jejich protonace, rotamery a
tautomerizace. Nejvíce náchylným ke změně protonace je histidin,
jehož pKa ~ 6.04 a tak může být až ve t ech různých protonacích,
kdy mohou být mít po jednom protonu dusíky na kruhu, nebo ho
má jen jeden z nich.
histidin (H, His)
85
Příklad konformační flexibility proteinu - sodno-draselná pumpa
(Na+/K+–ATPase)
P íkladem jak konformace proteinu
ovlivní molekulové dokování je
nap íklad sodno-draselná pumpa,
která má velmi konformačně
senzitivní aktivní místo, které je
v dokování preferováno jedině
v tzv. open struktu e, která
fyziologicky váže ATP.61
Vpravo je pohled na celkovou
strukturu NaK-ATPasy a místa,
kam se na ni dle molekulárního
dokování mohou vázat další
fluorescenční sondy.
Příklad ensemble dokování – histamin 1 receptor (H1R)
Extrakt z mo ských ježků62 se ukázal aktivní na potlačení alergické reakce u morčat, ale nebylo
určeno, které látky z extraktu jsou aktivní. Byly identifikovány následující sloučeniny, u kterých
bylo t eba zjistit, zda se váží do aktivního místa histamin 1 receptoru, který je zodpovědný za
alergické reakce a zda by ho tedy mohly zablokovat.
Krystal H1R receptoru (PDBID:3RZE) je ale bohužel neúplný a obsahuje i chimerickou doménu
fágového T4 lysozymu, která byla použita k umožnění krystalizace receptoru. Pro zjištění, zda se
látky do receptoru váží a jak dob e bylo t eba p ipravit úplný model. Jednak byla odstraněna
doména lysozymu, a protože v aktivním místě receptoru chyběla krátká smyčka (což bývá důsledek
p íliš velké pohyblivosti dotyčného místa), byl p ipraven model. Ale protože ta smyčka byla velmi
flexibilní, tak se p istoupilo k simulaci vzniklého modelu v membráně a do několika struktur bylo
poté provedeno ensemble dokování, které úspěšně potvrdilo, že se testované látky do receptoru váží
poměrně silně.
61
62
Havlikova, ..., Bazgier, Berka, ... et al. BBA, (2013) 1828(2), 568
Pozharitskaya, ..., Bazgier, Berka, ... et al. Planta Med. (2013), 79(18), 1698-1704
86
Příprava ligandu
Také ligandy je pro dokování t eba p ipravit a je vhodné se soust edit p edevším na
následující otázkyμ
 Náboj a tautomerizace ligandu – p esuny náboje uvnit molekuly ligandu
o Vytvo it všechny a pak je dokovat? (pak se ale bude relativně špatně vybírat
nejlepší skóre, protože každý stav bude mít jinou relativní energii.
o Také se u tohoto kroku vyplatí zeptat se expertů – organických chemiků,
jaké možné tautomery a konformery může látka v roztoku vytvá et.
 Konformace a flexibilita – rotace kolem torzních úhlů rotovatelných molekul
o Rotovatelné vazby - rotace kolem jednoduchých C-C vazeb je povolená, ale
kolem dvojných C=C vazeb už nikoliv, takže pokud není známa isomerie,
tak je lepší vytvo it cis/trans izomery p edem a posléze vazby zafixovat.
o Pro molekulu s N rotovatelnými vazbami, kdy je každý torzní úhel
s rotacemi o θ stupňů (typicky 5°) je výsledný počet konformací (360º/θ)N.
Což vede ke konformační explozi a tedy pot ebných struktur už u relativně
malého množství rotovatelných vazeb.
o Podobně i kruhy jsou definovány většinou rigidně, takže je t eba p edem
určit, v jaké konformaci se kruh nachází – zda v židličce, či vaničce, nebo
twist formě.
Z jednotlivých izomerů dle následujícího pavouka jsou to pouze některé konformery a
všechny rotamery, které zohledňují v molekulovém dokování.
87
Příklad důležitosti přípravy pro úspěšné dokování do CDK2 kinázy
CDK2 kináza je jedním z klíčových enzymů účastnících se regulace buněčného cyklu a to z ní dělá
zajímavý cíl pro návrhy protinádorových léčiv. P i návrhu nových inhibitorů CDK2 kinázy s nM
účinkem63 jsme narazili na problém, že pózy vytvá ené p i dokování s programem Autodock Vina64
nebyly schopny vysvětlit experimentální data. P i detailním pohledu na strukturu ligandů se
ukázalo, že p evažující konformace bifenylové skupiny se v dokování objevovala relativně často
s úhlem λ0° mezi benzenovými kruhy. Analýza potenciálu spojeném s tímto torzním úhlem posléze
odhalila, že optimální úhel svíraný mezi kruhy měl být podstatně menší, v některých p ípadech
výrazně.
Po zafixování výhodných úhlů p i p ípravě ligandu už dokování dopadlo v souladu s experimentem,
osvětlilo experimentální SAR vztahy a ukázalo vazebnou pózu.
Shrnutí dokování
Molekulové dokování je oblast in silico drug designu, která zažívá bou livý rozvoj. Může
velmi napomoci p i snaze zjistit, jak se látky v receptoru váží a tak vysvětlit SAR vztahy a
využít jich k návrhu nových látek. Ale jako s každým nástrojem i u dokování se můžeme
velice snadno splést a je pot eba mít neustále na paměti, že jde pouze o model.
63
64
Gucký, ..., Bazgier, Berka, ... et al J. Med. Chem., (2013) 56 (15), 6234-6247
http://vina.scripps.edu
88
de novo design
Kromě vkládání celých ligandů do aktivního místa molekulárním dokováním, je možné
navrhnout ligand podle tvaru aktivního místa samotného, nebo pomocí dokování
jednotlivých fragmentů a jejich spojování. Obě tyto metody hledají ligandy bez
p edchozího návrhu – de novo.
(ledání komplementarity
Pro hledání nových molekul je možné použít metodu
jakéhosi reverzního inženýrství, kdy podle tvaru a typu
povrchu dá odhadnout, jaké molekuly by se k němu
komplementárně hodily. Postup této metodyμ
1) určení SASA povrchu proteinu65 v aktivním místě,
2) tvorba "negativního" obrazu receptoru z kuliček na
povrchu z kroku 1,
3) určení vzdáleností mezi jednotlivými kuličkami,
4) konverze vzdáleností mezi kuličkami možné
vazebné vzdálenosti mezi atomy
5) srovnání nalezených vzdáleností mezi atomy
s databází molekul a výběr ligandů, které mají
největší shodu,
6) ohodnocení pomocí skórovací funkce
Dostavování Groupbuild
Zatímco p edchozí metoda je spíše podobná
tvorbě farmakoforu, tak stavba nových
sloučenin pomocí dostavování je spíše variací na
klasické dokování. Používají se v ní dokování
malých fragmentů, které se pak spojí pomocí
flexibilních spojek a provede se lokální
optimalizace.
P íklady fragmentůμ kyselina mravenčí, formaldehyd, formamid, amin, benzen, cyklohexan,
cyklopentan, ethan, ethylen, voda, methanol,
methan, sulfan, thiofen a další.
p íklad postupu
tzv. eHiTS metody využívající dostavování dle
Simmons et al Nature Rev Microbiol (2010) 8, 501
angl. solvent accessible surface area - povrch – jeden z otců počítačové molekulární grafiky Conelly navrhl,
jak algoritmicky vygenerovat tento povrch valením kuličky o velikosti molekuly vody po atomech.
Propojejím st edů těchto kuliček tedy lze určit povrch, na kterém se mohou vyskytovat molekuly vody.
65
89
11.
Kontrola kvality počítačového návrhu léčiv
Motto:
Výsledky jakékoliv predikční techniky je třeba zkontrolovat ideálně vůči experimentálním
datům
autor
Obecná kontrola - korelační koeficient
Nejčastější srovnání s experimentem je
porovnání, zda teoretické predikce korelují
s experientálními daty. K tomu se nejčastěji
používá Pearsonův korelační koeficient,
definovaný jako vztahμ
Výhodou korelačního koeficientu je to, že
nabývá hodnot pouze z intervalu <-1,1>, kdy
hodnoty:
 –1 – antikorelují, tj. růst jedné
srovnání
nep íliš
dobré
predikce
veličiny vede k poklesu druhé,
s experimentálními daty –
 0 – nekorelují – tj. predikce korelace vysvětluje pouze cca 50% dat
nepopisuje data experimentu,
 1 – korelují – data mezi sebou mají lineární závislost, ale je na SAR její
zdůvodnění a pochopení.
Čtverec korelačního koeficientu r2 se označuje jako koeficient determinace, který lze
chápat jako míru korelace náhodných veličin.
Kontrola dokování
Základní kontrolou úspěšnosti dokování je
tzv. zpětné dokování do původní struktury a
porovnání původní pozice ligandu s predikovanou
pozicí. Pokud je rozdíl vzdáleností mezi pozicí párů
atomů RMSD < 2Å, tak dokování pravděpodobně
bude fungovat. Dnešní programy a skórovací funkce
jsou schopny ligandy vrátit do pozice v cca 70%
p ípadů.
Pro důkladnější validaci a porovnávání programů a úspěšné zpětné dokování – pozice ligandu
krystalu (šedá) se shoduje s pozicí
skórovacích funkcí mezi sebou se používají vzískanou
z dokování (bílá)
osvědčené testovací sety, nap . GOLD test set,
Astex set; anebo sady tzv. decoys, tj. souborů molekul s podobnými fyzikálně chemickými
vlastnostmi, ale s odlišnými strukturami, které by se neměly vázat. Mezi známé decoy sety
pat í nap . ZINC nebo DUD.
90
Kontrola kvality u virtuálního screeningu
realita
Látky ve virtuálním screeningu se obecně mohou dělit do čty kategorií podle jejich
ne/aktivity v predikci a realitěμ
predikce
aktivní
neaktivní
aktivní
skutečně pozitivní TP falešně negativní
FN
neaktivní falešně pozitivní
FP skutečně negativní TN
P i znalosti experimentální reality pak můžeme hodnotitμ




senzitivitu (citlivost) predikční metody – tj. kolik % aktivních výsledků nalezneme)
TP
Sen�itivita =
TP + �N
specificitu metody – tj. kolik % neaktivních výsledků vyloučíme):
TN
Specifita =
TN + �P
prediktivní hodnotu pozitivního testu (PPV) – tj. kolik % označených jako
aktivní je aktivní i ve skutečnostiμ
TP
PPV =
TP + �P
prediktivní hodnotu negativního testu (NPV) – tj. kolik % označených jako
neaktivní je skutečně neaktivní
TN
NPV =
TN + �N
U virtuálního screeningu nejde většinou o určení výsledného léčiva, ale spíše o zúžení
výběru molekul, které se pak otestují v experimentálních testech. Proto se u virtuálního
screeningu sleduje hlavně míra obohacení užšího výběru o skutečně aktivní látky.
P íklad (na diagnostickém testu, ne na virtuálním screeningu, ale k pochopení pomůže)μ
dle J. Vrbkové
91
Faktor obohacení - Enrichment factor (EF)
ekněme, že nás zajímá, jak moc se obohatí výběr ekněme z původních N látek, pokud
provedeme VS a z jeho výsledků vybereme jen subset n nejlepších molekul. Faktor
obohacení (EF) popisuje, kolikrát obohatíme tento subset o aktivní látky a z celkového
množství aktivních látek A v celém souboruμ
=
�⁄
�⁄
�
Pokud je EF > 1, tak se subset obohatí a stačí tedy menší množství molekul. Ale EF nám
ne ekne, jak velké procento z původních látek máme použít k dalšímu testování, abychom
měli jistotu, že najdeme nějaké aktivní molekuly. K tomu slouží další statistická technikaμ
ROC křivky
Za druhé světové války bylo t eba p i navrhování co nejlepších zesilovačů odlišit radiové
signály od šumu pro detekci nep ítele a tak vznikly ROC k ivky. Jde o zkratku angl.
"receiver operating characteristic" a tyto k ivky popisují poměr zachycených skutečných
signálů oproti zachyceným falešně pozitivním. Průběh k ivky na tomto grafu pak ilustruje,
jak dob e metoda nachází skutečné cíle, tj. jak moc strmá byla od počátku.
Často se sleduje se i plocha pod ROC k ivkou (ROC AUC) a pokud je lepší než 0,5
u normovaného grafu, tak je predikce lepší než náhodný výběr a čím víc se blíží 1, tím lépe.
dle V Spiwok a B Králová, Chem. Listy (2009) 103, 52−55
92
12.
Závěrem
Tyto skripta si kladla za cíl seznámit čtená e s koncepty racionálního návrhu léčiv a aspoň
některými možnostmi, jak k němu využít počítačů. Jako oheň i počítačový návrh léčiv
může být dobrým sluhou, pokud ho budeme využívat s rozumem a pochopením k jeho
možnostem a limitacím; nebo zlým pánem, který nás může stát hodně peněz v testování
v pozdějších fázích, pokud jej budeme používat bez rozmyslu a znalostí jeho limitů.
I když jsme věnovali velké úsilí na vytvo ení tohoto textu, s jistotou jsme nestačili na tak
malé ploše a v tak omezeném čase pokrýt všechny počítačové metody, které se p i vývoji
nových látek a léčiv dnes používají. Skoro beze zmínky jsme ponechali náročnější
simulační výpočetní metody, které umožňují p esnější výpočty interakčních volných
interakcí, nebo predikce průchodu látek p es buněčné membrány. Taktéž jsme se nezmínili
o dalších metodách optimalizace ADME a dalších farmakokinetických vlastností.
Pohlížej tedy, drahý čtená i, na tento text jen jako na vstupní bránu do krásného světa
počítačového návrhu léčiv a pokud se této oblasti hodláš dále věnovat tak v následujícím
oddíle doporučujeme další literaturu a vědecké časopisy, které jsou na "tepu doby" a
publikují nejnovější studie v tomto svou multidisciplinaritou náročném ale o to více
obohacujícím oboru. A p ejeme Ti, bys v tomto oboru nalezl zalíbení podobně, jako jsme
ho v něm nalezli my.
auto i
93
Doporučená literatura











Young, D.C. Computational Drug Design. Wiley, 2009.
Young D.C. Computational Chemistry, a Practical Guide for Applying Techniques to Real World
Problems. Wiley, 2001.
Leach AR. Molecular Modelling - Principles and Applications (2nd ed). Pearson Education, 2001.
Alvarez, J. & Shoichet B. (Eds.). Virtual Screening in Drug Discovery. Taylor&Francis, 2005.
http://icep.wikispaces.com/Introducing+Chemoinformatics (21.2.2015)
Scheindlin S. A brief history of pharmacology. Modern Drug Discovery, 4(5):87 88, 2001.
http://pubs.acs.org/subscribe/archive/mdd/v04/i05/html/ 05timeline.html (21.2.2015)
Elis J. Počátky klinické farmakologie v českých zemích. Klin. Farmakol. Farm. 24(3)μ161, 2010.
http://www.klinickafarmakologie.cz/pdfs/far/ 2010/03/12.pdf
Berka K, Merhautová J – seriál Metabolismus léčiv, 12. série KSICHT,
http://ksicht.natur.cuni.cz/minule-rocniky (21.2.2015)
Berka K, Demel O, Voleská I – seriál Výpočetní chemie, 10. Série KSICHT,
http://ksicht.natur.cuni.cz/minule-rocniky (21.2.2015)
http://en.wikipedia.org/wiki/Drug_design - rozcestník v tematice návrhů léčiv in silico
Šarmanová J, Metody analýzy dat, VŠB-TU Ostrava, 2012,
http://www.person.vsb.cz/archivcd/FEI/MAD/MAD.pdf
Vědecké časopisy s tematikou návrhu léčiv pomocí in silico metod













94
Journal of Chemical Information and Modeling,
o http://pubs.acs.org/journal/jcisd8, American Chemical Society
Journal of Computer-Aided Molecular Design
o http://link.springer.com/journal/10822, Springer
Journal of Chemical Theory and Computation,
o http://pubs.acs.org/journal/jctcce, American Chemical Society
Journal of Cheminformatics,
o http://www.jcheminf.com/, Chemistry Central
Journal of Molecular Graphics & Modeling
o http://www.journals.elsevier.com/journal-of-molecular-graphics-and-modelling/, Elsevier
Journal of Computational Chemistry
o http://onlinelibrary.wiley.com/journal/10.1002/(ISSN)1096-987X, Wiley Periodicals
Journal of Medicinal Chemistry
o http://pubs.acs.org/journal/jmcmar, American Chemical Society
Reviews in Computational Chemistry
o http://onlinelibrary.wiley.com/bookseries/10.1002/SERIES6143, Wiley Periodicals
Drug Discovery Today
o http://www.sciencedirect.com/science/journal/13596446, Elsevier
BMC Bioinformatics
o http://www.biomedcentral.com/bmcbioinformatics, BioMed Central
Nature Reviews Drug Discovery
o http://www.nature.com/nrd/, Nature Publishing Group
Expert Opinion on Drug Discovery
o http://informahealthcare.com/loi/edc, Informa Healthcare
Nucleic Acids Research
o http://nar.oxfordjournals.org/, Oxford Journals
Významový slovník















ADME
adsorpce, distribuce, metabolismus a eliminace léčiva.
Aktivita
Kvantitativní veličina, kolik sloučeniny je zapot ebí, aby došlo k pot ebnému
účinku.
Biodostupnost (bioavailability)
Charakterizuje, že se látka dostane ke svému cíli dotyčnou cestou (nap . orálně).
Cíl (target)
Biomolekula, s kterou má léčivo interagovat (nejčastěji protein, méně DNA, RNA,
membrány, nově také protein-protein interakce).
Drug-likeness
Mě ítko, jak vypadá molekulární struktura podobná léčivům, většinou ukazuje na
látky s vhodnou biodostupností a nižší toxicitou.
Druggability
Vyjád ení vhodnosti biologického cíle vázat molekuly léčiva s vysokou afinitou a
vhodným účinkem.
Enzym
Protein s katalytickou aktivitou.
Farmakofor
Strukturní motiv, který má biologickou resp. farmakologickou funkci.
FDA (Food and Drug Administration)
Registrační autorita pro USA – kontroluje a sleduje léčiva na americkém trhu, čímž
nicméně ovlivňuje i celosvětové podmínky pro registraci nových léčiv. U nás je pro
léčivé látky jejím protějškem SÚKL.
Hit
Molekula, která uspěla v iniciálním screeningu (nad nastavenou hranicí).
HTS (High Throughput Screening)
Robotické testování tisícovek látek najednou unifikovaným testem.
IUPAC
Mezinárodní unie pro čistou a užitou chemii. Definuje mezinárodní pojmosloví
užívané v chemických vědách.
Kandidátní molekuly
Vybrané molekuly, které se vyberou pro následující proces (nap . testování na
zví atech).
Lead molekula
Molekulární strukturní motiv vybraný jako základ budoucího léčiva.
Léčivo
Léčivo je léčivá látka, směs léčivých látek nebo léčivý p ípravek. Je určeno
k p íznivému ovlivňování zdraví lidí nebo zví at.
95










96
Letální dávka (LD50)
Dávka, p i níž zem e polovina subjektů (nap . buněk v buněčné kultu e).
QSAR (Quantitative Structure-Activity Relationship)
Kvantitativní matematický vztah mezi biologickou aktivitou molekuly a jejími
geometrickými a chemickými vlastnostmi.
Silové pole (Force field)
Soubor parametrů a funkcí popisující konformační a interakční chování molekuly
v molekulární mechanice a dynamice.
Skorovací funkce (objective or scoring function)
Funkce používaná k ohodnocení dané konfigurace ligandu v receptoru.
SÚKL (Státní ústav pro kontrolu léčiv)
Hlavní kontrolor léčiv na našem území. Věnuje se klinickému hodnocení léčiv,
registraci léčiv, dozoru nad výrobou léčiv a jejich distribuci.
Terapeutický index (TI)
Index popisující relativní bezpečnost léčiv. TI je vyjád en podílem mezi toxickou a
efektivní dávkou (TD50/ED50). Čím je terapeutický index větší, tím je léčivo
bezpečnější.
Toxická dávka (TD50)
Dávka, která u 50 % subjektů vyvolá toxický efekt.
Účinnost („Efficacy“)
Kvalitativní vlastnost, zda má sloučenina požadovaný efekt na biomolekulární
systém. (drug efficacy – léčí).
Účinnost (anglicky „efficacy“)
Hodnota míry biologického účinku, kterého je léčivo schopno p i dané dávce
dosáhnout.
Vazebná póza
Geometrické uspo ádání molekuly v prostoru aktivního místa.
Dodatky
Zpracování velkých objemů dat
Velkou výzvou v racionálním návrhu léčiv je zpracování výsledků z různých výpočtů,
mě ení a pozorování. K analýze takto posbíraných dat slouží aparát statistických metod,
které napomáhají kontrolovat kvalitu dat (viz kapitola 11. Kontrola kvality počítačového
návrhu léčiv), t ídit data, i napomáhat rozhodovat o výběru látek do dalších kol. P ikládáme
zde proto alespoň krátký nástin některých metod a konceptů k zorientování čtená e.
Shluková analýza
Velmi častou statistickou metodou k analýze dat je shluková (klastrovací) analýza, která
t ídí jednotlivé výsledky do logických shluků, které mají vzájemně podobné atributy.
Shlukovací analýza je vhodnáμ



pro klasifikaci neznámých dat a na jejich první rozdělení do skupin (shluků)
pro definování charakteristiky shluků a pro nalezení atributů, které shluk definují
pro formulování pravidel pro p ídání dalších objektů do shluků
Můžeme odlišit nejen dva typy shlukování – hierarchické a nehierarchické.
Hiearchické shlukování
Metody hierarchického shlukování se zabývají rozkladem vstupní množiny na
nejlepší/nejvhodnější disjunktní podmnožiny. Toto shlukování lze dále rozdělit na
jednotlivé typy, jako jsou optimalizační, k-means metody, neuronové sítě atd.
Nehiearchické shlukování
Sada těchto metod je založená na iterativním p ístupu, kdy každá další iterace zjemní
výsledky p edcházejícího kroku. Výhodou tohoto shlukování je možnost kontinuálního
p ísunu dat k analýze.
97
Analýza diverzity
P i návrhu chemických knihoven nastala otázka, jak je vlastně sestavovat. Zvláště
s nástupem kombinatoriální chemie se začalo objevovat d íve nebývalé množství nových
nasyntetizovaných molekul s neznámými účinky. A protože se nejen ve farmaceutickém
průmyslu, ale také v akademické sfé e začalo ší it robotické HTS testování, tak vznikl tlak
na kvalitu chemických knihoven a to tak, aby byly skutečně schopny zachytit aspoň
nějakou aktivní látku a aby byly dostatečně diverzifikované, aby obsáhly co největší
chemický prostor.
Na druhou stranu používat jen malé molekuly podobně jako v de novo designu nebylo
perspektivní, protože malé molekuly se obecně váží slaběji a hlavně méně specificky, než
molekuly s více funkčními skupinami.
Pokrytí chemického prostoru
Tento tlak na diverzifikované sady molekul vedl k
myšlence zavedení "dekriptorového prostoru",
tj. vícerozměrného euklidovského prostoru, kde by
byly jednotlivé dimenze popisovány hodnotou
deskriptoru. Zvláštním p ípadem takového prostoru
je pak "chemický prostor", který obsahuje všechny
molekuly, které by mohly existovat a jeho
podskupina "prostor léčiv", obsahující molekuly,
které by mohly být léčivy.
Vzhledem k mnohorozměrnosti deskriptorových
prostorů má pro jejich vizualizaci smysl provádět
projekce jen pro 2-3 vybrané deskriptory (viz
obrázek). Pak je možné prostor rozdělit do oblastí a porovnávat, zda a jak moc jsou
populovány a zda jsou tedy dostatečně zastoupeny ve výběru.
Relativní diverzita
Další možností je změ it relativní rozdílnost dat, tj. jak moc se od sebe jednotlivé molekuly
v setu liší. Nap íklad se dá spočítat podobnost molekul pomocí Tanimotova koeficientu a
následně provést shlukovou analýzu a zjistit pomocí ní, zda některé shluky podobných
molekul nejsou zbytečně moc zastoupeny na úkor jiných - odlišnějších. A to se dá vyjád it
nap íklad průměrnou (ne)podobností.
Výběr knihoven
Jak metody pokrytí chemického prostoru, tak metody relativní diverzity se dají použít
k porovnávání mezi rozdílnými knihovnami, nap íklad porovnáním obsazenosti
jednotlivých oblastí v projekcích deskriptorového prostoru, nebo posouzením změny
průměrnou (ne)podobností. Lze si vybírat knihovny tak, abychom pokud možno zachovali
co největší diverzitu v datech.
98
Vizualizace dat
Vzhledem k množství dat, které se v racionálním návrhu léčiv objevují na různých úrovních
složitosti a reprezentace, je zapot ebí účinná vizualizace, která napomůže k pochopení
trendů a analýze dat. Ne nadarmo se íkává, že jeden obrázek vydá za tisíc slov. Jsme si
vědomi, že delší skripta už by nebyla vhodná a proto můžeme délku nahradit p edevším
pomocí obrázků z prost edí počítačového návrhu léčiv.
Pohled na ve ejně data k molekule aspirinu pomocí volně dostupné služby ChemSpider spravované Royal
Chemical Society (UK). http://www.chemspider.com/Chemical-Structure.2157.html (ze dne 28.2.2015)
Podobně jsou volně dostupné údaje ve službě PubChem - https://pubchem.ncbi.nlm.nih.gov/ spravované
NLM (USA)
Pohled na strukturu brassinolidu v brassinosteroidním receptoru zobrazený ve 3D reprezentaci v programu
PyMol. Program umožnuje skoro libovolnou manipulaci se strukturami.
99
Pohled výběr aktivního místa v receptoru v komerčním programu MOE umožňujícím pokročilé analýzy
strukturních a predikčních dat.
Náhled na 2D strukturu brassinolidu v kreslícím programu Marvin Sketch 14.9.8.0 umožňujícím mnoho
p edp ipravených predikcí fyzikálně chemických vlastností jako nap . logP/logD, pKa, NMR spektra a dalších
100
Pohled na analýzu výsledků kombinatoriální knihovny v programu DataWarrior
http://www.openmolecules.org/datawarrior/
Dle Sander T et al J. Chem. Inf. Model., (2015) 55(2), 460–473
Ukázka možností tvorby grafů a vyzískávání statistických parametrů v programu DataWarrior
http://www.openmolecules.org/datawarrior/
Dle Sander T et al J. Chem. Inf. Model., (2015) 55(2), 460–473
101
Vizualizace chemického prostoru pro výsledky 2111 antagonistů kanabinoidních receptorů t emi nezávislými
metodami – PSA, SOM, 2D-RBS. Barvy a tvary p edstavují hodnoty aktivity a subtypy receptorů.
http://www.openmolecules.org/datawarrior/
Dle Sander T et al J. Chem. Inf. Model., (2015) 55(2), 460–473
Ukázka exprese genů z microarray experimentu na DNA čipu vizualizovaná jako teplotní mapa (heat map).
Po stranách je vidět, jak se shlukují jednotlivé výsledky podle odezvy pomocí shlukovací analýzy.
http://commons.wikimedia.org/wiki/File:Heatmap.png
102
RNDr. Karel Berka, Ph.D.
Mgr. Ing. Václav Bazgier
Racionální návrh léčiv pomocí in silico metod
Výkonná redaktorka prof. PaedDr. Libuše Ludíková, CSc.
Odpovědná redaktorka Vendula Drozdová
Technická redakce autor
Grafické zpracování obálky Jiří Jurečka
Publikace ve vydavatelství neprošla technickou ani jazykovou redakční úpravou.
Vydala a vytiskla Univerzita Palackého v Olomouci
Křížkovského 8, 771 47 Olomouc
www.vydavatelstvi.upol.cz
www.e-shop.upol.cz
[email protected]
1. vydání
Olomouc 2015
Ediční řada – Skripta
ISBN 978-80-244-4544-1
Neprodejná publikace
vup 2015/0172

Podobné dokumenty

Přednáška 5

Přednáška 5 OPVK CZ.1.07/2.2.00/28.0184

Více

METODY STANOVENÍ PROSTOROVÉ STRUKTURY PROTEINŮ

METODY STANOVENÍ PROSTOROVÉ STRUKTURY PROTEINŮ který se používá buď k získání energetických částic nebo záření, které tyto částice produkují. Má-li být synchrotron zdrojem záření, jsou částicemi elektrony nebo pozitrony. • Je zde synchronizován...

Více

01. Struktura proteinu

01. Struktura proteinu • Není-li k dispozici podobná struktura. Jedná se o zavedení iontů těžkých kovů do struktury proteinů (těžké v tom smyslu, že mají vysoké atomové číslo, tj. množství elektronů), které zásadně mění ...

Více

Text práce - black

Text práce - black difúzní mlžné komory. Jedná se o projekt, inspirovaný ú!astí autora na akci Týden v"dy 2010 na Fakult" jaderné a fyzikáln" inženýrské #VUT v Praze. Text práce je rozd"len do p"ti hlavních kapitol. ...

Více

Bioinformatika

Bioinformatika 2 COMPLEX REVEALS A GENERAL MODEL FOR PAX PROTEIN-DNA

Více

VÝVOJ NOVÝCH LÉČIV

VÝVOJ NOVÝCH LÉČIV QSAR (Quantitative Structure-Activity Relationships): C.Hansch, S. M. Free a J. W. Wilson). Očekávalo se, že tyto metody usnadní a racionalizují navrhování struktur nových chemických léčiv. Od 2. p...

Více

Historie lékárny v Tachově

Historie lékárny v Tachově Nynější majitelé měli nelehkou úlohu p i celkové rekonstrukci objektu, aby vyhověli veškerým podmínkám památká ů zachovat historické prvky a p itom celou zchátralou budovu probudit k současnému živ...

Více

Computational mass spectrometry

Computational mass spectrometry • pro fragmentové ionty s nábojem 1+ a 2+ • dále heuristické zrychlení a zpřesnění s předpokladem, že aspoň 1 teoretický peak se spáruje s jedním z n=3 nejvyšších peaků v experimentálním spektru – ...

Více

Stereochemie

Stereochemie dihedrálních úhlů, existují v rovnovážném zastoupení a mohou být izolovatelné. Jejich relativní zastoupení je závislé na velikosti energetické bariéry. Studium molekul z hlediska jejich konformace ...

Více