Třídění pomocí reversí

Transkript

Třídění pomocí reversí
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Tomáš Oberhuber
Faculty of Nuclear Sciences and Physical Engineering
Czech Technical University in Prague
1 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Přeskupení genomu
• ví se, že genom myši lze rozdělit na cca. 300
fragmentů (synteny blocks) a jejich vhodným
přeuspořádáním lze dospět k lidskému genomu
• pokud víme, jak toto přeskupení vypadá, můžeme ze
znalosti některého genu u myší určit, kde se stejný gen
nachází u lidí
• pro biology je často také velmi užitečné znát minimální
počet kroků nutný k tomuto přeskupení
• čím méně transformací je nutných, tím více jsou si
organismy zřejmě příbuzné
• tyto transformace ale vůbec nemusí souviset s
evolučním vývojem
2 / 20
Tomáš
Oberhuber
Přeskupení genomu
Přeskupení
genomu genome rearrangement
Zdroj: http://ucsdnews.ucsd.edu/archive/newsrel/science/MouseHuman.htm
3 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
• úlohu lze řešit tříděním pomocí reversí – sorting by
reversals
• předpokládáme, že známe umístění a orientaci synteny
bloků v obou genomech
• pokud tyto bloky vhodně očíslujeme od 1 do n, jde
vlastně o úlohu, jak převést permutaci
π = π1 π2 . . . πn
na identickou permutaci
σ = 12 . . . n.
• omezíme se přitom jen na určitý typ operací nad
permutacemi, tzv. reversemi
• (orientaci synteny bloků dopředu/dozadu pro
jednoduchost nebereme v úvahu)
4 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Definition 1
Reverse ρ(i, j) je taková permutace, která převrátí část
permutace π mezi pozicemi i a j, tj.
ρ(i, j)π = π1 . . . πi−1 πj πj−1 . . . πi+1 πi πj+1 . . . πn .
Definition 2
Reversní vzdálenost mezi dvěma permutacemi π a σ je
minimální počet reversí, kterými lze převést π na σ, značíme
d(π, σ). σ obecně nemusí být identická parmutace.
5 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
• úloha třídění pomocí reversí znamená najít právě onu
nejkratší posloupnost, která převede libovolnou
permutaci π na identickou
• podobná úloha je známá jako Třídění palačinek –
Pancake flipping problem
• kuchař hazí palčinky různých průměrů na talíř, číšník je
pak musí srovnat od největší k nejmenší a smí vždy vzít
jen několik palačinek z vrchu a otočit je
6 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
• složitejší úloha je Třídění spálených palačinek – Burnt
pancake flipping problem
• každá palačinka je zespoda spálená, na konci třídění
nesmí být žádná spálenou stranou nahoru
• to vlastně lépe odpovídá naší původní úloze
7 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Hladový algoritmus
• v i-tém kroku uděláme takovou reversi, že i-tý prvek
permutace se dostane na svou cílovou pozici
• tj. úlohu lze vyřešit po maximálně n krocích
• u palačinkového třídění je to 2n
• každou palačinku si musím jedřív otočit na vrch, a pak
na své místo
8 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
• Gates W. H., Papadimitriou Ch. H., Bounds for sorting
by prefix reversal, Discrete Mathematics, 27 (1979), pp.
47–57.
• ukázali, že je 17n/16 ≤ f (n) ≤ (5n + 5)/3 (pro
palačinkové třídění)
9 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
• Cohen D. S., Blum M., On the problem of sorting burnt
pancakes, Discrete Applied Mathematics, 61 (1995),
pp. 105–120.
• ukázali, že je 3n/2 ≤ g(n) ≤ 2n − 2
10 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
• lepší výsledek se zatím nezná
• Caprara A., Sorting by reversals is difficult,
Proceedings of the first annual international conference
on Computational molecular biology, pp. 75–83, 1997.
• úloha je NP-úplná
• ukážeme si aproximační algoritmus, který dává jen
přibližně nejlepší řešení
Definition 3
Bud’ A(π) počet kroků získaných aproximačním algoritmem
a Opt(π) počet kroků optimálního řešení pro danou vstupní
permutaci π. Pak aproximační poměr algoritmu je definován
jako
A(π)
.
|π|=n Opt(π)
max
11 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
• Elias I., Hartman T. A 1.375-Approximation Algorithm
for Sorting by Transpositions, IEEE/ASM Transactions
on Computational Biology and Bioinformatics, 3(4),
pp.369–379, 2006.
• my si ukážeme algoritmus s aproximačním poměrem 4
12 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
Mějme libovolnou permutaci π délky n, tj.
π = π1 , . . . πn .
Provedeme její rozšíření na
π0 π1 . . . πn πn+1 = 0π1 . . . πn (n + 1).
Definition 4
Dvojici prvků πi , πi+1 nazveme sousedními, pokud platí, že
πi = πi+1 − 1 nebo πi = πi+1 + 1. Pokud ne, jde o bod zlomu
(breakpoint). Počet bodů zlomu v permutaci π budeme
značit jako b(π).
13 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Definition 5
Strip je interval v permutaci mezi dvěma sousedícími body
zlomu. Rozlišujeme rostoucí a klesajicí strip. Jednoprvkové
stripy definujeme jako klesající kromě prvního (0) a
posledního (n + 1), které definujeme jako rostoucí.
Remark 6
0 , 2, 1, 3, 4, 5, 8, 7, 6, 9
→
− ←
−
−− −−−→ ←−−− →
14 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Remark 7
• vhodná reverse dokáže odstranit jeden nebo dva
breakpointy
• pokud dokážeme, že nové breakpointy nevznikají,
můžeme sestrojit algoritmus pro jejich minimalizaci, až
dostaneme jeden rostoucí strip bez breakpointů
15 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
Theorem 8
Pokud permutace π obsahuje klesající strip, pak existuje
reverse ρ(i, j), která sníží počet breakpointů, tj.
b(ρπ) < b(π).
Proof.
• ze všech klesajících stripů najdeme ten, který obsahuje
nejmenší element k
• element k − 1 tedy musí náležet do rostoucího stripu a
zároveň ho musí zakončovat
• k a k − 1 patří ke dvěma různým breakpointům
• otočením segmentu mezi prvky k a k − 1 spojíme
rostoucí strip končící prvkem k − 1 s původně
klesajícím stripem končícím prvkem k do jednoho stripu
• tím jsme zrušili jeden breakpoint
16 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Remark 9
Pokud permutace neobsahuje klesající strip, např.
0, 1, 5, 6, 7, 2, 3, 4, 8, 9
−
−→ −−−→ −−−→ −
−→
tak jeden rostoucí strip otočíme.
17 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
procedure B REAK P OINT R EVERSAL S ORT( π )
while b(π) > 0 do
if π má klesající strip then
najdi reversi ρ, která minimalizuje b(ρπ)
else
najdi reversi ρ, která otočí některý strip na
klesající
end if
π := ρπ
vypiš π
end while
end procedure
18 / 20
Tomáš
Oberhuber
Třídění pomocí reversí
Přeskupení
genomu genome rearrangement
Příklad:
π = 8, 2, 7, 6, 5, 1, 4, 3
19 / 20
Tomáš
Oberhuber
Přeskupení
genomu genome rearrangement
Třídění pomocí reversí
Theorem 10
Zmíněný algoritmus (BreakPointReversalSort) je
aproximační algoritmus s poměrem maximálně 4.
Proof.
• žádná reverse nemůže snížit počet breakpointů o více
než o dva, tj.
b(π)
2
• algoritmus v nejhorším případě odstraní jeden
breakpoint každé dva kroky
d(π) ≥
•
A(π)
2b(π)
2b(π)
= max
≤ max
=4
|π|=n Opt(π)
|π|=n d(π)
|π|=n b(π)/2
max
20 / 20

Podobné dokumenty

Dějepis umění v současnosti - Katedra výtvarné výchovy PdF UP

Dějepis umění v současnosti - Katedra výtvarné výchovy PdF UP průvodcem těmito vzrušujícími otázkami než sbírkou odpovědí na ně budou následující kapitoly. Čtenáři však příliš neposlouží, jestliže se neseznámí s prameny, to znamená s texty vlivných představi...

Více

FEX 2013_teritoria 4_M.Hlávková_JAR

FEX 2013_teritoria 4_M.Hlávková_JAR Obchodní prognoza  2012 – 2017 exportní přebytek: + 56 % (+ 8.5 % ročně)  2012 – 2017 importní přebytek: + 50 % (+ 9,2 % ročně)  JAR = významě bohatší než zbytek kontinentu  Zdaleka největší a...

Více

ZDE - [email protected]

ZDE - vera@taborsky.eu uvedených pramen a literatury. Toto prohlášení je podepsáno a umíst no na patitulu nebo na následující stránce. Obsah umíst ný na za átku práce. Úvod , ve kterém je zd vodn no, co vedlo autora k se...

Více

3 - USA_střed a západ

3 - USA_střed a západ do hotelu na ubytování. Odpoledne prohlídka Las Vegas, průjezd Stripem, Stratosferická věž. Večer pro zájemce – procházka po Stripu a návštěva kasina, nocleh Las Vegas.

Více

Google Analytics - Jindřich Fáborský

Google Analytics - Jindřich Fáborský jsem na Facebooku vedl kampaně více než 30 různých klientů a celkem tam s nimi utratil cca 3 500 000 Kč. Své znalosti jsem také zhruba rok a půl předával prostřednictvím školení v igloonetu. Protož...

Více

2 - USA_západ - Pražský klub

2 - USA_západ - Pražský klub USA – Kalifornie, Nevada, národní parky San Francisco – NP Yosemite – NP Sequoia –– Las Vegas – Death Valley - Los Angeles Realizováno v listopadu 2015 pro 4 osoby

Více

Trvale udržitelný rozvoj a jeho indikátory na příkladu

Trvale udržitelný rozvoj a jeho indikátory na příkladu z města Tijuana do známého letoviska Cancún je přímočará vzdálenost 3 500 km, autem pak po silnici 4 600 km. Absolvovat cestu autobusem od severních hranic s USA znamená strávit v něm jeden den pře...

Více

UA Dip Tube - Medista.cz

UA Dip Tube - Medista.cz UA DipTube je stabilní tekutý kontrolní materiál připravený z lidské moči. Hladiny analytů jsou upraveny různými čistými chemikáliemi a materiály z lidských zdrojů. UA DipTube také obsahuje konzerv...

Více