Table Of ContentBioinformatik
Methoden zur Vorhersage von
RNA- und Proteinstrukturen
Gerhard Steger
Springer Basel AG
Autor
Dr. Gerhard Steger
Heinrich-Heine-Universität Düsseldorf
Institut für Physikalische Biologie
Universitätsstraße 1, Geb. 26.12.U1
D-40225 Düsseldorf
Bibliografische Information der Deutschen Bibliothek
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbiografie;
detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
ISBN 978-3-7643-6951-4 ISBN 978-3-0348-7984-2 (eBook)
DOI 10.1007/978-3-0348-7984-2
Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die
des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funk
sendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg
und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser
Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes
ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheber
rechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungs
pflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts.
© 2003 Springer Basel AG
Ursprünglich erschienen bei Birkhäuser Verlag, Basel, Switzerland 2003
Computer-to-plate Vorlage durch den Autor erstellt
Umschlaggestaltung: Micha Lotrovsky, CH-4106 Therwil, Schweiz
Gedruckt auf säurefreiem Papier, hergestellt aus chlorfrei gebleichtem Zellstoff. TCF =
ISBN 978-3-7643-6951-4
987654321 www.birkhauser-science.com
Inhaltsverzeichnis
Vorwort ............................................. ix
Strukturvorhersage von Nukleinsäuren 1
1. Struktur und Funktion von RN A . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1 RNA-Struktur .................................... 4
1.2 Thermodynamik der RNA-Faltung .................... . 15
1.3 Kinetik der RNA-Faltung ........................... . 21
1.4 RNA-Struktur-Bestimmung 22
1.5 RNA-Funktionen ................................. . 35
2. Kooperative Gleichgewichte in doppelsträngigen Nukleinsäuren .... 39
2.1 Einfaches chemisches Gleichgewicht zwischen Isomeren ....... 40
2.2 Protonierungsgleichgewicht ........................... 42
2.3 Modell für Denaturierung von doppelsträngiger Nukleinsäure 44
3. Graphen und Alignments ................................ 57
3.1 Globales paarweises Alignment ........................ 57
3.2 Varianten des paarweisen Alignments ................... 63
3.3 Kosten für Lücken ................................. 65
3.4 Multiple Alignments ................................ 66
VI Inhaltsverzeichnis
4. RNA-Sekundärstruktur-Vorhersage per Graphentheorie . . . . . . . . .. 73
4.1 Definition von Sekundär- und Tertiärstruktur ............. 74
4.2 Tinoco-Plot ..................................... . 75
4.3 Zahl möglicher Strukturen 76
4.4 Struktur mit maximaler Zahl Basenpaare ................ . 78
4.5 Strukturen mit submaximaler Zahl Basenpaare ........... . 79
4.6 Energie-Werte für RNA-Sekundärstrukturen ............. . 84
4.7 Thermodynamisch optimale Sekundärstrukturen 86
4.8 Bestimmung von Strukturverteilungen .................. . 86
4.9 Qualität der Vorhersage von Strukturen und
Strukturverteilungen ............................... . 92
4.10 Tertiärstrukturvorhersage ............................ 94
4.11 Simultane Optimierung von Struktur und Alignment ........ 94
5. RNA-Sekundärstruktur-Vorhersage per Informationstheorie . . . . . .. 95
5.1 Kommunikationstheorie ............................. 96
5.2 "Sequence Logos": Darstellung der Information in Alignments 100
5.3 "Expected mutual information rate" oder "rate of information
transmission" ..................................... 103
5.4 Maximal gewichtete Zuordnungen ...................... 105
5.5 Optimierung der Konsensus-Struktur . . . . . . . . . . . . . . . . . . .. 108
5.6 ConStruct........................................ 111
6. RNA-Sekundärstruktur-Vorhersage mit Genetischen Algorithmen 115
6.1 Prinzip eines Genetischen Algorithmus .................. 116
6.2 Beispiel für Genetischen Algorithmus . . . . . . . . . . . . . . . . . . .. 117
6.3 Vorhersage von RNA-Sekundärstruktur .................. 119
6.4 Vorhersage des Faltungswegs von RNA-Sekundärstruktur 120
6.5 Programmierter Zelltod durch hok/sok des Plasmids R1 122
7. RNA-Sekundärstrukturfaltung ............................ 127
7.1 Toleranzschwellen-Algorithmus ........................ 128
7.2 Sintflut-Algorithmus................................ 130
7.3 Kinetische Parameter für Strukturbildung ................ 130
7.4 RNA-Faltung durch Lösung der "master equation" .......... 132
7.5 Vorhersage von RNA-Faltung ......................... 135
Inhaltsverzeichnis vii
Strukturvorhersage von Proteinen 147
8. Protein-Struktur 149
8.1 Aminosäuren als Bausteine .......................... . 150
8.2 Die Polypeptidkette ............................... . 154
8.3 Die Peptidbindung ................................ . 154
8.4 Ramachandran-Plot 156
8.5 Sekundärstrukturen 158
8.6 Supersekundärstrukturen ........................... . 163
8.7 Tertiärstrukturen ................................. . 169
8.8 Folds und Superfolds, Familien und Superfamilien ......... . 173
8.9 Quartärstrukturen ................................ . 174
9. Energetik von Protein-Strukturen ............... .......... . 175
9.1 Nicht-kovalente Wechselwirkungen, die die Proteinstruktur
bestimmen ...................................... . 177
9.2 Salzbrücken ..................................... . 183
9.3 Molekulare Packung ............................... . 183
10. Protein-Sekundärstruktur-Vorhersage ...................... . 185
10.1 Sekundärstruktur nach Chou & Fasman (1978) ........... . 189
10.2 Sekundärstruktur nach Garnier et al. (1978) 191
10.3 Hydropathie und Amphiphilie von ex-Helices 194
10.4 Antigenitätsindex nach Jameson & Wolf (1988) ........... . 197
11. Qualität von Vorhersagen ............................... . 199
11.1 Eine binäre Aussage oder eine Aussage mit Wertebereich .... . 200
11.2 Aussagen mit mehr als zwei Klassen 203
11.3 Objektive Prüfung von Vorhersagen 205
12. Vorhersage von Transmembran-Helices per Hidden-Markov-Modell .. 207
12.1 Markov-Ketten ................................... . 208
12.2 Hidden-Markov-Modell ............................. . 209
12.3 Hidden-Markov-Modelle zur Sequenz-Analyse ............ . 210
12.4 Transmembran-Helices per Hidden-Markov-Modell (TMHMM) 214
12.5 Qualität von Programmen zur Vorhersage von
Transmembranregionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
viii Inhaltsverzeichnis
13. Protein-Sekundärstruktur-Vorhersage per Neuronalem Netz . . . . . .. 219
13.1 Neuronale Netze ....... . . . . . . . . . . . . . . . . . . . . . . . . . . .. 220
13.2 PHD - Strukturvorhersage unter Verwendung evolutionärer
Information ...................................... 232
13.3 Ausgabebeispiel von PHD ............................ 238
13.4 Vorhersage von Signalpeptiden und Signalankern ........... 241
14. ProteinfaItung mit ab-initio-Methoden 247
14.1 Elemente der ab-iniiio-Methoden 248
14.2 Stand der Forschung in MD-Simulationen ................ 251
15. Inverse ProteinfaItung - "Threading" ....................... 253
15.1 3D-1D-Profile für Threading .......................... 257
15.2 Verbesserungen des Algorithmus ....................... 261
15.3 Strukturvorhersage mit GenThreader .................... 265
16. ProteinfaItung per Homologie-Modellierung . . . . . . . . . . . . . . . . . .. 269
16.1 Identifizierung von verwandten Proteinen mit bekannter
3D-Struktur ...................................... 272
16.2 Alignment der Target-Sequenz mit dem Template .......... 272
16.3 Loop-Modellierung ................................. 273
16.4 Modellierung der Seitenketten ......................... 274
16.5 Fehler bei der Homologie-Modellierung 275
16.6 Modell-Bewertung 278
Literaturverzeichnis .................................... 279
Index zu Programmen 295
Index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 297
Vorwort
Inhalt: Der Inhalt dieses Buchs folgt einer zweifachen Absicht: zum einen soll
das jeweilige Gebiet der Nukleinsäure- bzw. Protein-Strukturvorhersage ab
gedeckt werden und zum anderen soll in jedem Kapitel (mindestens) eine
informationstechnische Methode behandelt werden. Hier soll dann nicht nur
der Algorithmus vorgestellt werden, sondern mindestens eine Implementati
on und damit erzielbare Ergebnisse anhand eines biologischen Beispiels dis
kutiert werden. Das Buch ist also nicht ein Handbuch mit Click-Anweisungen
für diverse Web-basierte Computer-Werkzeuge, sondern eher eine Darstel
lung von Informatik-Methoden anhand konkreter biologischer Themen.
In den Nukleinsäure- bzw. Proteinstruktur einleitenden Kapiteln 1 bzw.
8 und 9 werden einige biochemische und biophysikalische Grundlagen
erläutert, auf denen die in den darauf folgenden Kapiteln behandelten Algo
rithmen aufbauen. Sie sollen also zum Verständnis des behandelten Problems
und der zu seiner Lösung eingesetzten informationstechnischen Methoden
nützlich sein.
Zielgruppe/Ursprung: Dieses Buch ist eine überarbeitete Version eines Vorle
sungsmanuskripts für eine einsemestrige Bioinformatik-Vorlesung an der
Heinrich-Heine-Universität Düsseldorf. Diese und eine weitere Bioinforma
tik-Vorlesung sind für solche Studierenden des Diplomstudiengangs Biologie
prüfungsrelevant, die das "kombinierte Nebenfach" Bioinformatik belegen.
Zu diesem Nebenfach zählen "biologische" Vorlesungen, Praktika und Se
minare in Bioinformatik und "nicht-biologische" Vorlesungen und Praktika
in Informatik und Mathematik. Mit umgekehrtem Vorzeichen gilt ähnliches
für Studierende im Bachelor/Master-Studiengang Informatik mit Studien
schwerpunkt Bioinformatik in Kombination mit dem Nebenfach Biologie.
Referenzen: In jedem Kapitel werden zahlreiche Literaturhinweise zu wei
terführenden oder alternativen Algorithmen und Methoden, Originalarbei
ten und Übersichtsartikeln gegeben; dies sollte es erleichtern, sich in je
des der in den Kapiteln behandelten Themen tiefer einzuarbeiten. Dazu
oder auch zur praktischen Anwendung von Methoden sind an vielen Stel
len Web-Adressen angegeben. Diese sind leider dynamischer als einem lieb
x Vorwort
sein kann; allerdings ist nach meiner Erfahrung jede Seite mit Hilfe des an
gegebenen Namens und Inhalts in einer Suchmaschine1 auch nach Jahren
noch auffindbar.
Dank: Das vorliegende Buch wurde in LJ\TEX 2 erstellt; Zeichnungen und Grafiken
wurden mit sketch :3, gimp ,1 und GLE [) angefertigt. Danke an die Entwickler;
keines der Programme hat mich im Stich gelassen. Weiterhin gilt mein Dank
den DiplomandInnen und Doktoranden, die sich an der Suche nach Tippfeh
lern und Ungereimtheiten im Manuskript beteiligt haben (in alphabetischer
Reihenfolge): Ali Akin, Tanja Gesell, Stefan A. Gräf, Cynthia Sharma, Ralph
Schunk und Andreas Wilm. Bei Herrn G. Nagel bedanke ich mich ganz be
sonders für seine gründliche Fehlersuche. Verbleibende Fehler, unzulängliche
Beschreibungen etc. gehen natürlich zu meinen Lasten.
Düsseldorf, den 27. Januar 2003 Gerhard Steger
1 http://www.google.de/
2 http://www.dante.de
:l http://sketch.sourceforge . net
4 http://www.gimp.org
5 ftp://ftp.rz.uni-duesseldorf.de/pub/graphics/gle/
Strukturvorhersage von
Nukleinsäuren