Objektive Eingruppierung sequenzierter Tollwutisolate mithilfe des Affinity Propagation Clusterings

Die klassische Tollwut (Rabies Virus, RABV) gilt als eine der ältesten Zoonosen der Welt und fordert bis heute jährlich zehntausende Todesopfer (Knobel et al., 2005), dies vor allem in den Entwicklungsländern Asiens und Afrikas. Auch wenn die Erkrankung in Deutschland entsprechend den Statuten der Weltorga-nisation für Tiergesundheit (OIE) seit 2008 als ausgerottet gilt, erfordert die globale Situation weiterhin Achtsamkeit (Muller et al., 2012). Um ein besseres Verständnis des vorangegangenen Ausbreitungsge-schehens von RABV zu erlangen, erfolgen molekular-epidemiologische Untersuchungen mittels Se-quenzanalysen von Virusproben. Aus den Datenbanken des NCBI konnten für diese Arbeit etwa 21.000 Datensätze mit RABV Teil- und Vollgenomsequenzen identifiziert werden. Die Einteilung der Viren in diese Spezies erfolgte nach den Statuten des Committee on Taxonomy of Viruses ICTV (Adams et al., 2017; ICTV, 2015) und wurde speziell durch die Rhabdovirus-Forschungsgruppe definiert. Dabei bilden Sequenzen des Genus Lyssavirus unter anderem dann eine gemeinsame Spezies, wenn sie nicht mehr als 18-20% Unterschiede in ihren Nukleotidsequenzen aufweisen (Dietzgen et al., 2011). Durch das ICTV wird zudem nicht nur die Nomenklatur, sondern auch die Entstehung neuer Taxa (dazu gehören: Ord-nung, Familie, Unterfamilie, Gattung und Art/Spezies) reguliert. Dank dieser Anstrengungen ist die Eintei-lung für verschiedenste Viren klar und transparent nachvollziehbar (ICTV, 2015). Eine weitere Untertei-lung der Spezies RABV und somit der 21.000 genannten Sequenzen ist jedoch nicht einheitlich vorge-schlagen. In vorangegangenen Studien wurden Teile dieser Sequenzen zumeist nach regionalen, zeitli-chen oder wirtsspezifischen Fragestellungen begutachtet (Bourhy et al., 1999; Kuzmin et al., 2004; Talbi et al., 2009; Talbi et al., 2010; X. Y. Tao et al., 2009). Die Clusterdefinition an den standardmäßig berechneten binären, phylogenetischen Bäumen erfolgte zumeist mit Hilfe der Metadaten oder über die Bewertung von signifikanten Bootstrapwerten (Baldauf, 2003). Demnach kann die Einteilung der RABV Sequenzen in Cluster als relativ subjektiv betrachtet wer-den, zudem wird die Vergleichbarkeit verschiedener Studien untereinander durch diese unterschiedli-chen Ansätze erschwert. Für die Vereinheitlichung der Clustereinteilung wurden in dieser Arbeit zu-nächst global verteilte Vollgenomsequenzen als Standardvergleich ausgewertet. Vollgenome bieten den Vorteil, dass sich Mustervergleiche über das gesamte Genom nachvollziehen lassen und dass sie statistisch signifikantere Ergebnisse produzieren (Ahmed et al., 2015). Um eine eindeutige Clusterzuordnung zu erreichen, wurde zudem die Methode des affinity propagation clustering (AP) eingesetzt (Frey & Dueck, 2007). Die sehr kurze Rechenzeit für diese Methode sowie vor allem der Vorteil der Berechnung von sogenannten Cluster-„Exemplaren“, die als reales Clustermitglied in weiteren Studien als Repräsentant eines Clusters die Rechenzeiten verkürzen könnten, machte AP bereits zu einer geeigneten Methode für die Bioinformatik, z.B. bei der Aufklärung von Proteinstruk-turmotiven (Bodenhofer, Kothmeier, & Hochreiter, 2011). Zusätzlich wurden die Ergebnisse mit den Er-gebnissen der bereits etablierten phylogenetischen Auswertungen verglichen und ein entsprechender Workflow erstellt. Für die verwendeten Vollgenome konnte insgesamt gezeigt werden, dass auf globaler Ebene die räumliche Herkunft der Isolate den größten Einfluss auf die Hauptclustereinteilung aufweist. Es konnten mit Hilfe von AP vier Hauptcluster definiert werden (Cosmopolitan, Asian, New World und Arctic/Arctic-like). Auf Ebene der Untercluster wurden mittels AP insgesamt 12-13 Cluster definiert, für diese konnten jedoch auch wirtsspezifische Einflüsse auf die Einteilung festgestellt werden. Diese grund-legenden Einteilungen könnten die Basis für ein globales Klassifizierungssystem der klassischen Tollwutviren auf Vollgenomebene bilden und als Vergleichsbasis für Arbeiten mit Teilgenomsequenzen eingesetzt werden. Zudem kann der entstandene Workflow auch auf andere Virusspezies oder auf weiterge-hende, gröbere Gruppierungen auf Spezies-, Gattung- oder Ordnungsebene (wie bereits für die verschie-denen Spezies der Lyssaviren in dieser Arbeit dargestellt) durchgeführt werden.

Virus taxonomy is regulated by the International Committee on Taxonomy of Viruses (ICTV) which not only regulates a code of nomenclature, but also the creation of novel virus taxa (currently orders, families, subfamilies, genera and species). Thanks to long-lasting efforts of the ICTV, the classification of viruses has become clearer and more transparent. But in recent years, more than 21,000 nucleotide sequences of the species rabies lyssavirus (RABV) have been deposited in public databases, which are officially not further classified. This increasing number of available RABV sequences represents a challenge for conventional computation of phylogenetic inferences and cluster allocation. In my dissertation I tried to overcome this limitation with the help of a centroid-based clustering method, called affinity propagation clustering (AP), which was used the first time for such kind of purposes. A panel of existing and novel RABV full genome sequences was used to demonstrate the application of AP clustering for RABV on a global scale. These analyses gained four generic main clusters for the RABV species discrimination on basis of RABV full genomes. According to their geographic distribution, the clusters were named “Arctic”, “Cosmopolitan”, “Asian” and “New World”. Further analyses with AP clustering also enable the division of the four main clusters into 12-13 sub-clusters. In addition, I established a combination of AP clustering and phylogenetic analyses to resolve phylogenetic relationships between verifiably determined clusters and sequences. This workflow could help to substantiate a transparent cluster distribution, not only for RABV but also for other comparative sequence analyses.

Dateien

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Zugriffsstatistik

Gesamt:
Volltextzugriffe:
Metadatenansicht:
12 Monate:
Volltextzugriffe:
Metadatenansicht:

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten