Metagenomanalyse von Sequenzdaten aus diagnostischen Proben zur Erregeridentifikation

Scheuch, Matthias GND

Jedes Metagenom umfasst die gesamte genomische Information eines kompletten Ökosystems. Die Analyse eines solchen Systems bedarf der Bestimmung aller darin enthaltenen Nukleinsäuren, stellvertretend für den Bauplan eines jeden Organismus, um Kenntnis über die in diesem Ökosystem nachweisbaren Organismen zu erlangen. Ferner bietet die diagnostische Metagenomanalyse eine Möglichkeit zur Identifizierung von sowohl bekannten als auch unbekannten Pathogenen. Zu diesem Zweck wird dem Metagenom eine Probe entnommen, welche einen repräsentativen Ausschnitt aller darin vorliegenden Organismen enthält. Da a priori keine Informationen zu den in der Probe enthaltenen Organismen vorliegen, bedarf es einer ungerichteten Methode zur Bestimmung aller enthaltenen Nukleinsäuren. Eine geeignete Lösung bietet die Sequenzierung. Darin werden alle Moleküle der Ausgangsprobe mit ungefähr gleicher Wahrscheinlichkeit bestimmt und der erzeugte Datensatz, bestehend aus Millionen kleiner Sequenzabschnitte, entspricht einem repräsentativen Querschnitt der in der Probe nachweisbaren Organismen. Die Herausforderung besteht in der Zuordnung einer jeden Sequenz zu ihren Ursprungsorganismen und die Sequenzen zu identifizieren, die mit einem potentiellen Erreger assoziiert werden können. Aktuell herrscht ein Defizit an Werkzeugen, die diese Zuordnung sowohl schnell als auch präzise vornehmen und speziell für die diagnostische Metagenomanalyse konzipiert sind. Zu diesem Zweck wurde im Rahmen dieser Arbeit eine Software-Pipeline mit Namen RIEMS (164) (Reliable Information Extraction from Metagenomic Sequence datasets) entwickelt, die bestehende Software zur Analyse von Sequenzdaten auf eine Weise verknüpft, die deren Stärken ausnutzt und Schwächen eliminiert. RIEMS ist in der Lage mit Hilfe bekannter Alignierungsalgorithmen und dem Abgleich der Sequenzen mit einschlägigen Datenbanken umfangreiche Datensätze schnell zu analysieren und Nukleinsäuresequenzen präzise ihren putativen Ursprungstaxa zuzuordnen (164). Die vorliegende Arbeit verdeutlicht die Effizienz dieses Computerprogramms im Vergleich zu bestehenden Software-Pipelines. Des Weiteren illustriert sie dessen möglichen Einsatz in der Diagnostik zur Pathogenidentifizierung anhand einiger Beispiele. Dabei können nicht nur bekannte Organismen identifiziert werden, sondern auch unbekannte, noch nicht näher beschriebene Organismen detektiert werden.

Each metagenome comprises the genomic information of a complete ecosystem. The analysis of such a system requires the determination of all contained nucleic acids, representing the blueprint of each organism, to gain knowledge of all detectable organisms in there. Furthermore, a diagnostic metagenomic analysis enables the possibility of identifying both known and unknown pathogens. For this purpose, a sample is taken containing a representative excerpt of all organisms being present in a metagenome. A priori, there is no information about contained organisms, so an unbiased method for the determination of all nucleic acids is required. A suitable possibility enables the sequencing. All molecules in the sample are determined with equal probability. Generated data sets, consisting of billions of sequence fragments, represent an excerpt of all detectable organisms in the sample. The following challenge lies in the assignment of each sequence and the identification of potential pathogens. Until now, there is a deficit of qualified tools which are specifically designed for diagnostic metagenomics and enabling both a fast and precise sequence assignment according to their original taxa. For this purpose, we developed RIEMS (164) (Reliable Information Extraction from Metagenomic Sequence datasets) which networks existing sequence analysing software in a way that highlights their strengths and eliminates their disadvantages. RIEMS enables the use of existing alignment algorithms and the sequence comparison with appropriate databases to analyse complex data sets by assigning all nucleic acids according to their putative taxa (164). The present work illustrates the efficiency of this workflow by comparing RIEMS to existing software pipelines. Furthermore, its potential usage for the identification of pathogens in diagnostics is illustrated based on a few examples. In this process, not only known organisms can be identified but also unknown not yet described organisms can be detected.

Zitieren

Zitierform:

Scheuch, Matthias: Metagenomanalyse von Sequenzdaten aus diagnostischen Proben zur Erregeridentifikation. Ernst-Moritz-Arndt-Universität Greifswald, Mathematisch-Naturwissenschaftliche Fakultät, Institut für Mathematik und Informatik 2015.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten

Export