Bioinformatik

Die Arbeiten der Bioinformatik-Arbeitsgruppe am Fachbereich Informatik konzentrieren sich auf die algorithmische und statistische Auswertung von NGS-Daten für die verschiedensten Anwendungsszenarien, die durch die assoziierten Arbeitsgruppen benötigt werden.

Die dazu notwendige bioinformatischen Pipelines wurden nach Vorlage der GATK Best Practices des Broad Institutes umgesetzt und umfassen die nötigen Funktionen zur Auswertung von Daten aus genomischer DNA und aus cDNA, sowie umfangreiche Methoden zur Aufbereitung der Rohdaten und Ausgaben zur Evaluation von Zwischenergebnissen. Die Pipeline wurde mit dem Workflow Management System Snakemake entwickelt und die nötigen Tools werden mit dem Paketmanager Miniconda3 verwaltet.

Für die Speicherung, Verwaltung, Annotation und Analyse der gefundenen Genvarianten wurde eine Webanwendung mit unterliegender Datenbank VIAP (Variant Integration Annotation Presentation) entwickelt, die für die besonderen Anforderungen sowohl klinischer als auch forensischer Proben optimiert ist. VIAP verfügt über Funktionen, um Informationen zu Genen und Varianten aus öffentlichen Datenbanken zu beziehen, und über eine Einbindung des Variant Effect Predictors, um potenzielle Konsequenzen und klinischen Bedeutungen neuer Varianten direkt bestimmen zu können.

Zur Analyse forensischer Proben wurde SNiPSTR entwickelt, welches einfache Allelprofile ableitet, um die Vergleichbarkeit mit der klassischen CE zu gewährleisten, und diese durch Sequenzinformationen anreichert, um Allelvarianten und Haplotypen zu identifizieren. Es verfügt zudem über ein ausgereiftes Modell zur Klassifizierung von Ergebnissen in Allele, Stutter und Artefakte.

Mikrobiomproben werden über das16S-Gens in Mikrobiomproben mit dem Tool Qiime2 und der Referenzdatenbank SILVA auf OTU-Ebene durchgeführt. Die Pipeline wurde um eigene R-Skripte ergänzt, die ähnliche Kennzahlen auch auf Basis der Taxonomien berechnen und weitere statistische Tests wie AMOVA und HOMOVA oder Clusteranalysen durchführen. Im Vergleich der Kennzahlen auf Basis der OTUs gegenüber Taxonomien zeigen starke Korrelationen der beiden Methoden, größere Unterschiede zeigen sich bei der Arbeit mit mehreren Primerregionen. Vor- und Nachteile der beiden Varianten hängen vor allem vom Anwendungsfall ab.

Wissenschaftlicher Höhepunkt im Jahr 2019 war die erfolgreiche Promotion des Absolventen und langjährigen Mitarbeiters der H-BRS Sebastian Ginzel zum Thema Enabling Versatile and Comprehensive Analysis of Genomic Variant Data gemeinsam mit der Klinik für Pädiatrische Onkologie u. Hämatologie des Universitätsklinikums und der naturwissenschaftlichen Fakultät der Heinrich Heine Universität Düsseldorf.

Institute for Functional Gene Analytics (IFGA)

Bioinformatik