Genom-Sequenzierung in der Cloud


Ohne die Cloud ist es sehr kaum möglich, die für die riesigen Datenmengen zu speichern und gemeinsam zu nutzen, die anfallen, wenn das menschliche Genom sequenziert wird. Allerdings sind genetische Daten besonders sensibel. Höchste Standards bei Datenschutz, Sicherheit und Compliance sind daher essenziell.

Einleitung

Sie fragen sich vielleicht, was Genome und die Cloud miteinander zu tun haben. Nun, eine ganze Menge, denn ohne die Cloud ist es sehr schwierig, die benötigten riesigen Datenmengen zu speichern und gemeinsam zu nutzen. Angesichts der Sensibilität menschlicher Genomdaten in Bezug auf Eigentum und Datenschutz sind Sicherheit und Compliance von grösster Bedeutung – etwas, das moderne Cloud-Systeme, wie die von Safe Swiss Cloud, gut abdecken. 

Auch Kubernetes-Container sind in der Bioinformatik auf dem Vormarsch, da sie einen standardisierten Anwendungsworkflow und eine Skalierung der Ressourcen ermöglichen und so die Zusammenarbeit zwischen Forschungsgruppen vereinfachen. Speicherformate, Objektspeicher, die Rolle des maschinellen Lernens und Datenbanken werden in diesem Beitrag ebenfalls behandelt.

Was ist ein Genom?

Ein Genom ist die Gesamtheit der genetischen Informationen eines Organismus und besteht aus Nukleotidsequenzen der DNA. Das menschliche Genom umfasst sowohl proteincodierende DNA-Gene als auch nichtcodierende DNA und ist in Zellkernen und Mitochondrien gespeichert. Der DNA-Faden besteht aus zwei Strängen, die zu einer Helix verdreht sind. Jeder Strang besteht aus einer Reihe von Basen, die durch ein Zucker-Phosphat-Grundgerüst zusammengehalten werden. Es gibt vier mögliche Basen, abgekürzt A, T, G und C (Adenin, Thymin, Guanin und Cytosin). Auf jedem DNA-Strang reihen sich die Basen paarweise aneinander, ein A gegenüber einem T und ein G gegenüber einem C. Wenn also die Basenfolge auf einem Strang bekannt ist, ist auch der andere Strang bestimmt. Die Bestimmung der DNA-Sequenz ist z. B. für die Diagnose und Behandlung von Krankheiten und für epidemiologische Studien von entscheidender Bedeutung. Das menschliche Genom besteht aus etwa 6 Milliarden Basenpaaren. Dies entspricht einer Computerdateigrösse von etwa 100 GB, wenn zusätzliche Attribute wie Beschreibungen und Datenqualität berücksichtigt werden.

Abb. 1: Ein Nukleotid mit den vier möglichen Basen A, G, C und T (Quelle)

Sequenzierung der nächsten Generation (NGS)

Die Sequenzierung kann zum Beispiel mit NGS (Next Generation Sequencing) durchgeführt werden. Diese Technologie wird eingesetzt, um die Reihenfolge der Nukleotide in ganzen Genomen (Whole Genome Sequencing – WGS) oder in bestimmten Bereichen der DNA oder RNA zu bestimmen. Das grundlegende NGS-Verfahren umfasst die Fragmentierung der DNA/RNA in mehrere Teile, das Hinzufügen von Adaptern, die Sequenzierung der Bibliotheken und deren Wiederzusammensetzung zu einer Genomsequenz. Siehe zum Beispiel hier.

Dateiformate für die Genom-Sequenzierung

Neben FASTA und SAM ist FASTQ eines der gängigsten Dateiformate für die Nukleotidsequenzierung.  Dabei handelt es sich um eine Textdatei, die die Nukleotidsequenzbasen (A, C, T oder G) und die entsprechende Datenqualitätsbewertung (Q) enthält. Das Byte, das die Qualität darstellt, verwendet den Phred-Score und reicht von 0x21 (niedrigste Qualität; ‚!‘ in ASCII) bis 0x7e (höchste Qualität; ‚~‘ in ASCII). Ein Q-Wert von 20 steht beispielsweise für eine 99%ige Wahrscheinlichkeit, dass die Beobachtung korrekt ist. Ein Beispiel für ein FASTQ-Dateifragment ist unten dargestellt:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Datenansichten in der Cloud

Laut Tanjo et al. (Journal of Human Genetics, 2021) gilt: „Für eine effektive gemeinsame Nutzung und Analyse von Genomdaten sollten nicht nur Fragen der Sicherheit und der Einhaltung rechtlicher Vorschriften geklärt werden, sondern die Forscher müssen auch mit den jüngsten Datenexplosionen umgehen können und mit den gross angelegten Rechen- und Netzwerkinfrastrukturen vertraut sein“. Die Nutzung eines zertifizierten Cloud-Anbieters hilft den Forschern bei der Einhaltung der Vorschriften. Anstatt Wochen oder Monate damit zu verbringen, Daten auf ihre eigenen Server herunterzuladen, wenden Forscher zunehmend eine „data visiting“-Strategie an, bei der die Daten auf kommerziellen Cloud-Plattformen gespeichert werden.

Workflows mit Containern

Traditionell werden die Arbeitsabläufe von Forschungsgruppen in Programmiersprachen beschrieben und mit massgeschneiderten Tools erstellt, die sich kaum ohne Änderungen auf verschiedenen Arten von Computerressourcen ausführen lassen. Dies erschwert die effiziente Zusammenarbeit zwischen Forschungsgruppen. Dieses Problem lässt sich jedoch mit Hilfe der Containertechnologie leicht lösen, bei der der Betreuer der Container-Images der Anwendung die Gesamtverantwortung für den korrekten Betrieb trägt. Container, die in Kubernetes laufen, haben den zusätzlichen Vorteil, dass die Rechenressourcen automatisch skaliert und an den Umfang der laufenden Analyse angepasst werden können. Workflows, die in Terra (einer biomedizinischen Cloud-Sharing-Plattform) und Cromwell (einem WDL-basierten Workflow-Management-System) geschrieben wurden, und auf eine Cloud/Kubernetes-Pipeline-API ausgerichtet sind, gehören zu den neuesten Lösungen für Skalierbarkeit und Zusammenarbeit.

Machine Learning 

Yang et al. (2020) haben vier typische Anwendungen des maschinellen Lernens bei DNA-Sequenzdaten zusammengefasst: DNA Sequence Alignment, Klassifizierung, Clustering und Pattern-Mining.

So bietet etwa die TensorFlow tfio.genome Library häufig verwendete Genomics IO Funktionalität wie das Lesen von verschiedenen Genomics-Dateiformaten und die Bereitstellung einiger gemeinsamer Operationen für die Vorbereitung der Daten.

Siehe auch hier.

Object Storage

Object Storage in der Cloud ist eine kostengünstige Speicheralternative, die dem Wachstum bioinformatischer Daten, der langfristiger Speicherung und dem zufälligen Datenzugriff gut gerecht wird. Object Storage kann als lokaler Speicher für eine einzelne Anwendung verwendet werden, oder er kann von vielen Clients gemeinsam genutzt werden. Der sichere Zugriff auf den Objektspeicher erfolgt über HTTPS und die gespeicherten Objekte können optional verschlüsselt werden. 

Datenbanken

In der Bioinformatik wird bei Datenbanken in der Regel zwischen primären, sekundären und zusammengesetzten Datenbanken unterschieden.

  • Primäre Datenbanken werden mit experimentell gewonnenen Daten wie Nukleotidsequenzen, Proteinsequenzen oder makromolekularen Strukturen befüllt. Die Versuchsergebnisse werden von den Forschern direkt in die Datenbank eingegeben, und die Daten haben im Wesentlichen Archivcharakter. Sobald sie eine Zugangsnummer erhalten haben, sind die Daten in den Primärdatenbanken unveränderlich und bilden einen Teil der wissenschaftlichen Aufzeichnungen.
  • Sekundärdatenbanken umfassen Daten, die aus den Ergebnissen der Analyse von Primärdaten abgeleitet sind. Sie werden oft auch als kuratierte Datenbanken bezeichnet.
  • Bei zusammengesetzten Datenbanken werden die Daten zunächst verglichen und dann nach den gewünschten Kriterien gefiltert. Die Ausgangsdaten werden aus der Primärdatenbank entnommen und dann anhand bestimmter Bedingungen zusammengeführt. Sie helfen bei der schnellen Suche nach Sequenzen.

Über Safe Swiss Cloud


Safe Swiss Cloud ist ein führender Schweizer Cloud Computing-Anbieter für Unternehmen und Organisationen mit höchsten Anforderungen an Compliance und Datenschutz:

Quellen

  1. https://www.nature.com/articles/s10038-020-00862-1
  2. https://medicalfuturist.com/the-genomic-data-challenges-of-the-future/
  3. https://www.frontiersin.org/articles/10.3389/fbioe.2020.01032/full
  4. https://www.researchgate.net/figure/the-chemical-structure-of-a-nucleotide_fig1_220485617
  5. https://www.ebi.ac.uk/training/online/courses/bioinformatics-terrified/what-makes-a-good-bioinformatics-database/primary-and-secondary-databases/

Schreiben Sie einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

Hinweis:
Sie können beim Kommentieren folgende HTML Tags und Attribute verwenden: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>