Wie beeinflussen genetische Varianten die Struktur des menschlichen Herzens – und warum reicht es nicht aus, sie isoliert zu betrachten? Dieser Frage geht eine kürzlich veröffentlichte Studie im Fachjournal Nature Cardiovascular Research nach, in der ein internationales Forschungsteam nachweist, dass sogenannte epistatische Effekte – also nicht-additive Wechselwirkungen zwischen Genvarianten – eine zentrale Rolle bei der genetischen Kontrolle der Herzhypertrophie spielen. 

Eine der Autorinnen der Studie ist Prof. Merle Behr. Sie ist Statistikerin und Mathematikerin und seit Oktober 2022 Professorin für Maschinelles Lernen an der Fakultät für Informatik und Data Science der Universität Regensburg. In einem Interview gibt Sie Einblicke darüber, wie das Team epistatische Strukturen in einem großen Datensatz von MRT-Aufnahmen und Genomdaten aus der UK Biobank sichtbar machen konnte. 

Die Studie identifiziert genetische Wechselwirkungen, die bisherige Analysen nicht erfassen konnten, und eröffnet neue Perspektiven für das Verständnis komplexer Krankheitsbilder wie der Herzhypertrophie. Die Herzhypertrophie – auch hypertrophe Kardiomyopathie (HCM) genannt - ist eine überwiegend genetisch bedingte Erkrankung, bei der es zu einer Verdickung des Herzmuskels kommt; und in der Folge zu einer Beeinträchtigung der Pumpleistung des Herzens. Etwa 0,2 % der Bevölkerung in Deutschland sind von dieser krankhaften Veränderung betroffen, wodurch HCM zu den seltenen Herzkrankheiten zählt.

Das Gespräch gibt Einblicke in die Verbindung von maschinellem Lernen, funktioneller Genomik und biomedizinischer Forschung – und zeigt, welche Potenziale in der interdisziplinären Zusammenarbeit liegen.

Frau Prof. Behr, in einer gerade erschienen Arbeit zur genetischen Kontrolle der kardialen Hypertrophie, in der Sie als Co-Autorin mitgewirkt haben, spielt Epistasie eine zentrale Rolle. Was ist Epistasie?

Epistasie bezeichnet die Wechselwirkung verschiedener genetischer Faktoren, die gemeinsam einen bestimmten Phänotyp (z.B. die kardinale Hypertrophie) beeinflussen. Betrachtet man beispielsweise zwei Gene, A und B, so kann deren kombinierte Wirkung einen Phänotyp hervorrufen, den keines der Gene allein bewirken würde.

Warum ist Epistasie so schwer zu erkennen?

Eine zentrale Herausforderung bei der Identifikation solcher Interaktionen liegt in der hohen Dimensionalität des Problems. Wenn wir p verschiedene genetische Faktoren analysieren, ergeben sich bereits etwa p2 mögliche Interaktionen zwischen je zwei Genen und p3 zwischen je drei Genen. Die Anzahl p – etwa die Zahl der betrachteten Gene oder SNPs (Single Nucleotide Polymorphisms) – ist in der Regel bereits sehr groß. Auf der Ebene der Interaktionen wächst die Anzahl möglicher Kombinationen exponentiell mit der Interaktionsordnung.

Ein Beispiel: Bei der Analyse von 107 SNPs – eine typische Größenordnung im menschlichen Genom – ergeben sich bereits1014 mögliche Interaktionen zweiter Ordnung und sogar 1021 dritter Ordnung. Es ist offensichtlich, dass eine vollständige Analyse all dieser Kombinationen praktisch unmöglich ist.

Wie kann maschinelles Lernen bei dem Problem helfen? 

Maschinelles Lernen bietet einen vielversprechenden Lösungsansatz, da viele Modelle in der Lage sind, nichtlineare Zusammenhänge direkt zu erfassen. Es ist also nicht notwendig, jede mögliche Interaktion – etwa alle 1014 Kombinationen – einzeln zu testen. Stattdessen können relevante Muster und Zusammenhänge effizienter identifiziert werden.

Wie gehen Sie vor, um epistatische Effekte in großen genetischen Datensätzen sichtbar zu machen?

In der vorliegenden Publikation kommen baumbasierte Algorithmen des maschinellen Lernens zum Einsatz, die sich insbesondere im biomedizinischen Bereich als äußerst erfolgreich erwiesen haben. Ein zentrales Konzept besteht darin, Entscheidungspfade innerhalb des trainierten Baum-Ensembles zu analysieren, um Gene zu identifizieren, die häufig gemeinsam auftreten – ein Hinweis auf potenzielle genetische Interaktionen. Dieser Ansatz geht auf [Basu et al., 2018] und [Kumbier et al., 2018] zurück, zwei Arbeiten, die unter der gemeinsamen Leitung von Prof. Bin Yu und Prof. Ben Brown entstanden sind. Prof. Bin Yu ist auch Co-Senior-Autorin der aktuellen Studie, die – ebenso wie frühere Arbeiten wie [Behr et al., 2022, PNAS] und [Behr et al., PLOS ONE 2024] – auf diesem Konzept aufbaut und es weiterentwickelt.

Gab es besondere Herausforderungen bei der Anwendung dieser Methodik auf die kardialen Hypertrophie?

Die kardialen Hypertrophie ist eine komplexe Erkrankung und wird durch viele verschiedene Faktoren beeinflusst, sodass rein genetische Vorhersagen mit maschinellen Lernverfahren keine hohe Genauigkeit bei der Vorhersage erzielen können. Man spricht hier von einem sogenannten „Low-Signal“-Regime. Ein bemerkenswertes Ergebnis der Studie ist, dass es trotz dieser schwierigen Ausgangslage gelungen ist, genetische Interaktionen zu rekonstruieren, die anschließend in zellbasierten Experimenten bestätigt werden konnten. 

Eine weitere Herausforderung, bei der maschinelles Lernen auf eine andere Weise zum Einsatz kam, bestand darin, den Phänotyp – in diesem Fall die kardiale Hypertrophie – zunächst automatisiert aus einem umfangreichen Bilddatensatz zu rekonstruieren. Konkret mussten MRT-Bilddaten von rund 30.000 Patientinnen und Patienten ausgewertet werden, um die linksventrikuläre Masse des Herzens zu bestimmen. Eine manuelle Analyse wäre bei diesem Datenvolumen vollkommen unmöglich gewesen. Daher wurden Deep-Learning-Methoden eingesetzt, um die linksventrikuläre Masse automatisch zu schätzen. Erst durch diese automatisierte Vorverarbeitung konnte ein ausreichend großer Datensatz generiert werden, der es ermöglichte, anschließend mithilfe baumbasierter Algorithmen nach genetischen Interaktionen zu suchen.

Wie lange hat es gedauert das ganze Projekt umzusetzen?

Das Projekt begann im Frühjahr 2020 und wurde vor wenigen Wochen veröffentlicht – insgesamt hat es also über fünf Jahre in Anspruch genommen. Ich war vor allem in der Anfangsphase beteiligt, als Postdoktorandin bei Prof. Bin Yu in Berkeley. Die Arbeit entstand im Rahmen eines Intercampus Research Awards des CZ Biohubs und wurde von Prof. Bin Yu und Prof. Euan Ashley als Co-Senior-Autoren geleitet. Die Erstautorinnen Qianru Wang (aus der Gruppe von Prof. Ashley) und Tiffany Tang (damals Doktorandin bei Prof. Yu) haben das Projekt mit großer Ausdauer und wissenschaftlicher Präzision vorangetrieben. Die Algorithmen mussten umfassend angepasst und die Ergebnisse aufwendig validiert werden – eine besondere Herausforderung im sogenannten Low-Signal-Regime. 

Was ist bei einem so komplexen und langfristigen Projekt besonders wichtig zu beachten?

Ein zentraler Erfolgsfaktor war die konsequente Sicherstellung der Stabilität der Ergebnisse über alle Teilschritte der Datenverarbeitung hinweg. Besonders in einem mehrstufigen Analyseprozess ist es entscheidend, dass die Resultate nicht nur hinsichtlich ihrer Vorhersagekraft und Rechenaufwand bewertet werden, sondern auch hinsichtlich ihrer Robustheit gegenüber methodischen Entscheidungen. In diesem Projekt wurde daher das sogenannte PCS-Prinzip (Predictability – Computability – Stability) nach [Yu & Kumbier (2020)] angewendet. Dieses Konzept legt besonderen Wert darauf, dass jeder Verarbeitungsschritt kritisch hinterfragt und die Stabilität der Ergebnisse gegenüber alternativen Vorgehensweisen systematisch geprüft wird. So konnte sichergestellt werden, dass die gewonnenen Erkenntnisse belastbar und reproduzierbar sind.

Wie lassen sich die Erkenntnisse über epistatische Geninteraktionen langfristig für die personalisierte Medizin nutzen – etwa in der Risikovorhersage oder bei der Entwicklung gezielter Therapien?

Die Ergebnisse tragen in erster Linie dazu bei, die genetischen Grundlagen kardiovaskulärer Erkrankungen besser zu verstehen. Bisher gibt es nur sehr wenige gut belegte Beispiele für epistatische Geninteraktionen in diesem Bereich – obwohl in der Fachwelt weitgehend anerkannt ist, dass solche Interaktionen eine zentrale Rolle spielen dürften. Der Grund dafür liegt vor allem in den erheblichen methodischen Herausforderungen: Epistatische Effekte sind schwer zu identifizieren, da sie oft subtil und nur in großen, gut aufbereiteten Datensätzen nachweisbar sind. Diese Arbeit zeigt, dass es mit geeigneten datengetriebenen Methoden möglich ist, solche Interaktionen systematisch zu rekonstruieren. Langfristig könnten diese Erkenntnisse dazu beitragen, genetische Risikomodelle zu verfeinern und neue, gezieltere Therapieansätze zu entwickeln, die auf dem Zusammenspiel mehrerer genetischer Faktoren basieren.

Glossar

Genetische Varianten

Unterschiede im Erbgut zwischen verschiedenen Menschen. Sie können beeinflussen, wie unser Körper funktioniert oder auf Krankheiten reagiert.

Genom / Genomdaten

Die Gesamtheit der Erbinformation eines Menschen. Genomdaten sind digitale Informationen über die Gene eines Menschen.

Epistasie / Epistatische Effekte

Wenn zwei oder mehr Gene miteinander „interagieren“, also sich gegenseitig beeinflussen. Das bedeutet: Die Wirkung eines Gens hängt davon ab, was bei einem anderen Gen vorliegt. Solche Effekte lassen sich nicht durch das bloße Addieren einzelner Genwirkungen erklären.

Nicht-additive Wechselwirkungen

Ein Effekt, der nicht einfach die Summe einzelner Faktoren ist. Wenn Gene zusammen einen stärkeren oder ganz anderen Effekt haben, als man erwarten würde, spricht man von nicht-additiven Effekten.

Herzhypertrophie (auch: hypertrophe Kardiomyopathie, HCM)

Eine genetisch bedingte Verdickung des Herzmuskels, die die Pumpleistung des Herzens beeinträchtigen kann. Etwa 0,2% der Bevölkerung sind betroffen.

Phänotyp

Das äußere Erscheinungsbild oder eine messbare Eigenschaft eines Organismus – z.B. wie groß das Herz ist oder wie stark der Herzmuskel verdickt ist.

SNPs (Single Nucleotide Polymorphisms)

Kleine Unterschiede im Erbgut, bei denen nur ein einzelner „Buchstabe“ im DNA-Code anders ist. SNPs sind häufige genetische Varianten eines Gens und können Einfluss auf Gesundheit oder Krankheit haben.

Interaktion zweiter Ordnung / dritter Ordnung

Kombinationen aus zwei (zweiter Ordnung) oder drei (dritter Ordnung) Genen, die gemeinsam einen Effekt haben. Je mehr Gene man kombiniert, desto mehr mögliche Kombinationen gibt es – und desto komplexer wird die Analyse.

Maschinelles Lernen

Ein Teilbereich der künstlichen Intelligenz. Computer-Algorithmen „lernen“ dabei aus Daten, um Muster zu erkennen oder Vorhersagen zu treffen – ohne explizit programmiert zu sein.

Baumbasierte Algorithmen / Entscheidungsbäume

Eine Art von maschinellem Lernverfahren, das Entscheidungen auf Basis von „Wenn-dann“-Regeln trifft. Diese Algorithmen können dabei helfen, komplexe Muster – wie genetische Interaktionen – zu erkennen.

Deep Learning

Eine besonders leistungsfähige Methode des maschinellen Lernens, die auf sogenannten künstlichen neuronalen Netzen basiert. Sie wird häufig für die Analyse großer Bilddatensätze verwendet, z.B. bei MRT-Aufnahmen.

MRT (Magnetresonanztomographie)

Ein bildgebendes Verfahren, das detaillierte Aufnahmen vom Inneren des Körpers liefert, zum Beispiel vom Herzen. In der Studie wurden MRT-Bilder genutzt, um die Herzstruktur zu vermessen.

Linksventrikuläre Masse

Die Masse des linken Herzventrikels. Eine Zunahme dieser Masse ist ein Anzeichen für Herzhypertrophie.

Low-Signal-Regime

Eine Situation, in der die Daten zwar viele Informationen enthalten, diese aber schwer zu erkennen sind, weil das Signal (also der eigentlich gesuchte Zusammenhang) schwach ist. Das erschwert die Analyse.

PCS-Prinzip (Predictability – Computability – Stability)

Ein Konzept zur Qualitätssicherung in der Datenanalyse, siehe [Yu, Kumbier, 2020]. Es prüft, ob Ergebnisse:

  • vorhersagbar (Predictability),
  • rechenbar (Computability) und
  • stabil (Stability) sind – also unabhängig von kleinen Änderungen im Analyseprozess.

Personalisierte Medizin

Ein Ansatz in der Medizin, bei dem Diagnosen und Therapien auf die individuellen genetischen Merkmale eines Menschen zugeschnitten werden.

Kontakt

Prof. Dr. rer. nat. Merle Behr
Lehrstuhl für Maschinelles Lernen
Universität Regensburg
Fakultät für Informatik und Data Science
Bajuwarenstraße 4, Raum 516
93053 Regensburg

Tel.: +49 941 943 68510
website: https://merlebehr.org

Comments

No Comments

Write comment

* These fields are required