Die Verbindung der medizinischen Punkte zu einem ganzheitlichen Verständnis der menschlichen Biologie.
Im Sommer 2019 traf ich mich mit Achim Plückebaum, Peter Speyer und Pascal Bouquet, die wenige Monate zuvor gemeinsam mit ihren Teams die digitale Forschungs- und Entwicklungsplattform data42 von Novartis ins Leben gerufen hatten.
Ihr Hauptbüro in einem alten Laborgebäude auf dem Basler Campus war fast leer und wirkte auf Aussenstehende etwas trostlos. Doch die langen Reihen von Schreibtischen – ausgestattet mit grossen Computerbildschirmen, die mit den Datenzentren von Novartis auf der ganzen Welt verbunden waren – liessen auf hohe Ambitionen und grosse Vorhaben schliessen.
2019 war ein Spitzenjahr für die digitale Forschung. Neue digitale Tools und das Versprechen der künstlichen Intelligenz verwandelten die Pharmabranche in ein digitales Eldorado. Die Hoffnung war gross, die herkömmliche Arzneimittelforschung zu revolutionieren und die langen und kostspieligen Entwicklungszeiten von Medikamenten mithilfe leistungsstarker Algorithmen und superschneller Computer massiv zu verkürzen.
Der Grundgedanke war folgender: data42 sollte die riesigen, bisher praktisch ungenutzten klinischen und wissenschaftlichen Daten von Novartis, die fast 2 Millionen Patientenjahre umfassten, zu neuem Leben erwecken und dem Unternehmen dabei helfen, Medikamente schneller zu entwickeln.
Doch trotz dieser ehrgeizigen Vision war sich das data42-Team bewusst, dass die bevorstehende Aufgabe zahlreiche Herausforderungen mit sich bringen würde. Ausserdem war klar, dass das Team mit der Zeit auf immer grösseren Widerstand stossen würde, wenn data42 dem Hype, der um das Projekt herrschte, nicht gerecht werden würde.
Konzentration auf das Machbare
Man versuchte, einen kühlen Kopf zu bewahren, nicht zu viel zu versprechen und sich auf das Machbare zu konzentrieren. Sogar der Name data42 – eine Anspielung auf Douglas Adams Roman Per Anhalter durch die Galaxis – war ein Zeichen der Bescheidenheit, da er unterstrich, dass Computerleistung nur durch richtige – menschliche – Fragen erschlossen werden kann.
Das data42-Team, das schnell auf etwa 150 Mitglieder anwuchs, setzte sich deshalb kurzfristige Ziele, um innerhalb eines überschaubaren Zeitrahmens greifbare Ergebnisse zu erreichen. Diese Strategie trug entscheidend dazu bei, das Projekt voranzubringen, zumal die riesige Datenmenge, die sich auf Tausende von klinischen Studien und Millionen von Datenpunkten aus jahrelanger Forschung erstreckte, zu unhandlich gewesen wäre, um sie auf einen Schlag zu bewältigen.
Aber auch wenn das Team Schritt für Schritt vorging, war die Aufgabe gigantisch. Jeder, der schon einmal versucht hat, Excel-Tabellen in verschiedenen Formaten zusammenzuführen, hat zumindest eine ungefähre Vorstellung davon, was für eine mühsame Aufgabe das Team zu meistern hatte.
Im Fall von data42 mussten Millionen von Datensätzen bereinigt werden. Ein Beispiel war die Suche nach einem gemeinsamen Nenner für das Geschlecht eines Patienten für die Tausenden von klinischen Studien, die von Novartis durchgeführt wurden. In einigen Studien wurde das Geschlecht eines Patienten mit einem «f» oder einem «m» gekennzeichnet, in anderen wurden «maskulin» oder «feminin» verwendet, andere Studien wiederum griffen auf die Begriffe «männlich» und «weiblich» zurück. Um die Maschinenlesbarkeit der Daten zu gewährleisten, musste dies zunächst vereinheitlicht werden.
Das gleiche Problem stellte sich auch in anderen Fällen, wie etwa bei der ethnischen Herkunft eines Patienten, seiner Krankengeschichte oder den eigentlichen klinischen Daten, die je nach Studienort grosse Unterschiede aufweisen konnten. Kurzum, das Team musste das Chaos beseitigen.
«Alles in allem wussten wir, dass der Anfang besonders hart sein würde, da es zunächst darum ging, die Daten zu bereinigen und dann so schnell wie möglich Ergebnisse zu produzieren, um das Vertrauen unserer Partner zu gewinnen und zu zeigen, dass wir unseren Pool an Daten aus Medizin, Klinik und Forschung optimal nutzen können», erinnert sich Plückebaum an die Anfangszeit von data42.