Per Anhalter durch das digitale Universum der Pharmaindustrie

Achim Plueckebaum ist ein bodenständiger Mensch. Auch wenn er sich inmitten einer der wichtigsten Entwicklungen der Pharmaindustrie befindet und um ihn herum grosse Aufregung herrscht, bewahrt der erfahrene Computerwissenschaftler stets einen kühlen Kopf.

Der Leiter von data42, der digitalen Forschungs- und Entwicklungsplattform von Novartis, vertritt die feste Überzeugung, dass Daten und digitale Technologien den künftigen Weg der medizinischen Wissenschaft grundlegend verändern werden. Trotz dieser Überzeugung geht er jedoch davon aus, dass die menschliche Neugier im Wettlauf um die effiziente Nutzung von Daten und digitalen Technologien weiterhin eine entscheidende Rolle spielen wird.

«Es gibt einen echten Hype um Daten und digitale Technologien, den wir im Auge behalten müssen», so Plueckebaum, als wir ihn zu Beginn des Sommers 2019 in seinem Basler Büro besuchten. Dort sind er und sein Team mit der Einrichtung der nötigen Infrastruktur für die Plattform beschäftigt. Diese erstreckt sich auch auf andere Standorte in Cambridge, East Hanover und Hyderabad und soll die Entwicklung der digitalen Forschungs- und Entwicklungsplattform data42 beschleunigen. Das Ziel des Teams ist es, Einblick in die riesigen Mengen an Daten aus der Forschung und aus klinischen Studien, die bei Novartis vorliegen, zu erlangen und die dort verborgenen Erkenntnisse zu erschliessen.

«Die Leistungsfähigkeit der Tools für künstliche Intelligenz (KI) übersteigt bei bestimmten Aufgaben die des Menschen. Dies hat jedoch zu Missverständnissen geführt, was die Einsatzmöglichkeiten von KI in der Pharmaindustrie und in der Medizin betrifft. Viele Menschen denken, dass es ausreicht, ein intelligentes Computerprogramm laufen zu lassen, um so auf ganz einfache Weise neue Wirkstoffe zu finden. Die Aufgabenstellung ist jedoch wesentlich schwieriger.»

Neben der Bereinigung riesiger Mengen an isolierten, unstrukturierten Daten, dem Hochladen dieser Daten auf eine einheitliche, maschinenlesbare Plattform und der Entwicklung leistungsfähiger Algorithmen zur Analyse der Daten müssen die Wissenschaftler genaue Fragen im Hinterkopf haben. Andernfalls erhalten sie, so Plueckebaum, völlig unsinnige Antworten, ganz so wie die Protagonisten in Per Anhalter durch die Galaxis. In der Science-Fiction-Komödie von Douglas Adams aus dem Jahr 1979 errechnet der Supercomputer Deep Thought die Antwort auf die «Frage nach dem Sinn des Lebens, dem Universum und dem ganzen Rest». Als die Maschine als Antwort die Zahl 42 ausspuckt, sind alle perplex. Dann erfahren sie, dass die Antwort nur dann einen Sinn ergibt, wenn man die Frage kennt.

Mit data42 möchte Novartis solche unsinnigen Ergebnisse vermeiden. «Es ist ganz wichtig, dass man die Antwort wahrscheinlich kaum verstehen wird, wenn man die Frage nicht ganz genau versteht», so Plueckebaum. «Deshalb haben wir unser Projekt data42 genannt. Die Zahl erinnert uns ständig daran, dass wir die Fragen verstehen müssen, um konkrete, verwertbare Antworten zu erhalten.»

Grosse Hoffnungen

Wenn die richtigen Fragen gestellt werden, könnten Daten und digitale Technik jedoch für einen grundlegenden Wandel in der Pharmaindustrie sorgen. Diese profitiert von den digitalen Innovationen der jüngsten Zeit aus den Bereichen der Datenspeicherung und -verarbeitung und insbesondere bei der künstlichen Intelligenz.

Formen künstlicher Intelligenz kennt man bereits seit einigen Jahrzehnten. Doch dank der jüngsten Entwicklungen im Bereich Deep Learning haben die Wissenschaftler überraschend grosse Fortschritte erzielt. Im Gegensatz zu den herkömmlichen Algorithmen des maschinellen Lernens, die aus den eingegebenen Daten lernen, werden bei Deep Learning in Schichten angeordnete Algorithmen eingesetzt, um ein «künstliches neuronales Netzwerk» zu schaffen, das selbstständig lernen und intelligente Entscheidungen treffen kann.

DeepMind, ein Tochterunternehmen von Alphabet, ist in diesem neuen Fachgebiet wegweisend. Im Jahr 2015 schlug DeepMind einen menschlichen Spieler im hochkomplexen chinesischen Brettspiel Go und besiegte Anfang 2019 mit einem ähnlichen KI-Konzept Biologen, als es galt, die Form von Proteinen zu prognostizieren.

Solche bahnbrechenden Entwicklungen haben neue Forschungsansätze eröffnet und könnten in Zukunft dazu beitragen, einige der grössten medizinischen und operativen Herausforderungen unserer Zeit zu bewältigen. Dabei geht es etwa darum, das Ansteigen der Forschungs- und Entwicklungskosten einzudämmen und innovative Methoden zur Behandlung von Krankheiten zu finden, für die es heute nur begrenzte oder überhaupt keine Behandlungsmöglichkeiten gibt.

Die Herausforderungen sind enorm. Die Markteinführung neuer Medikamente erfordert heutzutage Investitionen von über 2 Milliarden US-Dollar und dauert im Schnitt länger als zehn Jahre. Nur einer von zehn klinisch getesteten Wirkstoffen kommt letztlich auf den Markt.

Auch in medizinischer Hinsicht wächst der Bedarf unaufhörlich. Zwar wurden in den USA in den vergangenen zehn Jahren rund 500 Medikamente zugelassen. Doch der medizinische Bedarf wurde dadurch nicht geringer. Viele chronische und altersbedingte Erkrankungen wie etwa Alzheimer sind nach wie vor schwierig zu behandeln. Für die meisten der mehr als 7000 bekannten seltenen Krankheiten gibt es keine innovativen Behandlungsoptionen.

«Natürlich können wir heute noch nicht wissen, was wir herausfinden werden, wenn wir diese neue Daten- und Digitaltechnologie nutzen», so Pascal Bouquet, der technische Leiter von data42. «Wir sind jedoch fest davon überzeugt, dass wir Erkenntnisse gewinnen werden, von denen wir heute noch nichts ahnen. Wir haben keinen Zweifel daran, dass wir möglicherweise auf bislang unbekannte Juwelen stossen werden und dass wir langfristig betrachtet neue Medikamente sogar ausschliesslich auf der Grundlage von Daten entwickeln und entdecken können.»

Diese Hoffnungen haben klassische Pharmaunternehmen dazu veranlasst, ihre digitale Kompetenz zu stärken. Auch zieht es neue Unternehmen wie Google, IBM und Apple in den Gesundheitsbereich, in der Hoffnung, innovative Therapien zu entwickeln und in der Medikamentenentwicklung ganz neue Wege zu gehen.

Risikokapitalgeber haben nach Angaben des Datenanbieters PitchBook im Jahr 2018 mehr als 1 Milliarde US-Dollar in KI-basierte Start-up-Unternehmen des Gesundheitswesens investiert. Und der Markt wird wahrscheinlich weiter rapide wachsen. Beim Beratungsunternehmen Everest Group geht man davon aus, dass die Investitionen in KI-Technologien im Gesundheitswesen von 1,5 Milliarden US-Dollar im Jahr 2017 bis auf über 6 Milliarden US-Dollar im Jahr 2020 ansteigen werden.

Daten von zwei Millionen Patientenjahren

Bei Novartis sieht man sich in diesem neuen Feld gut aufgestellt. «Wir haben in unserem System Daten von rund zwei Millionen Patientenjahren», so Bouquet. «Dies ist die für uns in Zukunft entscheidende Ressource, um mithilfe von KI-Tools die Daten zu durchsuchen und bislang noch unbekannte Zusammenhänge zwischen Medikamenten und Krankheiten aufzudecken.»

Um diese Vision Wirklichkeit werden zu lassen, müssen zunächst alle klinischen Daten und alle Forschungsdaten sowie auch potenzielle Daten aus der Praxis, Bilddaten und Sensordaten strukturiert und auf eine einheitliche Plattform gebracht werden, um einen sogenannten Data Lake zu schaffen. Dies ist einfacher gesagt als getan, denn in den verschiedenen Datensätzen werden oft unterschiedliche Parameter verwendet, um Datenpunkte wie Geschlecht, Alter, Familie und Krankheitszustände zu kennzeichnen.

«Sämtliche Daten müssen bereinigt und kuratiert werden, um sie maschinenlernbar zu machen. Das ist wirklich harte Arbeit, aber es erlaubt unseren Datenwissenschaftlern, sich auf die Beantwortung von Fragen durch Daten zu konzentrieren», so Peter Speyer, Leiter der Produktentwicklung von data42. Das Datenvolumen ist beträchtlich. Allein die Daten aus der Forschung und Entwicklung umfassen 20 Petabyte. Das entspricht rund 40 000 Jahren Musik auf einem MP3-Player.

Achim Plueckebaum, Head of data42; Peter Speyer, Head of Products, data42; Pascal Bouquet, Technology Lead, data42.

Schatzsuche

Das Team, dem mehr als 100 Personen aus verschiedenen Unternehmensbereichen angehören, konnte bereits grosse Fortschritte erzielen. Es wurden mehr als 2000 klinische Studien in die Plattform eingespeist und ein Dutzend Modelle für maschinelles Lernen getestet, mit denen neue Informationen, die in den Daten tief verborgen sind, zu Tage gefördert werden könnten.

Um die Dynamik zu steigern, hat sich das Führungsteam von data42 selbst kurzfristige, geschäftsorientierte Ziele gesetzt, die sich auf ganz konkrete, fest umrissene Aufgaben konzentrieren.

In einem dieser Projekte, sollen im Bereich der rheumatoiden Arthritis ausgehend von biologischen Merkmalen Untertypen der Erkrankung ermittelt werden.

«Bei diesem Projekt arbeiten wir an der Bereinigung der Daten aus unseren laufenden Studien in diesem Krankheitsbereich. Dies ist eine Aufgabe, die in relativ kurzer Zeit erledigt werden kann», so Peter Speyer. «Unser Ziel ist es, Untergruppen von Personen zu identifizieren, die auf eine unserer Behandlungen gut ansprechen. Wenn uns dies gelingt, kann das Team möglicherweise eine neue Studie einrichten und die Ergebnisse klinisch testen.»

Die Fragestellung durchdenken

Neben anderen laufenden Arbeiten befasst sich das Team auch mit dem Krankheitsverlauf bei bestimmten Krebsindikationen. Weitere Projekte werden folgen.

«Sobald alle Daten aufbereitet sind, verfügen wir höchstwahrscheinlich über ein enormes Potenzial für neue Erkenntnisse», so Speyer. «Welche Fragen auch immer Sie beispielsweise zur Herzinsuffizienz beschäftigen: Wir können sie in die Analysen einbeziehen, vorausgesetzt, dass die Herzinsuffizienz als relevante Krankheit erfasst wird – als Begleiterkrankung oder als Nebenwirkung. Das macht die Skalierbarkeit von data42 aus», so Peter Speyer.

Wenn data42 die Hoffnungen erfüllt, hat es auch das Potenzial, die Zusammenarbeit von Datenwissenschaftlern mit Wissenschaftlern im Labor und in der Klinik zu verbessern. «Es wird zu einer verstärkten Zusammenarbeit kommen von Datenwissenschaftlern, die die Daten aufbereiten, und Medizinern, die die Fragestellung verstehen und wissen, welche Erkenntnisse aus den Daten gewonnen werden sollen», so Pascal Bouquet.

Weder Biologen und Chemiker noch Ärzte werden durch die neuen digitalen Tools ersetzt werden, die nur so gut sein können, wie der Input, den sie erhalten. «Wenn eine Frage wirklich gut formuliert ist, stellt sich manchmal heraus, dass die Lösung gar nicht so kompliziert ist wie gedacht. Man braucht nicht für jede Fragestellung die geballte Kraft der künstlichen Intelligenz. Bei manchen Fragen hilft die Statistik. Dann findet man die richtigen Daten. Mit der richtigen Methode erhält man die richtigen Antworten. Es hilft, die Fragestellung gut zu durchdenken, denn dadurch kann das Gewinnen wertvoller Erkenntnisse wirklich beschleunigt werden – mit oder ohne künstliche Intelligenz.»

Vielen Dank für das Lesen des Live Magazins

Bleiben Sie auf dem Laufenden, indem Sie unseren Newsletter abonnieren.

Mit dem Absenden Ihrer E-Mail erklären Sie sich damit einverstanden, dass die Novartis AG Ihre E-Mail-Daten für den internen Gebrauch von Novartis, in Übereinstimmung mit unserer Datenschutzrichtlinie und mit geschützten technischen Mitteln erfasst und verarbeitet.