«Wir haben sehr viel Zulauf»
Mathematik ist die Basis für all die neuen Möglichkeiten, die sich durch die «Digitalisierung» eröffnen. Statistikprofessor Nicolai Meinshausen über die zunehmende Bedeutung seines Fachgebiets und wo die Herausforderungen liegen.
Künstliche Intelligenz und maschinelles Lernen: Zurzeit sind diese Themen in der Öffentlichkeit en vogue. Mathematiker beschäftigen sich aber bestimmt schon länger damit?
Nicolai Meinshausen: Grundsätzlich ja. Es hängt aber immer davon ab, wie man die Begriffe definiert. Maschinelles Lernen als solches gibt es eigentlich schon seit einigen Jahrzehnten. Heute sind einfach ganz andere Anwendungen möglich, weil die Rechenleistung der Computer gestiegen ist und die verarbeiteten Datenmengen qualitativ und quantitativ ganz neue Dimensionen erreichen.
Wo eröffnen sich neue Anwendungsmöglichkeiten?
Zum Beispiel bei der Bilderkennung, also in einem Bereich, in dem der Mensch sehr gut ist und dem Computer lange überlegen war. Auf einem Bild Fussgänger erkennen oder ein Auto von einem Baum unterscheiden: Was lange Zeit bei Computern sehr schlecht funktionierte, ist heute dank grösserer Rechenleistungen möglich. Die zu Grunde liegenden Fragen sind aber schon sehr alt.
Welche Themen interessieren Sie als Statistiker besonders?
Anwendungen, bei denen es nicht darum geht, Menschen zu ersetzen, sondern ganz neue Felder zu öffnen: Datenmengen von biologischen Studien oder von Klimamodellen zum Beispiel. Diese können nur im Zusammenspiel von Mensch und Computer verstanden werden.
Und welche Aspekte stehen da im Zentrum?
Der Zusammenhang zwischen maschinellem Lernen und Kausalität. Bei vielen Fragen geht es darum, Vorhersagen zu machen. Was passiert beispielsweise mit der Gesundheit der Menschen, wenn sich Stickstoffemissionen verändern? Kann ich meine Lebenszeit verlängern, wenn ich mehr Grüntee trinke? Das sind kausale Fragen. Nun stelle ich vielleicht fest, dass Menschen, die Grüntee trinken, länger leben als jene, die andere Getränke bevorzugen. Das beweist aber noch keinen kausalen Zusammenhang. So könnte es auch sein, dass der allgemeine Lebensstil, zu dem Grüntee gehört, dazu führt, dass ich länger lebe, der Teegenuss selbst aber keinen Einfluss auf die Lebenserwartung hat.
Beispielsweise, weil Nichtraucher eher Grüntee trinken?
Ja, genau. Früher hatte Kaffee einen sehr schlechten Ruf, weil man nicht herausgerechnet hatte, dass Raucher tendenziell mehr Kaffee trinken. Heute zeigen Studien, die diese Faktoren herausrechnen, dass Kaffee tendenziell eher einen positiven Einfluss auf die Gesundheit hat.
Arbeiten Sie bei solchen Fragen mit Wissenschaftlern anderer Fachrichtungen zusammen?
Das ist das Spannende bei uns. Ich arbeite zum Beispiel mit Physikern in einem Projekt zusammen, bei dem es um den Klimawandel geht und die Frage, bis zu welchem Grad Ereignisse und Veränderungen menschengemacht sind. In früheren Projekten untersuchten wir zusammen mit Biologen das Zusammenspiel von genetischen Netzwerken; und mit Astronomen hatten wir ein Projekt, bei dem wir das äussere Sonnensystem erforschten. So erhalte ich Einblicke in viele Anwendungsgebiete.
Wie muss man sich die Zusammenarbeit konkret vorstellen? Kommen die Forschenden mit einer bestimmten Frage und einem Satz Daten auf Sie zu?
Das ist sehr unterschiedlich. Meine eigenen Projekte entstehen eher über langfristige persönliche Kontakte. Wir haben allerdings auch eine Beratungsstelle, an die sich viele Leute wenden. Zum Teil haben sie elementare Fragen, zum Teil aber auch recht komplexe Anliegen. Daraus können sich Kooperationen ergeben, manche entstehen über längere Zeit hinweg.
Wer kann sich an die Beratungsstelle wenden?
Grundsätzlich alle. Für ETH- und UZH-Angehörige ist die Beratung gratis, Externe müssen dafür bezahlen. Manchmal kommen auch Firmen und Institutionen zu uns. So hat sich beispielsweise die FIFA dafür interessiert, wie man anhand einer Analyse von Wettquoten entdecken kann, dass hinter einem Spielergebnis ein Betrug steckt.
Und wer bearbeitet solche Anfragen?
Wir haben ein festes Team von zwei Personen, die gerade ihr Masterstudium abgeschlossen haben, sowie ein bis zwei Senior Scientists. Manche Anfragen lassen sich sehr schnell beantworten. Aus anderen werden auch Studierendenprojekte, Semester- oder Masterarbeiten.
Wie weit müssen sich Statistiker thematisch einarbeiten, um eine Frage bearbeiten zu können?
Auch wenn man manchmal recht schnell eine erste Antwort liefern kann, lohnt es sich oft, etwas tiefer in die Thematik einzusteigen. Gerade in der Biologie erscheinen die Fragen oft simpel, aber sie werden immer komplexer, je genauer man sich mit ihnen beschäftigt. In der Physik ist es für mich leichter, weil ich selbst aus diesem Gebiet komme.
Heute werden immer mehr Daten gesammelt. Erhalten Sie deshalb auch mehr Anfragen für Auswertungen?
Wir spüren einen Trend, dass es immer mehr Anknüpfungspunkte gibt. Allerdings arbeiten heute fast alle Wissenschaftszweige datenbasiert und statistisch. Dadurch hat auch das Wissen stark zugenommen. Viele Wissenschaftler können ihre Daten sehr gut alleine bearbeiten.
Womit wir bei der Ausbildung wären. Wie sieht das Angebot in der Lehre aus?
Wir bieten hauptsächlich Kurse auf Masterniveau an, so etwa Vorlesungen zur Kausalität oder über neue Methoden zur Multivariantenstatistik. Diese Vorlesungen besuchen ganz unterschiedliche Studierende. Neben Mathematikern kommen auch Studierende und Doktorierende aus der Biologie, der Chemie oder der Physik, die gemerkt haben, dass sie für ihre Forschung statistisches Wissen benötigen. Und dann sind wir auch am neuen Masterstudiengang «Data Science» beteiligt, der im Herbst gestartet ist.
Hat Statistik als Studienfach an Beliebtheit gewonnen?
Ja, wir haben sehr viel Zulauf für unseren Master, sowohl innerhalb der Mathematik als auch von externen Studierenden, die beispielsweise mit einem Bachelor in Biologie zu uns kommen. Wir hatten gedacht, dass mit der Einführung des Masters in Data Science die Anmeldungen für den bestehenden Statistikmaster zurückgehen. Doch das Gegenteil ist der Fall: Die Zahl der Anmeldungen ist sogar noch gestiegen.
Und wie schätzen Sie die Statistikkenntnisse in der breiten Bevölkerung ein? Mit Statistiken lässt sich ja auch Schindluderei treiben…
Häufig wird der Begriff Statistik missverstanden als ein blosses Zusammenfassen von Daten; uns geht es hingegen meistens um gute Vorhersagen. Also um die Frage «Was würde passieren, wenn...?». Bei Schindluderei muss man unterscheiden, ob bewusst geschummelt wird oder nicht. Es gibt Fragen, bei denen es um komplexe Zusammenhänge geht und es nicht eine einzige richtige Antwort gibt, sondern unterschiedliche Blickwinkel, die mit Daten gestützt werden können.
Zum Beispiel?
Ist das Aufnahmeverfahren an Universitäten gerecht? Werden Frauen benachteiligt? Sind Verfahren zur Kreditvergabe gerecht? Werden bestimmte Bevölkerungsgruppen benachteiligt? Das sind alles sehr heikle Fragen. Je nach Blickwinkel können unterschiedliche Aussagen durch die gleichen Daten gestützt werden. Da werden im Prinzip verschiedene Fragen beantwortet. Diese Differenziertheit ist spannend, weil ich herausfinden muss, welche Frage ich eigentlich beantworten will. Oft wird das alles dann aber unter einer groben Schlagzeile zusammengefasst.
Es gibt aber auch Leute, die Statistik für eigene Zwecke verwenden.
Statistik wird natürlich auch gebraucht, um Positionen zu verteidigen. Gerade wenn es um kausale Zusammenhänge geht, ist es für jemanden ohne Ausbildung sehr schwer, die Aussagekraft statistischer Daten zu beurteilen. Wir sehen in den Zeitungen täglich Beispiele, in denen Fragen mit Daten beantwortet werden, die eigentlich gar keine sinnvollen Aussagen zulassen.
Weil sie nicht signifikant sind?
Das ist das eine, dass man zum Beispiel nicht genügend Personen befragt hat. Das andere ist, dass die Art, wie die Daten erhoben werden, zu einer Verfälschung der Daten führen kann. Dass die Methodik also eine falsche Aussage liefert, egal wie viele Personen man anschaut.
Haben Sie dafür ein Beispiel?
Oft drehen sich die Fragen um die Gesundheit, ob zum Beispiel gewisse Lebensmittel gesundheitsfördernd oder schädlich sind. Oder nehmen Sie die Frage, ob es gesünder ist, in der Stadt oder auf dem Land zu wohnen. Diese kann man nicht beantworten, indem man einfach die Gesundheit der Leute in der Stadt und auf dem Land vergleicht. Auch der Einfluss von Bildung auf spätere berufliche Erfolge ist schwierig zu eruieren, weil da ganz verschiedene Faktoren hineinspielen. Oder der Einfluss von Einwanderung auf das Lohnniveau der einheimischen Bevölkerung. Es gibt unzählige solcher Beispiele, man begegnet ihnen täglich.
Welches wäre denn die richtige Methode?
Die Goldstandard-Methode sind randomisierte Studien, wie man sie für Medikamente verwendet. Allerdings kann man solche Studien nicht überall durchführen. Man kann Leute nicht über Jahre zwingen, sich schlechter Luft auszusetzen oder mehr Kaffee zu trinken. Wir arbeiten gerade an Methoden, wie man aus Daten kausale Fragestellungen ohne randomisierte Studien beantworten kann. Es ist schwierig, doch wir machen gewisse Fortschritte.
Zur Person
Nicolai Meinshausen ist seit 2013 Professor für Statistik an der ETH Zürich, wo er das Seminar für Statistik leitet. Seine Forschung dreht sich um Kausalität, hochdimensionale Daten und maschinelles Lernen. 2016 erhielt er vom «Committee of Presidents of Statistical Societies» den COPSS Presidents' Award; dieser gilt neben dem «International Prize in Statistics» als höchste Auszeichnung für Statistiker.
Schwerpunktthema Daten
Daten spielen in unserer Gesellschaft eine immer wichtigere Rolle. Die ETH Zürich wird sich deshalb in den kommenden Jahren vertieft mit diesem Themenschwerpunkt befassen. ETH News zeigt in einer Serie von Interviews exemplarisch auf, mit welchen Themen sich Forschende der ETH Zürich konkret befassen und wie sie die gesellschaftliche Entwicklung in ihrem Bereich einschätzen.
Bisherige Beiträge in dieser Serie:
- Lino Guzzella: «Diese Chance müssen wir packen» (ETH-News 20.06.2017)
- Srdjan Capkun: «Es ist immer ein Kompromiss» (ETH-News 19.07.2017)
- Joachim Buhmann «Die Medizin wird modellgetrieben» (ETH-News 28.08.2017)
- Roger Wattenhofer «Blockchain ist ein Hype» (ETH-News 29.09.2017)