Big Data – big Ernüchterung?


Big Data – big Ernüchterung?

Gehypt, verdammt, begnadigt. Über die wechselvolle Geschichte und die vier Missverständnisse rund um Big Data.

Die Schlagzeilen sind eindeutig: «Big Data, Big Problems» titelte die renommierte und nicht eben als innovationsfeindlich bekannte Wirtschaftszeitung «The Wall Street Journal » vor ein paar Monaten. Eine noch deutlichere Schlagzeile wählte kurz darauf das Schweizer Wirtschaftsmagazin «Bilanz»: «Die Big-Data-Lüge». Die Journalisten sahen sich im kultigen Newsletter von «CB Insights» bestätigt. Das Marktforschungsinstitut hatte analysiert, wie oft Start-ups die Begriffe «Big Data» und «Artificial Intelligence » in Telefonkonferenzen mit Investoren verwendeten. Das Resultat: Ab Mitte 2016 löste «Artificial Intelligence» «Big Data» als dominierenden Begriff ab und ist mittlerweile mehr als dreimal so oft das Gesprächsthema.

Die Euphorie für Big Data hat sich abgekühlt seit jenen Tagen vor etwas mehr als zehn Jahren, als das Magazin «Wired» verkündete, diese Technologie werde die herkömmliche Forschung überflüssig machen. «Wired», die publizistische Instanz im Silicon Valley, schrieb, Theorien und Hypothesen seien fortan nicht mehr nötig, Computer fänden die Zusammenhänge nun ganz von alleine. 2011 prophezeite McKinsey & Company, dank Big Data könne der öffentliche Sektor in Europa jährlich EUR 250 Milliarden sparen, mehr als das Bruttoinlandprodukt von Griechenland. Fünf Jahre später überprüfte erkannte, dass gerade einmal 10, maximal 20 % dieses Potenzials realisiert wurden. Was stimmt nun? Macht Big Data die Welt zu einem besseren, effizienteren, erkenntnisreicheren Ort? Oder ist es am Ende die neue Technologie, die überflüssig ist, und nicht wie prophezeit die herkömmliche Forschung?

Missverständnis Nr. 1: Big Data heisst viele Daten
Die Schwierigkeiten beginnen bei der Definition: Was Big Data eigentlich ist, bleibt vage. Dan Ariely, ein renommierter Psychologieprofessor mit Spezialgebiet Irrationalität, zog in einem viel beachteten Tweet Parallelen zum intimen Liebesleben von Teenagern:  «Jeder spricht darüber, niemand weiss wirklich, wie es geht.» Zudem denke jeder, alle anderen würden es tun, «deshalb behauptet jeder, es selbst auch zu tun».

Die gängige Definition umfasst vier Begriffe, die auf Englisch alle mit V beginnen: Volume meint, dass es sich um sehr grosse Datenmengen handelt. Velocity bezieht sich auf die hohe Geschwindigkeit, mit der die Daten anfallen und verarbeitet werden. Variety bezeichnet die Tatsache, dass die Daten ganz unterschiedlicher Natur sein können, von einfachen Tweets zu komplexen Verkehrsdaten, und Veracity (auf Deutsch: Aufrichtigkeit) weist darauf hin, dass die Qualität der Daten stimmen muss.

Missverständnis Nr. 2: Computer sind intelligent
Computer sind für ganz viele Aufgaben perfekt geeignet, für andere wiederum aber einfach zu wenig weit entwickelt. Sie seien noch immer «bemerkenswert dumm», sagt beispielsweise John Giannandrea, der ehemalige Chef der Abteilung für künstliche Intelligenz bei Google, der diese Funktion jetzt bei Apple ausübt. Er vergleicht den Entwicklungsstand von Computern mit dem  «eines vierjährigen Kindes». Wer einen Smart Speaker von Apple, Amazon oder Google benutzt, weiss, was Giannandrea meint. Eine Untersuchung ergab, dass diese Systeme zwar fast alle Fragen verstehen, aber nur bei circa drei von vier Antworten richtigliegen.

 

Ich bin überrascht, wie wenig Computer können.

Urs Hölzle, Google


Auch Urs Hölzle, der wohl wichtigste Schweizer im Silicon Valley und Google-Mitarbeiter Nummer acht, sagte in einem Interview: «Ich bin überrascht, wie wenig Computer können. » Sein Beispiel: Mit grossem Aufwand lerne der Computer, ein Zebra auf einem Foto zu erkennen, aber «es ist möglich, wenige Pixel zu ändern, und der Computer meint, es sei ein Rennauto».

Missverständnis Nr. 3: Aus Schrott kann Gold werden
«Big Data weckte anfänglich völlig falsche Erwartungen », sagt Gregor Kalberer, Head Innovation Design & Technology bei SIX. «Es herrschte der Glaube vor, man könne Computer mit immens grossen, gänzlich unstrukturierten Datenmengen füttern und die Superrechner könnten daraus unglaubliche Erkenntnisse ziehen.» Doch eine alte Informatikerweisheit besagt: Fütterst du Computer mit schlechtem Input, erhältst du auch schlechten Output – oder plakativ: «garbage in, garbage out» (Müll rein, Müll raus).

Big Data war angetreten, dieses Naturgesetz der Softwareprogrammierung zu widerlegen. Gregor Kalberer, der an der ETH Zürich in Computerwissenschaften promovierte, sagt: «Die Infrastruktur für Big Data kann tatsächlich unvorstellbar grosse Datenmengen sehr schnell verarbeiten. Aber das Prinzip, dass aus Schrott kein Gold wird, bleibt unantastbar.»  

Der «Heilige Gral» der Datenanalyse sei derzeit, einen Weg zu finden, wie man komplett unbekannte und unstrukturierte Daten «verstehen» und für die eigentlichen Berechnungen sinnvoll aufbereiten könne, so Gregor Kalberer. Dieser Schritt müsse mit möglichst kleinem Aufwand geschehen. «Wenn ich einen Grossteil der Daten aufwendig von Hand präparieren muss, gewinne ich nichts an Effizienz. Da können die Computer, die ich danach rechnen lasse, noch so leistungsstark sein.»

Missverständnis Nr. 4: Käseessen fördert Golfsport
Eine schwammige Definition, die langsame Entwicklung von intelligenten Systemen, qualitativ minderwertiger Input: Diese Faktoren verzögern den Durchbruch von Big Data. Ausserdem mangelt es vielerorts an Fachkräften. Eine andere Hürde wird jedoch häufig übersehen. Damit aus Big Data wirklich brauch- bare Resultate entstehen, müssten Computer Korrelation von Kausalität unterscheiden können. Sie müssten also in der Lage sein, festzustellen, ob eine Beziehung zwischen zwei Variablen nicht nur rein zufällig ist.


Dass hinter parallel verlaufende Entwicklungen (Korrelationen) nicht immer ein kausaler Zusammenhang besteht, zeigt der US-Amerikaner Tyler Vigen auf unterhaltsame Weise. Sein Blog Spurious Correlations und das gleichnamige Buch waren die Inspiration für diese Galerie.


Doch wie sollen Computer erkennen, dass sich beispielsweise der Konsum von Käse und der Umsatz von Golfplätzen in den USA fast deckungsgleich entwickeln, aber tatsächlich keinerlei Zusammenhang zwischen Ursache und Wirkung besteht? Oder – etwas weniger trivial –, dass der Verkauf von Skipässen und die Konsumation auf der Piste durchaus miteinander zu tun haben, aber die verursachenden Variablen andere sind, beispielsweise das Wetter oder die Schneemenge?

Ein viel zitiertes Beispiel, das dieses Defizit von Big Data illustriert, ist das Scheitern von «Google Flu Trends»: Die Idee war, mithilfe von Suchanfragen Grippewellen schneller als bisher vorherzusagen. Es stellte sich jedoch heraus, dass viele Menschen «Husten» oder «Fieber» googelten, auch wenn sie nicht krank waren, beispielsweise weil sie eine Gesundheitssendung über diese Symptome gesehen hatten. Google stellte den Dienst nach ein paar Jahren wieder ein.

Was in Stunden nicht klappt, geht jetzt in Sekunden
Google zeigt – mit Flu Trends – eindrücklich, wo Big Data nicht funktioniert, aber auch, wo und wie die Technologie tatsächlich erstaunlich gute Resultate liefern kann: Die Suchmaschine von Google kann zeitgleich Milliarden von Webseiten absuchen und die Suchresultate erst noch priorisieren. «Wenn wir Big Data richtig einsetzen, ist das bahnbrechend », ist Gregor Kalberer überzeugt. «In mehreren Tests bei SIX haben wir gezeigt, dass wir Rechenprozesse in wenigen Sekunden durchführen können, die bisher nach mehreren Stunden abbrachen.» 

 

Wenn wir Big Data richtig einsetzen, ist das bahnbrechend.

Gregor Kalberer, SIX

 


Solche Erfolgsbeispiele gibt es in fast allen Unternehmen, Branchen und Ländern – deshalb wächst der Big-Data-Markt auch weiterhin. Das Marktforschungsinstitut MarketsandMarkets schätzt die jährliche Wachstumsrate auf 17,6 % und prognostiziert für das Jahr 2023 einen Markt von USD 80 Milliarden (2017: USD 30 Milliarden).

Tatsächlich gibt es weitere Belege dafür, dass Big Data dabei ist, erwachsen zu werden: Roche erwarb letztes Jahr das New Yorker Start-up Flatiron, das Patientendaten im grossen Stil analysiert. Das Pharmaunternehmen erhofft sich Vorteile für die Forschung und Entwicklung in der Onkologie. Auf der anderen Seite des Rheins in Basel klingt es ganz ähnlich. Novartis erwähnt gerne und oft, dass Datenanalysen zu einer «Produktivitätsrevolution » in der Pharmaindustrie führen können. Mit der Hilfe von digitalen Technologien könnten die Kosten von klinischen Studien bis zu 25 % gesenkt werden, so der Novartis- CEO Vasant Narasimhan.

Big Data hilft künstlicher Intelligenz
Trotzdem ist – wie eingangs erwähnt – nicht «Big Data» der Begriff der Stunde, sondern «künstliche Intelligenz». Schuld daran ist auch: Big Data. In den Anfängen der künstlichen Intelligenz konnten die Anwendungen oft nur geringe Datenmengen in nützlicher Zeit verarbeiten. Die Infrastruktur für Big Data hilft, diese Limitierung aufzuheben. Mit dem Internet of Things (jedes Gerät ist vernetzt) oder der Einführung von 5G (vielfach leistungsfähigere Mobilfunktechnologie als das heute gängige 4G) werden die Datenmengen sowie die datentechnischen Möglichkeiten noch weiter zunehmen.

Damit die Technologie ihr Versprechen vollends einlösen kann, müssen jedoch einige Bedingungen erfüllt sein, so Gregor Kalberer: «Erstens muss der Use Case klar definiert sein, zweitens müssen die relevanten Informationen in den ursprünglichen Daten vorhanden sein und drittens müssen diese für den Computer zu verarbeiten sein.» Die für die Weiterverarbeitung präparierten Daten werden als «Smart Data» bezeichnet. Sie sind zwar selber nicht intelligent, aber die relevanten Informationen sind in einer Form enthalten, die tatsächliche Erkenntnisse ermöglicht. «So braucht es nicht einmal künstliche Intelligenz, um einen Mehrwert aus Big Data zu generieren. » Traditionelles Reporting und Modellierung würden schon ausreichen.