Datenflut

Big Data: Was können Google und Watson für Ihre Daten tun?

Uhr | Aktualisiert
von Rodolphe Koller

Viele Unternehmen verfügen über riesige, unstrukturierte und ungenutzte Datenmengen von schlechter Qualität. Dank künstlicher Intelligenz und neuer Webtechnologien ist es heute möglich, diese "Big Data" in einen Wettbewerbsvorteil oder sogar in neue Geschäftsmodelle umzuwandeln.

Mitte Februar hat der von IBM entwickelte Supercomputer Watson zwei erfolgreiche Kandidaten in der Spielshow "Jeopardy" geschlagen, einem Quiz aus dem Bereich Allgemeinbildung, bei dem es darum geht, eine passende Frage zu einer Antwort zu finden. Um dies zu erreichen, hat Watson unter anderem eine riesige Menge an Informationen mässiger Qualität aus dem Web gesammelt. Mit diesen Daten hat er seine diversen Algorithmen gefüttert. Diese werden bei jeder Antwort benötigt, um rasch zu einer mit einem Vertrauensindex verknüpften Frage zu gelangen. Ein Teil des Problems, dem sich die 25 Informatiker von IBM bei der Entwicklung von Watson stellten, ähnelt demjenigen von Google und Facebook beim Scannen riesiger unstrukturierter Datenmengen, um eine Abfrage schnell beantworten zu können.

Ein Problem oder vielmehr eine Lösung, aus der ein Geschäftsmodell mit einschlägig bekanntem Erfolg entstand. Weit weg von den Forschungslaboren, Fernsehstudios und Internetriesen müssen sich grosse und kleine Unternehmen ganz ähnlichen Herausforderungen stellen. Einerseits sind sie sich zunehmend der Tatsache bewusst, dass die Analyse der Daten und die daraus gewonnenen Schlussfolgerungen von grundlegender Bedeutung für die informierte Steuerung ihrer Tätigkeiten und ihre Wettbewerbsfähigkeit sind, was zu einem Anstieg der Projekte im Bereich Business Intelligence (BI) geführt hat. Andererseits scheitern sie an einer unverdaulichen Masse an Informationen aller Art und jeglicher Herkunft, die meist vernachlässigt und als Problem angesehen werden. Viele ihrer Entscheidungsträger müssten daher davon träumen, einen Watson zu besitzen.

Auf der Suche nach neuen Heuhaufen

Nach einer von EMC in Auftrag gegebenen IDC-Studie ist das digitale Universum (die Summe aller digitalen Daten) 2010 um 1,2 Millionen Petabyte (PB) gewachsen und könnte bis 2020 sogar 35 Millionen PB erreichen. Die überwältigende Mehrheit dieser Datenmasse besteht aus Texten, Audio- und Videodateien, das heisst unstrukturierten Daten. Diese Welle betrifft auch die Unternehmen, von denen immer mehr ihre Informationen in sozialen Netzwerken, kollaborativen Tools und Callcentern sammeln. Dazu kommen neue Daten, die von öffentlichen Organen zur Verfügung gestellt oder von den Smartphones generiert werden. Mit ihrem riesigen Volumen in einer Grössenordnung von mehreren Terabyte, ihrer unsicheren Qualität und ihrem flüchtigen Charakter sind diese Big Data ganz anders gestaltet als die relationalen Daten, aus denen die herkömmlichen Lösungen im Bereich BI gespeist werden. Auch ihre Nutzung weicht grundlegend von diesem Prinzip ab.

Während BI exakte Antworten auf im Voraus bekannte, präzise Fragen liefert, werden bei der experimentellen Nutzung der Big Data wahrscheinliche Antworten auf Ad-hoc-Fragen bereitgestellt und neue Fragestellungen vorgeschlagen. Um mit dem Bild von Tom DeGarmo, Technologieleiter bei Pricewaterhousecoopers zu sprechen: "Statt eine Stecknadel im Heuhaufen zu finden, wird es durch diese Techniken möglich, neue Heuhaufen zu suchen."

Zugänglichere Technologien

Vor wenigen Jahren noch wurde diese Art der Analyse im grossen Stil vorwiegend von wissenschaftlichen Forschungsinstituten (in den Bereichen Physik, Astronomie, Bioinformatik, Finanzen) durchgeführt, oftmals mithilfe äusserst kostspieliger Superrechner. Aus mangelnder Sichtbarkeit ihres Potenzials war dies für Unternehmen damals kaum interessant. Aufgrund der enormen Zunahme der unstrukturierten Daten (durchschnittlich 80 Prozent der Daten eines Unternehmens) interessieren sich nun primär diejenigen Firmen dafür, die sich fragen, wie sie diese brachliegenden Daten nutzen können, die (noch) nicht das Interesse der (Software-)Architekten geweckt haben.

Auf der Suche nach Marktlücken haben mehrere grosse IT-Lieferanten vor kurzem Firmen akquiriert, die sich auf den Bereich Big Data spezialisiert haben: EMC mit Greenplum, IBM mit Netezza, HP mit Vertica oder auch Teradata mit Aster Data Systems Anfang März. Dieser Tendenz folgen auch mehrere BI-Anbieter, die ihr Angebot um die Analyse grosser Datenvolumen erweitert haben. Der gemeinsame Nenner der meisten dieser Lösungen liegt in der Anwendung des Open-Source-Projekts Hadoop, das aus den Google-Entwicklungen hervorgegangen ist.

Hadoop: Ein erweiterbares System für Analyse und Datenspeicherung

Zu Beginn des neuen Jahrtausends musste Google angesichts des enormen Wachstums der Internetinhalte eine eigene Lösung entwickeln, um die Inhalte weiterhin innerhalb angemessener Zeit indexieren zu können. Die Ingenieure des Unternehmens haben daher ein robustes und erweiterbares Speicher-(GFS) und ein Datenverarbeitungssystem entwickelt, wobei die Tasks auf eine Vielzahl parallel betriebener Server aufgeteilt und die Ergebnisse synthetisiert werden (Map Reduce). Anstatt sich auf komplexe Algorithmen und übermächtige Computer zu stützen, werden bei der Google-Lösung also eine grosse Anzahl von Standardservern eingesetzt, die sich hinzufügen oder entfernen lassen und denen verhältnismässig einfache Tasks zugewiesen werden.

Das Hadoop-Projekt ist eine Open-Source-Implementierung von Map Reduce, die von der Apache-Stiftung verwaltet wird, der sich auch andere Komponenten für Big Data angeschlossen haben, wie zum Beispiel ein verteiltes Dateisystem (HDFS) oder eine Datenbank (HBase). Yahoo ist einer der Pioniere in diesem Bereich und arbeitet mit Facebook zusammen, dessen Cluster Hadoop zurzeit der grösste der Welt sein soll. Die Robustheit, die Kosten und die Flexibilität dieser Technologie sind auch für Unternehmen ausserhalb der Welt des Internets verführerisch. So hat die New York Times beispielsweise Hadoop eingesetzt, um PDF-Dateien von den 11 Millionen Artikeln zu erstellen, die zwischen 1851 und 1922 veröffentlicht wurden, und benutzt es heute zur Textanalyse und zum Web Mining.

Die Bücherkette Barnes & Noble verwendet es, um das Kaufverhalten ihrer Kunden über die verschiedenen Vertriebskanäle zu analysieren. Disney testet die Technologie mit ähnlichen Zielen und stützt sich dabei auf Ressourcen in der Cloud und auf brachliegende Server zwecks Virtualisierungsbemühungen. McAfee beruft sich darauf, um Korrelationen unter den Spams aufzudecken. Um diese Anwendungen zu vereinfachen, benutzen diese Firmen und andere frühe Anwender von Big Data oftmals Hadoopbasierte kommerzielle Tools, die eine grosse Bandbreite an Zusatzfunktionen anbieten.

Watson: Hin zu einer intelligenten Datenanalyse

Für Abdel Labbi, Forschungsleiter im Bereich Datenanalyse am IBM-Forschungszentrum in Zürich, führen diese technologischen Entwicklungen zu einer Konvergenz der für Webakteure typischen beweglichen Transaktionsdaten und der ruhenden Daten der herkömmlichen Unternehmen. Ein Beispiel für diese Konvergenz ist die Analyse der an den Verkaufsstellen gesammelten Daten zur Erstellung von Kundenprofilen in Echtzeit. "Es ist nicht mehr die Abfrage, die die Daten sucht, sondern die Daten lösen die geeignete Abfrage aus oder entdecken sie sogar", meint der Forscher. Die Verbindung zum Watson-Computer wird sofort deutlich und eröffnet neue Perspektiven.

Dennoch, der Supercomputer von IBM stellt nicht eine Innovation an und für sich dar, sondern repräsentiert vielmehr eine fortschrittliche Art und Weise, bereits existierende Technologien miteinander zu kombinieren. Im Hardwarebereich ist Watson "massiv redundant" mit seiner Schar an billigen Chips, wie es der Entwurfsleiter Davis Ferucci ausdrückt. Dasselbe gilt für die zahlreichen, aber verhältnismässig einfachen Algorithmen. Vier Punkte machen ihn jedoch zu einer Wundermaschine, die die Überlegenheit des Menschen in Frage stellt: Erstens seine Kapazität, gleichzeitig viele Algorithmen auszuführen, also mehrere Spuren gleichzeitig mit einer hohen Geschwindigkeit zu verfolgen; dann seine Lernfähigkeit, dank derer er mit der Zeit einschätzen kann, welche Ressourcen und welche Algorithmen die besten Ergebnisse liefern. Drittens zwischen verschiedenen Antworten auswählen und ihnen einen Vertrauensindex zuweisen und schliesslich sein Verständnis der natürlichen Sprache und damit seine Gabe, mit Mehrdeutigkeiten umzugehen.

Die Kombination dieser verschiedenen Fertigkeiten könnte in Zukunft beträchtliche Auswirkungen auf die Datenanalyse im Unternehmen haben. Das Sprachverständnis könnte es ermöglichen, die Analyse beispielsweise auf mündliche Abfragen des Kunden auszudehnen, auf die automatisch geantwortet werden könnte. Im Zusammenhang mit den Forschungen in der Semantik und der Analyse von Emotionen könnte diese Art der Intelligenz präzise auf eine Ad-hoc-Frage antworten, anstatt nur auf eine Quelle zu deuten, wo sich die Antwort befindet, so wie es die Suchmotoren tun. Sie könnten auch das Problem der unstrukturierten Daten lösen, indem sie eine Struktur auf der Grundlage von Korrelationen schaffen. Wie Abdel Labbi sagt, könnte man zu Systemen kommen, in denen "Daten Daten finden".