In Kooperation mit Uvision

Schneller ans Ziel mit Next Generation Data Management

Uhr | Aktualisiert
von Dr. Wolfram Jost, Chief Technology Officer bei der Software AG

Unternehmen häufen massenweise Daten an. Mit herkömmlichen Methoden und Werkzeugen können diese nicht mehr verarbeitet werden. Für Abhilfe soll das In-Memory-Management von Big Data sorgen. Nebenbei bringt diese Technologie neue Bewegung in die IT-Welt.

Hinweis: Dieser Artikel ist von Dr. Wolfram Jost, Chief Technology Officer bei der Software AG.

Von 45 Minuten auf 4 Sekunden! Dank dieser rekordverdächtigen Beschleunigung bewahrt ein renommiertes Kreditkartenunternehmen seine Kunden vor Vermögensverlusten in der Höhe von hunderten Millionen Dollar. Im Vier-Sekunden-Takt prüft der Finanzdienstleister jede Transaktion auf das Risiko einer betrügerischen Handlung. Solche Analysen aus gewaltigen Datenmengen sind es, die Big Data zu einem heissen Thema machen. Es geht um ausgefeilte Datenanalysen, auf deren Basis Entscheidungen getroffen werden. Auch die Kunden eines australischen Telekommunikationsanbieters profitieren vom Geschwindigkeitsrausch in der Datenverarbeitung. Innerhalb von 30 Millisekunden stehen ihnen die Rechnungsdaten zur Verfügung und sie können erkennen, wie viel ihr Telefongespräch, ihre Datenübertragung oder das Versenden der Fotos vom Smartphone gerade kostet.

Hier ist nicht die Rede von ein paar Millionen Kundendatensätzen. Bei Big Data geht es um gewaltige Mengen laufend produzierter Informationen. Nach Angaben von IBM wurden 2012 täglich 2,5 Trillionen Bytes produziert. Statt von Mega- und Gigabytes sprechen die Experten deshalb auch von Tera-, Peta- und Exabyte (eine Milliarde Gigabyte). Experten sind sich einig, dass herkömmliche Standarddatenbanken oder Datenmanagement-Werkzeuge bei diesen Datenmengen versagen. Um das Phänomen "Big Data" zu beherrschen, werden die Leistungen einer neuen Generation zum Data Management benötigt. Diese Next-Generation-Data-Management-Plattformen stossen einen umfassenden Architektur-Shift an, in dessen Folge so manches etablierte Designprinzip in der Softwareentwicklung neu überdacht wird: Die zentrale relationale SQL-Datenbank für alle betriebswirtschaftlichen Aufgaben, die bislang ein quasi ehernes Gesetz war, wird von den neuen Big-Data-affinen Technologien zur Disposition gestellt (siehe Bild 1).

Die wirtschaftliche Relevanz von Big Data

Für Manager sind Kenntnisse über Big Data wichtig, denn es geht um die wertvollsten Rohstoffe jedes Unternehmensbereichs: Daten und Informationen. In dem 2011 veröffentlichten Report des McKinsey Global Institute (MGI) "Big data: The next frontier for innovation, competition, and productivity" betonen die Autoren, dass Innovationen und Wachstum in immer stärkerem Masse von der Qualität und Auswertung der Daten abhängt.

Den Nutzen der Big-Data-Technologien machen die MGI-Autoren an fünf Eigenschaften fest. An erster Stelle steht die Transparenz, die Organisationen gewinnen, wenn Informationen besser und schneller verfügbar sind. Zweitens können Unternehmen dank detaillierter Informationsversorgung verschiedene Kriterien kombinieren und Entscheidungen testen. Die personenbezogenen Informationen eröffnen drittens Möglichkeiten, eine Kunden- und Marktsegmentierung vorzunehmen, deren Zusammensetzung kontinuierlich an aktuelle Bedingungen angepasst wird. Viertens kann Big Data in der Prozesssteuerung oder -automatisierung herangezogen werden, um etwa mit einer automatisierten Analyse von Wetterdaten den Materialeinsatz und Produktionsdurchsatz in der Getränkeherstellung zu optimieren. Fünftens führt der Einsatz von Big Data in den Unternehmen zu neuen innovativen Geschäftsmodellen oder Services, zur Optimierung von Massnahmen durch die zeitnahe Auswertung von Webstatistiken, persönlichen Standortinformationen etc.

Nur wenn Firmen die Rohstoff-"Ver­edelung" gelingt, winkt eine Produktivitätsdividende, die erfreulich hoch ausfallen kann. Die Autoren des MGI-Reports errechneten, dass durch Einsatz von Big-Data-Technologien im US-amerikanischen Gesundheitssystem jährlich 300 Milliarden US-Dollar, in der Behördenlandschaft der EU jährlich 250 Milliarden US-Dollar gespart werden könnten. Weiter werden in den USA ein 60-prozentiger Zuwachs bei der operativen Marge im Einzelhandel oder eine 7-prozentige Verbesserung der Liquidität in der Fertigung in Aussicht gestellt.

Volume, Variety, Velocity und Value

Auffällig an den im Report genannten Einsatzfeldern und Nutzenpotenzialen ist vor allem, dass sie weder neu noch spektakulär klingen. Sie greifen letztlich schon seit Jahren ins Auge gefasste IT-gestützte Strategien unter neuen inhaltlichen und technischen Rahmenbedingungen auf. Doch die Messlatte für die Leistungsfähigkeit ist mit Blick auf das Datenvolumen, die Komplexität der Daten und das Bearbeitungstempo höher gelegt. Im internationalen Fachjargon sind diese Charakteristika umschrieben mit Volume, Variety und Velocity. Die hieraus abgeleiteten technologischen Forderungen an die zugehörige Data-Management-Plattform heissen: erstklassige Skalierungsmöglichkeiten, ein flexibles Management von Daten beliebigen Formats sowie die Verarbeitung komplexer Ereignisströme. Eine solche Big-Data-Umgebung muss sich gleichzeitig komfortabel in die vorhandene IT-Landschaft einbinden, um den Wert der Daten aus allen Anwendungen eines Unternehmens vollständig auszuschöpfen – das vierte und wichtigste V, den Value.

SQL? NoSQL? Not only SQL!

Heute können entsprechende Technologien diese Wünsche erfüllen. Die rasante Entwicklung in der Prozessoren- und Speichertechnik, mit der ein gewaltiger Preisverfall einhergeht, eröffnet aussergewöhnliche Chancen. Auf Basis preiswerter Standard-Hardwarekomponenten lassen sich moderne Infrastrukturen realisieren, die immer grössere Datenmengen direkt im Hauptspeicher (scale-up) als auch verteilt über mehrere Prozessoren (scale-out) bearbeiten und verwalten. SQL-Datenbanken sind für den Umgang mit grossen Datenmengen unterschiedlicher Herkunft schlecht geeignet. Amazon, Google, Facebook & Co. mit ihren Millionen von Nutzern hätten mit dem limitierten Scale-up-Vermögen der relationalen Datenbanktechnik ihre Web-2.0-Anwendungen niemals realisieren können. Der Geschwindigkeitszuwachs im Onlinezugriff beim eingangs erwähnten Telko beruht gerade darauf, dass Terabytes an Kundendaten in zweistelliger Grössenordnung direkt im Hauptspeicher bereitgestellt werden, ohne dass die RDBMS der Kundenverwaltung im Backend beansprucht wird.

Nahezu jeder Anbieter von Softwareplattformen arbeitet heute mit Hochdruck an innovativen Architekturprinzipien, um die Enge des relationalen Modells hinter sich zu lassen. Mit dem Begriff NoSQL werden diese Versuche für ein alternatives Data Management bezeichnet. Abhängig vom Marktauftritt unterscheiden sich die Schwerpunkte der Aktivitäten von Anbieter zu Anbieter zum Teil deutlich. Hersteller, die sich auf komplexe Analysen und Simulationen fokussieren, präferieren das Designprinzip einer spaltenorientierten Anordnung. Geht es um Auswertungen für wenig strukturierte Daten beispielsweise von Warenkörben, die für eine Analyse nicht mehr eigens überarbeitet werden, steht meist die Verarbeitung enormer Datenberge im Vordergrund. Andere Ansätze sind Graphendatenbanken, die Beziehungen modellieren und insbesondere für Hersteller interessant sind, die Empfehlungsfunktionen in sozialen Netzen entwickeln. Für komplexe Datenstrukturen wiederum werden dokumentenorientierte Datenbanken bevorzugt.

Es gibt eine Vielzahl an Modellansätzen für eine neue Datenbanktechnologie. Für Entwickler existieren anscheinend keine Grenzen mehr, mit Fantasie und Innovationselan neue Wege zu entdecken, um den neuen Anforderungen bezüglich Datenmenge, Formatvielfalt und Verarbeitungstempo gerecht zu werden. Unabhängig von der Herangehensweise ist allen Ansätzen die konsequente Ausrichtung auf Skalierbarkeit und Verarbeitungsgeschwindigkeit als oberstes Designprinzip gemeinsam, das die bislang vorherrschende Dominanz des strikten Konsistenzgebots aufhebt. Ebenso herrscht Einigkeit, dass der einzig erfolgreiche und letztlich auch bezahlbare Weg zu einer beliebigen Skalierbarkeit das Konzept der Rechnernetzverbünde ist – von Fachleuten auch als Clusterverbund oder in Anlehnung an das Stromnetz als Data Grid bezeichnet.

Reichhaltigkeit dominiert die IT-Welt

Die Idee einer Datenbank für alles, die in der Vergangenheit zur Dominanz des relationalen Datenbankmodells führte, ist definitiv vorbei. Dass NoSQL-Systeme nun die RDBMs als führende Datenbanktechnologie ablösen, wäre jedoch der falsche Schluss. Denn Konsistenz – eine der zentralen Stärken des relationalen Datenmodells – ist keinesfalls obsolet, sondern zählt im betrieblichen Umfeld weiterhin zu den wichtigsten Forderungen.

Die Auseinandersetzung SQL versus NoSQL hat deshalb wenig Relevanz. Vielmehr geht es um die Wahlfreiheit für den Anwender. Mit neuen Data-Management-Plattformen rücken Anwendungen, Daten beliebigen Formats und Ereignis-Datenströme wieder enger zusammen. Die Next-Generation-Data-Management-Plattform ebnet damit den Weg zu einem neuen IT-Design von Unternehmensanwendungen. Firmen gewinnen mit den technologischen Weiterentwicklungen mehr an Agilität und Kollaboration, zentrale Forderungen in der globalen Wirtschaftswelt.

Die In-Memory-Technologie (Bild 2) befeuert diese Entwicklung zusätzlich. Anwendungen, Datenobjekte und Ereignis­ströme können nun gemeinsam im Hauptspeicher des Application Server verwaltet werden. Lese- und Schreiboperationen lassen sich direkt auf den Daten ausführen. Weil Daten aus verschiedenen Quellen in eine Anwendung integriert werden können, werden diese äusserst schnell und skalierbar. Der Nutzer hat unmittelbaren Zugriff auf Ereignisdaten, die er in Echtzeit auswerten und die Erkenntnisse wiederum sofort weiterverarbeiten kann. Das Management gewinnt damit das, was es für Entscheidungen am meisten benötigt: mehr Transparenz. Überall, wo es um hohe Transaktionsaufkommen, wachsende Nutzerzahlen oder grosse Datenintensität geht, zahlen sich die neuen IT-Ansätze aus.