Fachbeitrag

Downsizing Big Data und Machine ­Learning

Uhr | Aktualisiert
von Marc Tesch, Big Data Spezialist bei LeanBI.

Big Data und Machine Learning sind in aller Munde, nicht ganz ohne Grund. Wer mehr aus seinen Daten herausholen kann, wird mit Sicherheit Wettbewerbsvorteile erzielen und Kosten senken. Es gibt einige grosse Firmen, die Big-­Data-­Lösungen bereits erfolgreich umgesetzt haben, auch in der Schweiz. Aber was ist mit dem Mittelstand? Sind diese Technologien wirklich KMU-tauglich?

Marc Tesch, Big Data Spezialist bei LeanBI. (Quelle: LeanBI)
Marc Tesch, Big Data Spezialist bei LeanBI. (Quelle: LeanBI)

Ein Problem für die KMUs ist, dass die Lizenzmodelle der Hadoop-Distributoren und Softwarehäuser auf grosse Unternehmen ausgerichtet sind: Man kann nicht mit kleinen Umgebungen starten und diese stetig ausbauen. Für kleine und mittlere Firmen ist damit die Investition in eine traditionelle Big-Data-Landschaft mit Investitionsrisiken behaftet. In der KMU-Welt ist das Motto, klein zu beginnen, durch überschaubare Projekte und Investitionen «Quick Wins» zu realisieren und sich langsam an das Potenzial von Big Data heranzutasten. Die Anforderungen sind also:

  • Lösungen mit überschaubaren «Eintrittskosten»;
  • schnelle und agile Umsetzung/Integration;
  • eine Infrastruktur, die proportional zu den Bedürfnissen wächst.

KMUs benötigen für ihre Big-Data- und Machine-Learning-Fragen meistens nicht den vollen Umfang der Hadoop-Tool-Landschaft. Denn mit analytischen Werkzeugen, Spark und Object Storage kann man bereits mehr als 80 Prozent der Bedürfnisse abdecken.

Analytische Werkzeuge

Es gibt integrierte Produkte mit ETL (Extraktion, Transformation, Load), Visualisierung und Machine-Learning-Funktionen. Damit lassen sich unstrukturierte und grosse Mengen an Daten schnell und ohne Programmierkenntnisse analysieren. Diese Anwendungen erlauben es, mit einem Server anzufangen, und binnen Wochenfrist die ersten «Low Hanging Fruits» zu ernten.

Spark

Dort, wo ein Single Node nicht mehr ausreicht, kann Spark eingesetzt werden. Mit Apache Spark wird die Verarbeitung der Daten auf viele Nodes verteilt und «In Memory» verarbeitet. Spark ist zwar eine recht neue Technologie, hat sich aber bereits in vielen Projekten bewiesen.

Object Storage

Die Daten müssen nicht unbedingt auf HDFS abgespeichert werden. Auch im Object Storage werden die Daten hochverfügbar und ausfallsicher über mehrere Server verteilt. Bei der Aufbereitung der Daten verlieren wir zwar etwas Performance, dafür ist es hochskalierbar und direkt als Service beziehbar.

Eine solche Architektur kann lokal beim Kunden aufgebaut oder alternativ auch in einer Schweizer Cloud zur Verfügung gestellt werden. Dabei befinden sich die Daten für die Firma weiterhin in einer geschlossenen Umgebung, und die Cloud kann ebenfalls direkt in das Firmennetz integriert werden.

Heutzutage können Kunden ohne Infrastruktur und ohne eigenes Technologie-Know-how Big Data und Machine Learning produktiv einsetzen – und dies mit der notwendigen Sicherheit. Die Daten werden etwa in einer Schweizer Cloud verschlüsselt zur Verfügung gestellt, der Serviceprovider bereitet diese auf und beantwortet die Fragen. Die Ergebnisse werden dann in Form von verschlüsselten Daten oder als Visualisierungen wieder zurückgeliefert. Alternativ fliessen die Daten in Business-Intelligence-Anwendungen. Damit steht das Wissen auch für das Management jederzeit und überall mobil bereit.

Tags
Webcode
6277