Das Potenzial von Daten in der Cloud mit automatischer Wissensextraktion nutzen

Mi 22.05.2019 - 08:00 Uhr

von Albert Weichselbraun, Professor für Informationswissenschaft, Hochschule für Technik und Wirtschaft, HTW Chur

Unternehmen verfügen oft über umfangreiche Dokumentenrepositorien, die auf internen Servern oder in der Cloud gespeichert werden. Durch Adaption von Web-Intelligence-Techniken wird es möglich, das in diesen Dokumenten gespeicherte Wissen zu extrahieren und in Geschäftsprozessen zu nutzen.

Albert Weichselbraun, Professor für Informationswissenschaft, Hochschule für Technik und Wirtschaft, HTW Chur. (Source: FOTOBOLLHALDER)

Wissen nutzen statt replizieren

Unternehmensinterne Dokumentenrepositorien enthalten oft umfangreiche Informationen zu Produkten, Technologien und Projekten. Viele dieser Dokumente werden lokal am Arbeitsplatz, auf zentralen Plattformen wie zum Beispiel Confluence, Sharepoint und Unternehmenswikis oder auch in Cloud-Speichern hinterlegt, ohne grossen Wert auf die spätere Auffindbarkeit oder die Extraktion von Information aus diesen Dateien zu legen. Dies führt in vielen Fällen dazu, dass das in den Dokumenten latent vorhandene Wissen nicht mehr aktiv im Unternehmen genutzt wird. In der Folge werden Produkte, Technologien und Lösungsansätze mehrfach entwickelt und Erfahrungen von Teams in vergangenen Projekten ignoriert, was oft zu teuren Mehrgleisigkeiten und Fehlern führt.

Die Rolle von Web Intelligence

Organisationen stehen in Web und Social Media ähnlichen Herausforderungen gegenüber. Denn auch dort sind zunehmend potenziell entscheidungsrelevante Informationen zu Produkten und Umwelt des Unternehmens verfügbar. Das Forschungsfeld Web Intelligence beschäftigt sich mit der Analyse von solchen Daten und mit Möglichkeiten, um diese besser zugänglich zu machen. Ebenfalls von Bedeutung sind Verfahren zur Visualisierung sowie Methoden für die gezielte Recherche und Wissensextraktion. Die Grafik zeigt ein Analysesystem des United Nation Environment Programme, das entwickelt wurde, um gezielt Informationen zu Umweltthemen aus umfangreichen Dokumentensammlungen zu extrahieren.

Die genannten Verfahren lassen sich auch auf cloudbasierte und firmeninterne Dokumentenrepositorien adaptieren und ermöglichen es, das dort gesammelte Wissen besser auffindbar zu machen und zu extrahieren.

Beispiel: Benannte Entitäten automatisch identifizieren

Named Entity Liking ermöglicht es, vollautomatisch Entitäten wie zum Beispiel Personen, Organisationen und Orte, aber auch Produkte und Events in Dokumenten zu identifizieren und diese mit unternehmensinternem oder öffentlich zugänglichem Hintergrundwissen zu verknüpfen. Dies erlaubt es, komplexe semantische Suchen durchzuführen oder auch Statistiken zu relevanten Zusammenhängen automatisiert zu erstellen.

So können zum Beispiel Beziehungen zwischen verschiedenen Entitäten (Produkte und die zugehörigen Ersatzteile, Projekte und Personen, die an diesen beteiligt waren, etc.) für ein Unternehmen relevant sein, um Wissensträger anhand ihrer Nennungen in Dokumenten automatisch zu identifizieren oder um Techniken zu ermitteln, die in Projekten zur Anwendung kamen.

Das Analysesystem des United Nation Environment Programme.

Verknüpfungen mit Online-Datenquellen liefern zusätzlichen Mehrwert

Zusätzlichen Mehrwert kann man durch die Verknüpfung der extrahierten Informationen mit Online-Datenquellen erlangen, die Hintergrundwissen zu den identifizierten Entitäten zur Verfügung stellt. So sind zum Beispiel Milliarden Einzelfakten ähnlich zu Wikipedia in maschinell lesbarer Form auf DBpedia und Wikidata enthalten und können für Suchen und erweiterte Recherchen genutzt werden. Auch hier ist eine Adaption in den Unternehmenskontext leicht möglich, sodass man in Recherchen zum Beispiel Informationen aus Datenquellen zu Personen, Projekten und Produkten nutzen kann.

Artikel teilen: