"Wegen des riesigen KI-Hypes sind die Kundenerwartungen enorm hoch"
Unternehmen setzen verstärkt auf automatisierte Daten- und Dokumentenverarbeitung. Wo die Herausforderungen für die automatische Datenerkennung liegen und was die rasanten Entwicklungen der grossen Sprachmodelle für sie bedeuten, erläutert Alexander Vegh, Chief Technology Officer bei DeepCloud. Interview: Tanja Mettauer
Mit DeepBox stellen Sie eine cloudbasierte Plattform für den Dokumentenaustausch zur Verfügung. Darin integriert ist DeepO, eine Datenerfassungslösung, die Informationen automatisch digitalisieren und verarbeiten kann. Bei welchen Anwendungsfällen kommt DeepO konkret zum Einsatz?
Alexander Vegh: DeepO ist entwickelt worden, um Dokumenttypen aus dem privaten wie geschäftlichen Umfeld zu verarbeiten. Aufgrund beschränkter Ressourcen als Start-up haben wir uns aber dazu entschlossen, unseren Fokus auf den B2B-Markt zu legen. Dies auch mit dem Hintergedanken, Lösungen für die grosse Anzahl Kundinnen und Kunden aus der Abacus-Welt anzubieten. In diesem Bereich wird DeepO in verschiedenen Anwendungsfällen eingesetzt, welche die Rechnungsverarbeitung betreffen: eingehende Rechnungen und Quittungen in der Kreditoren- und Spesenverarbeitung, aber auch im Treuhandumfeld für ausgehende Debitorenrechnungen. Im Umfeld der Auftragsbearbeitungen sind vor allem Bestellungen und Lieferscheine ein Thema.
Wo liegt die grösste Herausforderung der automatischen Datenerkennung und -verarbeitung?
Sie liegt primär in den Erwartungen an die Präzisions- und Datenqualität. Dicht darauf folgt die Komplexität der einzelnen Firmenprozesse, die bei Weitem nicht standardisiert sind. Moderne KI-Technologien leisten bereits Erstaunliches. Die Schweizer QR-Einzahlungsscheine erleichtern die Erkennung zusätzlich, aber die Vielfalt an Dokumenten ist sehr gross. Häufig sind die zu verarbeitenden Daten auch nicht korrekt. Rechnungen mit Rundungsfehlern, falschen Mehrwertsteuersätzen oder fehlerhaften Adressen erfordern grosse Anstrengungen in der Nachverarbeitung der erkannten Daten.
Was sind die Stärken der OCR-Technologie von DeepO?
OCR (Optical Character Recognition) ist nur der erste Prozessschritt in einer langen Kette von Verarbeitungen. Der grosse Mehrwert, den DeepO bietet, liegt in den nachfolgenden Schritten. DeepO erkennt nicht bloss Text und Zahlen. Es registriert, ob es sich um eine Rechnung handelt, und reichert sie mit zusätzlichen Daten an, selbst wenn diese nicht auf dem Dokument stehen. DeepO erkennt Brancheninformationen zur genauen Spesenverarbeitung und rechnet, falls notwendig, die MWST aus. Anschliessend werden die Daten automatisch mit Objekten aus der Buchhaltung verknüpft, etwa mit Projekten, Konti- oder Kostenstellen, bevor sie zum Schluss an das Buchhaltungssystem übergeben werden.
Künstliche Intelligenz ist in der Lage, auch handschriftliche Dokumente zu erkennen. Wo liegen hier die Grenzen von DeepO, und wie werden diese in der Praxis gelöst?
KI kann inzwischen tatsächlich Handschriften erkennen. Doch die Qualität ist allerdings im Moment noch nicht ganz auf einem Niveau, dass es automatische Verarbeitungen mit Sicherheit erlauben würde. Wir entwickeln zurzeit für DeepO eigene Modelle, die hier Verbesserungen bringen werden.
Wie stellt DeepO sicher, dass die gelesenen Daten echt sind und es sich nicht um Betrugsversuche handelt?
DeepO hat verschiedene Ebenen, auf denen absichtliche Betrugsversuche wie auch unbeabsichtigte Fehler erkannt und korrigiert werden. Auf der untersten Ebene wird zum Beispiel darauf hingewiesen, wenn ein QR-Code auf einer Rechnung nicht mit den abgedruckten Daten übereinstimmt. Sofern DeepO mit einem Buchhaltungssystem verknüpft ist, kommen die Daten aus diesem System zum Zug. DeepO erkennt, wenn beispielsweise ein Rechnungssteller eine unbekannte Bankverbindung hat. Darüber hinaus kann die Benutzerin oder der Benutzer in DeepO auch immer eigene Regeln hinterlegen. DeepCloud bietet ausserdem mit DeepSign die Möglichkeit digitaler Siegel an, mit denen sichergestellt werden kann, dass eine Rechnung wirklich von einem verifizierten Absender stammt.
Was bedeuten die rasanten Entwicklungen der verschiedenen grossen Sprachmodelle für DeepO?
Wir verfolgen die Entwicklung permanent und evaluieren fortlaufend alle Modelle, die neu erscheinen. Der technologische Fortschritt ist so rasant, dass der Aufwand in dem Bereich tatsächlich sehr hoch ist. Sprachmodelle kommen in DeepO vor allem dort zum Einsatz, wo sie ihre Stärken ausspielen können, etwa beim Auslesen von relativ schlecht standardisierten und strukturierten Daten, wie Adressen auf den Dokumenten. Es ist zudem möglich, andere Dokumente als Rechnungen zu übersetzen oder zusammenzufassen.
Mit welchen Drittsystemen lässt sich DeepO kombinieren?
DeepO ist ein offenes System und verfügt über Programmierschnittstellen und kann verwendet werden, ohne die Dokumentaustausch-Funktionen von DeepBox zu nutzen. Aufgerufen werden diese APIs nicht nur von DeepCloud, Abacus oder Swiss21, sondern auch von Systemen wie zum Beispiel der Immobilienplattform Tayo.
Welche Datenschutz- und Sicherheitsüberlegungen sollten vor dem Einsatz der OCR-Technologie beachtet werden?
Das neue Datenschutzgesetz nDSG, das seit vergangenem Herbst in Kraft ist, verpflichtet jede Firma, sich Gedanken zu diesen Themen zu machen. DeepCloud ist ISO-27001-zertifiziert, was unsere Anstrengungen in diesem Bereich dokumentiert. DeepO wird auf eigener Hardware in der Schweiz betrieben und es fliessen keine Kundendaten an Fremdsysteme ab. Ohne Einverständniserklärung unserer Kundinnen und Kunden werden keine Daten zur Weiterentwicklung oder zum Training von Sprachmodellen verwendet.
Mit welchen Herausforderungen kommen Kunden zu Ihnen?
Die grösste Herausforderung ist, dass wegen des riesigen Hypes im Bereich KI die Kundenerwartungen enorm hoch sind. Man kann sehr schnell mit ChatGPT und ähnlichen Tools ein Dokument einlesen, und diese sind auch bereits in der Lage, viel zu erkennen. Die Schwierigkeiten liegen in den Details, was gerade bei Buchhaltungsdokumenten, wo es auf präzise Zahlen ankommt und Sprachmodelle an ihre Grenzen stossen, viel Erklärungsbedarf erzeugt. Was auch sehr grossen Aufwand erzeugt, ist die Tatsache, dass eine starke Automatisierung nur mit guter Datenqualität in den Systemen möglich ist – die Datenqualität sowohl in den Systemen unserer Kunden wie auch auf den Dokumenten, die sie selbst erhalten, ist eine sehr grosse Herausforderung.
Welche Bereiche könnten ausserdem von einer automatischen Datenverarbeitung profitieren?
Mir fällt eigentlich kein Bereich ein, der nicht infrage kommt. Wir stehen hier erst am Anfang der Entwicklung. Im Zahlungsbereich gibt es zum Beispiel auch in der Schweiz Instant Payment. Die staatlichen Stellen stehen ebenfalls nicht still, was die Entwicklungen bei elektronischen Steuererklärungen oder die elektronischen Identifikationsnachweise (E-ID) zeigen.
Zur Person:
Alexander Vegh ist Chief Artificial Intelligence Officer (CAIO) bei Abacus Research, bei der er nun seit fast 30 Jahren tätig ist. Seit November 2021 ist er zudem Chief Technology Officer bei DeepCloud, einem Spin-off von Abacus, das modernste KI-basierte digitale Dienste bereitstellt.
Erfahren Sie hier mehr über DeepO