Bullinger Briefe

Mit KI lassen sich vergangene Zeiten durchleuchten

Uhr
von Dejan Wäckerlin und cka, yzu

Wer an künstliche Intelligenz denkt, denkt an die Zukunft. Doch auch die Vergangenheit lässt sich damit erforschen, wie ein Projekt der Universität Zürich zeigt. Mit KI lassen sich Briefe aus dem 16. Jahrhundert automatisch transliterieren und übersetzen.

(Source: Joanna Kosinska / Unsplash)
(Source: Joanna Kosinska / Unsplash)

Das Thema KI ist in aller Munde. Wo man im Cyberspace auch schaut, trifft man auf KI-erstellte Bilder, mittels KI übersetzte Texte, KI-Assistenten und andere Anwendungen, die das Leben einfacher machen sollen. Die Möglichkeiten scheinen grenzenlos zu sein.

Auf der anderen Seite ist mit dem Begriff auch die nicht immer positive Frage verbunden, wie sich die Gesellschaft durch die KI ändern wird. Wo in aller Regel zukünftige Entwicklungen am Arbeitsplatz oder zuhause im Fokus der Aufmerksamkeit stehen, wird die Frage, was die KI mit der Vergangenheit machen kann, selten gestellt oder gar als widersprüchlich angesehen.

Martin Volk, Professor am Institut für Informatik und Leiter des Instituts für Computerlinguistik an der Universität Zürich. (Source: Netzmedien)

Zukunft und Vergangenheit stehen nicht antipodal zueinander. Dass dem so ist, zeigt Martin Volk, Professor für Computerlinguistik an der Universität Zürich. Dort studiert er, wie KI dazu eingesetzt werden kann, die Bullinger Briefen automatisch zu erkennen und zu übersetzen. Bei den Bullinger Briefen handelt es sich um eine Sammlung von rund 12'000 Briefe aus dem 16. Jahrhundert. Damit gilt es als einer der umfangreichsten überlieferten Briefwechsel aus diesem Zeitraum, sagt Volk. Die meisten Briefe sind in Latein oder in Frühneuhochdeutsch verfasst, doch lassen sich auch Texte in Griechisch, Französisch oder Hebräisch finden. Einige der Briefe sind gar in mehreren Sprachen geschrieben.

Automatisch Briefe erkennen, transliterieren und übersetzen

Das Ziel seines Projekts ist es, ein Programm zu entwickeln, das die Handschrift in weiteren Briefen automatisch transliteriert, also Buchstabe für Buchstabe überträgt. Auch soll das Programm den Text von Latein ins Deutsche und auch ins Englische übersetzen. Letzteres sei praktisch, da sie somit auch internationale Forschungsgemeinden einbeziehen könnten. Hierbei sollen Modelle zur Handschrifterkennung auf Basis schon existierender Transkriptionen trainiert werden, wie Phillip Stroebel, wissenschaftlicher Mitarbeiter an der UZH und Hauptverantwortlicher für die Handschrifterkennung, auf Anfrage erklärt. Zum erfolgreichen Training braucht es zwei Komponenten, wie er erklärt. Transkriptionen und die dazugehörigen Scans. Hierbei müsse im ersten Schritt ein Zeilenerkennungsprogramm die Zeilen im Bild erkennen. In einem zweiten Schritt versucht das Forschungsteam dann, die schon vorhandenen Transkriptionen mit den Zeilen zu matchen. So entstünden Bild- und Textzeilenpaare, die man dann als Trainingsdaten für die KI-Modelle verwenden könnte. 

Im weiteren Verlauf schnipselt das Modell das Bild einer Zeile in kleine Stücke, wie Stroebel erklärt. Das seien die atomaren "Features", mit denen das Modell lernt. Im Training setze das Modell diese Features auf verschiedene Arten wieder zusammen. Ziel sei es hierbei, diejenigen Features zu finden, die am besten einen Buchstaben oder eine Buchstabensequenz voraussagen könnten. Dadurch, dass das Modell gewisse Feature-Buchstabenkombinationen häufiger sieht als andere, lernt es, Features und Buchstaben(-sequenzen) einander zuzuordnen. Je mehr Daten man hat, desto besser funktioniert das maschinelle Lernen.

Automatische Texterkennung funktioniert schon gut

Inzwischen sei die erste Phase des Projekts abgeschlossen. Somit gibt es bereits ein Suchsystem, mit dem alle Briefe in elektronischer Form durchsucht werden können, wie Volk sagt. Die zweite und dritte Phase des Projektes befassen sich laut Volk mit maschineller Übersetzung respektive mit der Anwendung von grossen Sprachmodellen zur besseren sprachlichen Erschliessung der Briefe. 

KI-gestützte Anwendungen wie die maschinelle Übersetzung und automatische Erkennung bauen auf neuronalen Netzwerken auf. Bei diesen handelt es sich um mathematische Modelle, die auf Basis von Daten, beispielsweise Texte, aber auch Bilder, trainiert werden können. Ein so trainiertes Modell verfügt dann über eine Reihe von Gewichten, mit denen das Programm auf Basis von Wahrscheinlichkeitsrechnungen neue Inhalte, beispielsweise Bilder, erstellen oder noch nie zuvor gesehene Daten klassifizieren kann. Auch Handschriften könnten so digitalisiert werden, indem das Programm Wörter und Buchstaben in den Briefen isoliert und diese dann in ein File überträgt.

Laut Volk funktioniert die Handschrifterkennung am besten, wenn man sie jeweils auf eine einzige Handschrift trainiert. Um das Modell optimal zu trainieren, seien allerdings zwischen 30 und 50 Seiten an Handschrift nötig. Dafür hat Volk mit seinem Forschungsteam die von Hand geschriebenen Briefe gescannt und das KI-Modell mit den gescannten Bildern trainiert. Wie seine eigenen Studien ergeben, liegt die Erkennungsgenauigkeit ihres Modells hierbei zwischen 91 und 95 Prozent. Das bedeutet, dass die KI etwa jeden zehnten bis zwanzigsten Buchstaben falsch erkennt.

Die meisten Korrespondierenden, hier die Briefschreiber, hätten aber nur wenig Schreibmaterial hinterlassen. Für KI-Modelle stelle das oft ein Problem dar, da so nicht ausreichend Trainingsdaten für die spezifischen Eigenheiten der Handschrift zur Verfügung stünden. Auch unterscheidet sich die Schrift je nachdem, in welcher Sprache man ein Brief verfasst, wie Stroebel anfügt. Dennoch zieht Volk aus seiner Forschungsarbeit die Erkenntnis, dass seine KI auch solche Handschriften gut erkennen könne.

ChatGPT schlägt hauseigenes Modell

Das Übersetzungssystem selbst ist laut Volk besser als das von Google Translate, wenn es um Übersetzungen von lateinischen Texten ins Deutsche geht. Allerdings sei es für andere Sprachkombinationen deutlich schlechter. Was den Forschenden hierbei überraschte und auch sauer aufstiess, wie Volk kommentiert, war, dass trotz der investierten Zeit ihr Modell im Übersetzungssystem schlechter abschnitt als das von ChatGPT.  ChatGPT könne das Latein des 16. Jahrhunderts sehr gut ins Deutsch übersetzen, sagt Martin Volk.

Auch in einem anderen Punkt schnitt laut Volk ihr Modell deutlich schlechter ab als ChatGPT. Ihr eigenes Problem habe grosse Probleme mit dem sogenannten "Intrasegmental Codeswitching". Das bezeichnet einen Sprachwechsel innerhalb eines Satzes. ChatGPT dagegen habe nur wenig Probleme damit und sei in der Lage, auch solche Brieftexte korrekt ins Englische zu übersetzen. "Dieses Sprachmodell muss überhaupt nicht wissen, wo Latein steht und wo Frühneuhochdeutsch. Es übersetzt beide mit vergleichbarer Qualität", sagt Volk. Im Gegensatz dazu musste sein Team in den jeweiligen Brieftexten anmerken, welche Passage in welcher Sprache geschrieben wurden.

Auch andere Probleme könnten auftauchen. Wenn Briefe automatisch transkribiert werden, dann gäbe es eine Fehlerrate. Diese summiere sich mit der Fehlerrate der Übersetzung auf. Zwar hätten das Volk und seine Forschungsgruppe nicht untersucht, doch könnten einfache Transkriptionsfehler potenziell schwerwiegende Konsequenzen für die Übersetzungsqualität nach sich ziehen, wie er vermerkt.

Anwendungen aus dem Projekt gibt es, aber nicht viele

Für Volk stehen die wirtschaftlichen Aspekte nicht im Vordergrund seiner Arbeit, wie er im Gespräch deutlich machte. Doch könnte seine Arbeit durchaus auch praktische Anwendung finden. Einmal sei die maschinelle Übersetzung für viele Archive interessant, da diese über Material von ähnlicher Art verfügen, zum Beispiel Handschriften, Briefe oder Dokumentationen. Auch erweise sich maschinelle Übersetzung nützlich zur Erschliessung von viel Material, das zurzeit Spezialisten vorenthalten wird. Die Anwendungen hier wären sicherlich für Archive und Bibliotheken von Interesse. Die Übersetzungsarbeiten selber seien aber nicht interessant, meint Volk. Keiner produziert mehr Texte in Latein.

Webcode
CjSjcZwL