Github Copilot Codierassistent zensiert über 1000 Wörter

News

Die kürzlich von Github eingeführte Programmierhilfe Copilot verhindert die Verwendung von 1170 Wörtern, die beleidigend sein könnten. Ein Forscher schaffte es, die Liste dieser verbotenen Begriffe sowohl in den Eingaben der Entwickler als auch in den von der KI produzierten Ergebnissen zu entziffern.

Github Copilot schlägt Codezeilen oder sogar komplette Funktionen vor. (Source: Github)

Die Veröffentlichung der ersten Version der Programmierunterstützung Copilot vor einigen Wochen, löste eine Kontroverse aus. Entwickler und KI-Experten wiesen auf die Probleme und Risiken hin, insbesondere im Hinblick auf das Urheberrecht und die Qualität des automatisch generierten Codes. Einem anderen Aspekt wurde weniger Aufmerksamkeit geschenkt: Das Tool blockiert Wörter, um zu verhindern, dass voreingenommene, diskriminierende, beleidigende oder anstössige Empfehlungen ausgesprochen werden. Diese Moderationsfunktion vor der Erstellung von Algorithmen hat die Neugier des Forschers Brendan Dolan-Gavitt, Assistenzprofessor für Informatik an der New York University, geweckt. In einer Reihe von Tweets erklärt der Experte, wie es ihm gelungen ist, die Liste der verbotenen Begriffe von Copilot zu entschlüsseln.

Githubs Copilot wurde in Zusammenarbeit mit OpenAI unter Verwendung des leistungsstarken GPT-3-Modells zur Verarbeitung natürlicher Sprache entwickelt. Zudem sparen die Entwickler Zeit, da der Assistent sowohl Kommentare als auch den Code selbst interpretiert, um Codezeilen vorzuschlagen. Eine derzeit neu entwickelte Version, ist bereits in der Lage, aus einfachen Anweisungen in natürlicher Sprache einen recht komplexen Code zu erstellen. Die Filterung verbotener Wörter auf Github gilt sowohl für die Eingabe der Entwickler als auch für die Ausgabe der KI.

Github fürchtet neue Kontroverse

Mithilfe verschiedener Techniken gelang es dem Forscher von der New York University, die meisten der 1170 verbotenen Begriffe zu entschlüsseln. Dank einer Hash-Funktion, welche nach seinen Angaben nicht kryptografisch, sondern manuell durchgeführt wurde, konnte er verschiedene verschlüsselte Wörter extrahierten. In einem Interview mit "The Register" sagte Brendan Dolan-Gavitt, es sei vernünftig, einige rassistische Bezeichnungen zu verbieten. Aber andere haben ihn überrascht. "Es gibt Wörter, die nicht beleidigend sind, von denen Github aber vielleicht fürchtet, dass sie in einem kontroversen Kontext verwendet werden", analysiert der Forscher. Er stellte fest, dass Copilot sich weigert, Israel in einer Liste von Ländern des Nahen Ostens vorzuschlagen.

Yep, Copilot definitely uses the list of slurs to suppress suggestions. Here it is refusing to suggest Israel in a list of Near East countries. Debug log says:

[DEBUG] [slurDetector] [2021-08-27T03:32:38.213Z] Detected slur in completion at offset 326 https://t.co/PNcEy6vMSv pic.twitter.com/EGs5dFJKjj
— Brendan Dolan-Gavitt (@moyix) August 27, 2021

Das Tool verhindert auch die Verwendung der Wörter Palästina, Kommunist, Liberaler, Sozialist, Faschist, Nazi, Immigrant, Rasse und anderer. Aber auch Männer, Frauen, Schwarze, Schwule, Lesben und Transgender. Trotz der Wahl einiger Begriffe, über die man streiten könnte, steht der Forscher dieser Moderationsfunktion, zumindest aus technischer Sicht, positiv gegenüber. Gegenüber "The Register" erklärt er: "Trotz der relativen Einfachheit des Ansatzes verhindert er, dass den Nutzern einige der schlimmsten Dinge präsentiert werden. Es handelt sich um eine 80-prozentige Lösung, die einfach zu entwickeln und zu implementieren ist.

Apropos verschlüsselt: Whatsapp bietet künftig auch die Funktion, Back-ups in der Cloud zu verschlüsseln. Damit möchte der Instant-Messaging-Dienst einer jahrelangen Kritik entgegenwirken. Mehr dazu erfahren Sie hier.

Artikel teilen: