Einbrechern einen Schritt voraus

News

Eine neue Machine-Learning-Methode von ETH-Wissenschaftlern ermöglicht Einbruchsprognosen auch in dünn besiedelten Gebieten.

Verschiedene Variablen wie Tageszeit, Ort, Bevölkerungsdichte helfen, eine bestimmte Land-Parzelle zu einer bestimmten Zeit als Einbruchsgefährdet oder nicht einzuschätzen. (Source: ETH Zürich)

Eingebrochen wird nicht überall und jederzeit. Es gibt Gemeinden, Quartiere und Strassen sowie Jahres- und Tageszeiten mit niedrigerem und solche mit höherem Risiko. Aus Einbruchsstatistiken können mit Machine-Learning Muster erkannt und das Risiko für einen Einbruch an einem bestimmten Ort vorausgesagt werden. Computerprogramme können der Polizei also helfen, für jeden Tag sogenannte Hotspots – Orte mit besonders hohem Einbruchsrisiko – zu erkennen und Patrouillen entsprechend einzusetzen.

Ungleichgewicht erschwert das Lernen

Bisher funktionieren solche Warnsysteme aber nur in dicht besiedelten Gebieten, also vor allem in Städten. Denn um Muster erkennen zu können, brauchen die Computerprogramme genügend Daten. In ländlichen, dünn besiedelten Gebieten sind kriminelle Vorfälle seltener. In der Statistik spricht man von einem "Klassenungleichgewicht". Konkret heisst das: Auf einen Strassenabschnitt mit Einbruch kommen einige hundert oder sogar 1000 ohne.

Algorithmen arbeiten parallel

Cristina Kadar ist Informatikerin und Doktorandin am Departement für Management, Technologie und Ökonomie. Sie hat eine Methode entwickelt, die trotz ungleich verteilten Daten zuverlässige Prognosen machen kann. Ihre Arbeit stellte sie soeben in der Fachzeitschrift Decision Support Systems vor. Die Forscherin hat mit einem grossen Datensatz von Einbrüchen im Kanton Aargau zahlreiche Machine-Learning-Methoden getestet, miteinander kombiniert und die Trefferraten verglichen. Am treffsichersten erwies sich eine Methode, welche die Gruppenintelligenz nutzt und Analysen verschiedener Algorithmen kombiniert.

Beim maschinellen Lernen trainiert sich ein Algorithmus anhand von grossen Datensätzen selber, Daten richtig zu klassifizieren. Im aktuellen Beispiel lernt er aus Variablen wie Tageszeit, Ort, Bevölkerungsdichte und vielem mehr, eine bestimmte Land-Parzelle zu einer bestimmten Zeit als Einbruchsgefährdet oder nicht einzuordnen.

Die Herausforderung bestand darin, die Klassifikations-Algorithmen trotz der geringen Anzahl von Einbruchsfällen im Datensatz trainieren zu können. Kadar hat dazu den Datensatz bearbeitet: Per Zufallsprinzip wurden Einheiten ohne Einbrüche entfernt, bis sich Einheiten mit und solche ohne Einbrüche die Waage hielten. Diese statistische Methode nennt sich "Random Undersampling". Mit diesem reduzierten Datensatz trainierte Kadar parallel zahlreiche Klassifikationsalgorithmen. Deren aggregierte Vorhersagen ergaben die Einbruchsprognose. Als Daten-Einheit verwendete Kadar Parzellen von 200 mal 200 Metern an einem bestimmten Tag.

Während herkömmliche Warnsysteme vor allem Einbruchsdaten verwenden, fütterte Kadar die Klassifikations-Algorithmen zusätzlich mit unpersönlichen aggregierten Bevölkerungsdaten, zum Beispiel zur Bevölkerungsdichte, zur Altersstruktur, zur Art der Bebauung, zur Infrastruktur (Vorhandensein von Schulen, Polizeiposten, Spitälern, Strassen), zum Nähe von Landesgrenzen oder mit zeitlichen Angaben wie den Wochentagen, Feiertagen, des Tageslichtes und sogar der Mondphase.

Trefferquote besser als in Städten

Mit der neuen Methode konnte Kadar die Trefferquote gegenüber herkömmlichen Methoden deutlich verbessern. Sie liess den Computer mit ihrer Methode voraussagen, wo auf dem Kantonsgebiet sich wahrscheinlich Einbrüche ereignen werden (Hotspots). Die Überprüfung zeigte: rund 60 Prozent der tatsächlichen Einbrüche wurden in den prognostizierten Hotspots verübt. Zum Vergleich: Wurden die Hotspots mit der herkömmlichen von der Polizei verwendeten Methode vorausgesagt, fanden nur 53 Prozent der tatsächlichen Einbrüche in der prognostizierten Region statt. "Die Methode erzielt mit ungleich verteilten Daten mindestens gleich gute und zum Teil bessere Trefferquoten als herkömmliche Methoden in städtischen Gebieten, wo die Daten dichter sind und zudem gleichmässiger verteilt", sagt Kadar.

Nützlich sind diese Erkenntnisse in erster Linie für die Polizei. Mit der Methode lassen sich auch in weniger dicht besiedelten Gebieten Regionen und Zeiten mit einem erhöhten Einbruchsrisiko voraussagen. Denkbar wäre aber auch, die Methode für die Vorhersage von anderen Risiken zu nutzen: Gesundheitsrisiken etwa oder die Wahrscheinlichkeit für Ambulanz-Notrufe. Auch die Immobilien-Branche könnte die Methode anwenden, um damit die Preisentwicklung von Immobilien anhand von räumlichen Faktoren zu prognostizieren.

Artikel teilen: