In den Röhren: Herkömmliche PVC-Rohre können Spracherkennungssysteme hacken

Shimaa Ahmed, ein Doktorand, der im Labor von Professor Kassem Fawaz arbeitet, hat eine Methode entwickelt, um automatische Lautsprecheridentifikationssysteme zu umgehen, indem er ein PVC-Rohr verwendet, das man in jedem Baumarkt findet. Todd Brown

Forscher liefern sich ein Wettrüsten mit Hackern, um Datendiebstahl zu verhindern. Zu ihren Standardtools gehören Strategien wie Multi-Faktor-Authentifizierungssysteme, Fingerabdrucktechnologie und Netzhautscans. Ein immer beliebter werdendes Sicherheitssystem ist die automatische Sprechererkennung, bei der die Stimme einer Person als Passcode verwendet wird.

Diese Systeme, die bereits für Telefonbanking und andere Anwendungen eingesetzt werden, sind gut darin, Angriffe auszumerzen, die versuchen, die Stimme eines Benutzers durch digitale Manipulation zu fälschen. Aber Ingenieure für digitale Sicherheit an der University of Wisconsin-Madison haben herausgefunden, dass diese Systeme nicht ganz so narrensicher sind, wenn es um einen neuartigen analogen Angriff geht. Sie fanden heraus, dass das Sprechen durch maßgeschneiderte PVC-Rohre – wie sie in den meisten Baumärkten zu finden sind – maschinelle Lernalgorithmen austricksen kann, die automatische Sprechererkennungssysteme unterstützen.

Kassam Fawaz ist Assistenzprofessor am Fachbereich Elektrotechnik und Informationstechnik. Foto: Althea Dotzour

Das Team unter der Leitung des Doktoranden Shimaa Ahmed und Kassem Fawaz, Professor für Elektro- und Computertechnik, präsentierte seine Ergebnisse am 9. August auf dem Usenix Security Symposium in Anaheim, Kalifornien.

Die Risiken analoger Sicherheitslücken könnten weitreichend sein. Ahmed weist darauf hin, dass viele kommerzielle Unternehmen die Technologie bereits verkaufen und Finanzinstitute zu ihren ersten Kunden zählen. Auch für KI-gestützte persönliche Assistenten wie Apples Siri kommt die Technologie zum Einsatz.

„Mittlerweile werden die Systeme so sicher wie ein Fingerabdruck beworben, aber das ist nicht sehr genau“, sagt Ahmed. „All dies ist anfällig für Angriffe auf die Sprecheridentifizierung. Der von uns entwickelte Angriff ist sehr kostengünstig; Holen Sie sich einfach eine Röhre aus dem Baumarkt und ändern Sie Ihre Stimme.“

Das Projekt begann damit, dass das Team damit begann, automatische Sprechererkennungssysteme auf Schwachstellen zu untersuchen. Wenn sie deutlich sprachen, verhielten sich die Models wie angekündigt. Wenn sie jedoch durch ihre Hände oder in eine Box sprachen, anstatt deutlich zu sprechen, verhielten sich die Modelle nicht wie erwartet.

Ahmed untersuchte, ob es möglich sei, die Resonanz oder spezifische Frequenzschwingungen einer Stimme zu verändern, um das Sicherheitssystem zu umgehen. Da ihre Arbeit begann, während sie aufgrund von COVID-19 zu Hause festsaß, sprach Ahmed zunächst durch Papierhandtuchröhren, um die Idee zu testen. Später, nach ihrer Rückkehr ins Labor, engagierte die Gruppe Yash Wani, damals Student und jetzt Doktorand, um bei der Modifizierung von PVC-Rohren im UW Makerspace zu helfen. Ahmed, Yani und ihr Team verwendeten Rohre verschiedener Durchmesser, die sie in einem örtlichen Baumarkt gekauft hatten, und änderten die Länge und den Durchmesser der Rohre, bis sie die gleiche Resonanz erzeugen konnten, die sie mit ihrer Stimme nachahmen wollten.

Schließlich entwickelte das Team einen Algorithmus, der die PVC-Rohrabmessungen berechnen kann, die erforderlich sind, um die Resonanz fast jeder Stimme so umzuwandeln, dass sie eine andere nachahmt. Tatsächlich konnten die Forscher in einem Testsatz mit 91 Stimmen in 60 Prozent der Fälle die Sicherheitssysteme mit dem PVC-Röhrenangriff erfolgreich täuschen, während unveränderte menschliche Imitatoren die Systeme nur in 6 Prozent der Fälle täuschen konnten.

Der Spoof-Angriff funktioniert aus mehreren Gründen. Da der Ton zunächst analog ist, umgeht er die digitalen Angriffsfilter des Sprachauthentifizierungssystems. Zweitens wandelt die Röhre eine Stimme nicht in eine exakte Kopie einer anderen um, sondern fälscht stattdessen die Resonanz der Zielstimme, was ausreicht, um den Algorithmus des maschinellen Lernens dazu zu bringen, die angreifende Stimme falsch zu klassifizieren.

Fawaz sagt, dass ein Teil der Motivation hinter dem Projekt einfach darin besteht, die Sicherheitsgemeinschaft darauf aufmerksam zu machen, dass die Sprachidentifizierung nicht so sicher ist, wie viele Leute denken, obwohl er sagt, dass viele Forscher sich der Mängel der Technologie bereits bewusst sind.

Das Projekt hat auch ein größeres Ziel.

„Wir versuchen, etwas Grundlegenderes zu sagen“, sagt Fawaz. „Im Allgemeinen gehen alle maschinellen Lernanwendungen, die Sprachsignale analysieren, davon aus, dass die Stimme von einem Lautsprecher über die Luft zu einem Mikrofon kommt. Sie sollten jedoch nicht davon ausgehen, dass die Stimme Ihren Erwartungen entspricht. Es gibt alle möglichen möglichen Transformationen dieses Sprachsignals in der physischen Welt. Wenn dadurch die dem System zugrunde liegenden Annahmen gebrochen werden, wird sich das System schlecht verhalten.“

Weitere Autoren der Studie sind Ali Shahin Shamsabadi vom Alan Turing Institute; Mohammed Yaghini und Nicholas Papernot von der University of Toronto und dem Vector Institute sowie Ilia Shumailov von der University of Oxford und dem Vector Institute.

Die Autoren bedanken sich für die Unterstützung durch DARPA (durch das GARD-Programm); die Wisconsin Alumni Research Foundation; die NSF durch die Auszeichnungen CNS-1838733 und CNS-2003129; CIFAR (über einen kanadischen CIFAR AI Chair), NSERC (im Rahmen des Discovery Program und des strategischen Forschungsnetzwerks COHESA), eine Schenkung von Intel und eine Schenkung von NVIDIA.

Schlagworte: College of Engineering, maschinelles Lernen